
Data Lake 튜토리얼로 쉽고 빠르게 알아보기
서비스 개요
kt cloud Data Lake는 정형/비정형/반정형의 다양한 데이터 소스 연계, 대용량 데이터 분석, 워크플로우 및 시각화를 통한 인사이트 활용까지 데이터의 모든 Lifecycle을 하나로 담아낸 통합 빅데이터 플랫폼입니다.
새롭게 업데이트된 kt cloud Data Lake는 VM기반의 NDAP과 Container 기반의 NE 서비스를 통합한 End-to-End 빅데이터 플랫폼 서비스입니다. NDAP은 대용량 배치 데이터에 특화된 Hadoop 기반의 수집-저장-처리에 초점을 맞춘 플랫폼이며, NE는 Python, Spark 등을 활용한 데이터 분석처리 최적화 플랫폼으로 사용자는 목적에 따라 서비스를 선택적으로 조합하여 사용할 수 있습니다.
서비스 자동 프로비저닝을 통한 쉽고 빠른 분석 환경을 제공하여 사용자가 데이터 분석 및 활용에 집중할 수 있게 하였고, NE는 Multi-tenancy 아키텍처 적용을 통한 관리형 서비스 형태로 사용자의 운영 및 관리 부담을 최소화 하였습니다. 또한 사용한 리소스에 대한 비용만 부과하여 사용자는 데이터 분석에 필요한 비용을 최적화 할 수 있습니다.
서비스 특징
kt cloud Data Lake NDAP 주요 특징
1All-In-One 빅데이터 플랫폼
- 빅데이터 활용의 핵심 기능(수집,저장,조회,처리,운영,보안,분석)을 단일 플랫폼으로 구현
- 모든 정형, 비정형, 반정형 데이터에 대한 통합 저장 및 처리 가능
- 언제 어디서나 Cloud 기반 분석 및 활용
2편리한 고성능 데이터 분석
- 분석 환경 자동 구성 및 WEB/GUI 기반 편리한 사용 지원
- 대용량 데이터에 대한 고성능 데이터 분석 (빅데이터 병렬 분석) 지원
- SQL 사용(ANSI SQL)을 통한 구현 난이도 최소화
3통합 데이터 거버넌스
- 데이터의 라이프사이클 추적을 통한 데이터 완전 관리 지원
- 사용자 권한 설정 및 암호화를 통한 데이터 보안 강화
kt cloud Data Lake NE 주요 특징
1대용량 데이터의 최적화된 성능 확장성
- 노드(x86서버 단위) 추가 및 저장 용량, 성능 확장 용이
- 노드 증설 시 손쉬운 프로비저닝 기능 제공
2GUI 기반의 사용자 편의성 제공
- 수집에 대한 Task 관리, Platform Management 등 GUI 기반 Tool Kit 제공
3손쉬운 수집 및 저장
- RDBMS, System Logs, Machine Logs 등 모든 정형, 비정형 데이터에 대한 통합 저장
- Workflow Engine과의 유연한 연계를 통한 효율적인 Data Processing Task 구성 및 관리
4기존 시스템과 유연한 상호 운영성
- ANSI SQL 기반하여 보다 쉽게 데이터 처리
- Legacy RDBMS와의 유연한 연동성
구성도
단일 솔루션으로 데이터 분석환경을 통합 제공합니다.

직관적인 UI로 빠른 데이터 분석은 물론 신속한 비즈니스 의사결정을 지원합니다.

서비스 주요 기능
kt cloud Data Lake NDAP 주요 기능사용자 친화적 Web GUI 기반으로 Workflow와 Workbench, 통합 모니터링, Job 처리, 실행쿼리 등 다양한 기능을 제공합니다.
데이터 수집_Import Job

데이터 수집_Import Job

데이터 수집_Import Job

데이터 수집_Import Job

Batch
Workflow
- 개발 편의성 향상을 위한 SQL tool 형태의 인터페이스
- SQL로 데이터를 처리할 수 있는 Unified SQL Engine 제공
- SQL 개발과 관리, DB설계, 생성, 유지를 위한 통합 환경
Workbench
- JOB 개발/실행/관리 환경 제공
- 프로젝트/JOB 단위의 관리 기능 제공
- SQL을 통한 Rule Check & Filtering, Column Value 치환 등의 작업 가능
- 순차처리가 필요한 여러 형태의 Job 들을 손쉽게 구성, 저장 및 실행
데이터 암호화 및 접근 제어
- 사용자 정의 Role 생성 기능 제공
- 테이블 생성 시 컬럼 별 암호화 여부 지정 기능 제공
- 사용자 로그인, 생성, 권한 변경 이력 조회
- 국제 표준 256비트 SEED Block 암호화 기본 지원
모니터링
- 각 시스템에서 제공하는 Metric 정보 제공
- 클러스터 상태/리소스 정보 모니터링
- 전체 시스템 Metric log 정보 제공
데이터 수집
- 다양한 유형의 정형, 비정형, 반정형 데이터 수집
- 수집 작업 등록, 관리, 삭제, 수행 지원 GUI 제공
- 수집 프로토콜 제공 (JDBC, SSH, SFTP, FTP, Rsync, TCP, UDP, SNMP 등)
- 다양한 포맷 지원을 위한 Plug-in 구조의 확장성을 보장하는 전처리 기능 제공
데이터 저장
- Hadoop 2.7 (Yarn)기반 데이터 저장 및 처리 최적화
- 3-replication을 통한 데이터 안정성
- 저장 효율화를 위한 압축 지원
- 분석가를 위한 Working Area 제공
- 컬럼 단위 암/복호화 설정
데이터 처리/조회
- Hive 기반 표준 SQL 처리 제공으로 개발 편의성 향상
- HDFS/NoSQL 통합 SQL 인터페이스 제공
- 다양한 사용자 정의 함수(UDF)제공
- GUI 기반 SQL 개발 도구 제공
타 시스템 연동
- 다양한 분석을 지원하기 위한 분석 솔루션과의 연동 지원 (R/ Python / SPSS / SAS 등)
- 데이터 분석결과를 쉽게 이해할 수 있도록 다양한 BI툴과의 유연한 연계 지원 (MSTR / Tableau / spotfire 등)
- 저장된 데이터를 직접 조회 하거나 파일로 추출, 전송할 수 있는 기능 제공 (file export / DB file export)
kt cloud Data Lake NE 주요 특징
프로젝트 브라우저
- 프로젝트 현황 대시보드. 아이템 생성, 활용, 통합 검색
- 디렉터리와 App간 링크 생성 및 관리

테이블 매니저
- 원천데이터 저장소(JDBC/Kafka/HDFS/Object Storage)와 연결정보 설정하는 저장소 관리 기능
- 저장소 저장단위를 스파크테이블로 매핑

노트북
- Tensorflow, Keras, PyTorch등 ML 프레임워크 제공
- SQL, Scala, python 자유로운 코딩 환경제공
- 필요한 라이브러리를 바인딩해 수행하는 고급 데이터 처리
- DW 구축부터 ML모델 활용까지 하나의 노트에 담을 수 있는 환경

워크벤치
- 편리한 SQL 에디터를 통해 SQL만으로 쉽게 빅데이터를 사용하고 관리 가능
- SQL 기반 대화식 분석 서비스 제공

워크 플로우
- 데이터가 변환되는 흐름을 정의
- 흐름의 노드를 구성하는 노트북, 시각화 대시보드 를 캔버스에 배치하고 각 작업간의 선후행 관계를 정의하고 작업의 분기와 병합등의 조건을 명시할 수 있는 기능을 제공

스케줄러
- 데이터 처리와 흐름을 자동화
- 다음 작업을 정해진 시점에 자동으로 실행하도록 등록/관리: 노트북 코드 실행, 워크플로우 실행, 대시보드 리포트 배포 등

시각화 대시보드
- (노트북/워크플로우/스케줄러로) 생성된 데이터 자산을 시각화 대시보드로 생성, 제공
- 대시보드 생성, 패털 추가, 데이터 소스 지정(혹은 신규 등록), 패널 유형별 속성 정의, 대시보드 설정 지정, 레포트 배포 설정, 공유 설정

환경설정 및 현황
- 시스템 사용에 필요한 기본 정보 관리
- 서비스 대시보드, 이벤트, 로그, 사용자, 역할, 저장소 관리 등
