빅데이터 플랫폼
- 빅데이터에서 가치를 추출하기 위해 일련의 과정(수집 -> 저장 -> 분석 -> 활용)을 규격화한 기술
- 특화된 분석을 지원하는 빅데이터 플랫폼이 발전하는 추세 (예 : 의료, 환경, 범죄, 자동차 등)
- 빅데이터 플랫폼 구성요소
- 데이터 수집 : 원천 데이터의 정형, 반정형, 비정형 데이터 수집(ETL, 크롤러, EAI 등)
- 데이터 저장 : 정형 데이터, 반정형 데이터, 비정형 데이터 저장(RDBMS, NoSQL 등)
- 데이터 분석 : 텍스트 분석, 머신러닝, 통계, 데이터 마이닝(SNS분석, 예측 분석 등)
- 데이터 활용 : 데이터 가시화 및 BI, Open API 연계
- 하둡 에코 시스템(Hadoop Ecosystem)
- 하둡 프레임워크를 이루고 있는 다양한 서브 프로젝트들의 집합
- 수집, 저장, 처리 기술과 분석, 실시간 SQL 질의 기술로 구분
- 하둡 에코시스템 기술로는 비정형 데이터 수집, 정형 데이터 수집, 분산 데이터 저장, 분산 데이터베이스, 분산 데이터 처리, 리소스 관리, 인메모리 처리, 데이터 가공, 데이터 마이닝, 실시간 SQL 질의, 워크플로우 관리, 분산 코디네이션 등이 있다.
- 하둡 에코시스템 기술
- 비정형 데이터 수집
- 척와 : 분산된 각 서버에서 에이전트를 실행하고, 컬렉터가 에이전트로부터 데이터를 받아 HDFS에 저장하는 기술
- 플럼 : 많은 양의 로그 데이터를 효율적으로 수집, 집계, 이동하기 위해 이벤트와 에이전트를 활용하는 기술
- 스크라이브 : 다수의 서버로부터 실시간으로 스트리밍되는 로그 데이터를 수집하여 분산 시스템에 데이터를 저장하는 대용량 실시간 로그 수집 기술. 최종 데이터는 HDFS 외에 다양한 저장소 활용
- 정형 데이터 수집
- 스쿱 : 대용량 데이터 전송 솔루션으로 커넥터를 사용하여 관계형 데이터베이스 시스템(RDBMS)에서 하둡 파일 시스템(HDFS)으로 데이터를 수집하거나, 하둡 파일 시스템에서 관계형 데이터베이스로 데이터를 보내는 기술
- 히호 : 스쿱과 같은 대용량 데이터 전송 솔루션이며, 하둡에서 데이터를 가져오기 위한 SQL을 지정할 수 있으며, JDBC 인터페이스를 지원
- 분산 데이터 저장
- HDFS : 대용량 파일을 분산된 서버에 저장하고, 그 저장된 데이터를 빠르게 처리할 수 있게 하는 하둡 분산 파일 시스템으로 범용 하드웨어 기반, 클러스터에서 실행되고 데이터 접근 패턴을 스트리밍 방식으로 지원하며, 다중 복제, 대량 파일 저장, 온라인 변경, 범용서버 기반, 자동복구 특징이 있음.
- 네임 노드 : 파일 이름, 권한 등의 속성 기록 및 데이터 노드의 위치 파악
- 데이터 노드 : 일정한 크기로 나눈 블록 형태로 저장
- HDFS : 대용량 파일을 분산된 서버에 저장하고, 그 저장된 데이터를 빠르게 처리할 수 있게 하는 하둡 분산 파일 시스템으로 범용 하드웨어 기반, 클러스터에서 실행되고 데이터 접근 패턴을 스트리밍 방식으로 지원하며, 다중 복제, 대량 파일 저장, 온라인 변경, 범용서버 기반, 자동복구 특징이 있음.
- 분산 데이터베이스
- HBase : HDFS를 기반으로 구현된 컬럼 기반의 분산 데이터베이스로 실시간 랜덤 조회 및 업데이트를 할 수 있으며, 각각의 프로세스는 개인의 데이터를 비동기적으로 업데이트할 수 있음
- 분산 데이터 처리
- 맵리듀스 : 대용량 데이터 세트를 분산 병렬 컴퓨팅에서 처리하거나 생성하기 위한 목적으로 만들어진 소프트웨어 프레임워크로 모든 데이터를 키-값(Key-Value) 쌍으로 구성. 데이터를 분류
- 맵 : Key-Value 형태로 데이터를 취합
- 셔플 : 데이터를 통합하여 처리
- 리듀스 : 맵 처리된 데이터를 정리
- 맵리듀스 : 대용량 데이터 세트를 분산 병렬 컴퓨팅에서 처리하거나 생성하기 위한 목적으로 만들어진 소프트웨어 프레임워크로 모든 데이터를 키-값(Key-Value) 쌍으로 구성. 데이터를 분류
- 리소스 관리
- 얀 : 하둡의 맵리듀스 처리 부분을 새롭게 만든 자원 관리 플랫폼으로. 리소스 매니저와 노드 매니저로 구성
- 리소스 매니저 : 스케줄러 역할을 수행하고, 클러스터 이용률 최적화를 수행
- 노드 매니저 : 노드 내의 자원을 관리하고, 리소스 매니저에게 전달 수행 및 컨테이너를 관리
- 애플리케이션 마스터 : 리소스 매니저와 자원의 교섭을 책임지고, 컨테이너를 실행
- 컨테이너 : 프로그램 구동을 위한 격리 환경을 지원하는 가상화 자원
- 얀 : 하둡의 맵리듀스 처리 부분을 새롭게 만든 자원 관리 플랫폼으로. 리소스 매니저와 노드 매니저로 구성
- 인메모리 처리
- 아파치 스파크 : 하둡 기반 대규모 데이터 분산처리시스템으로 스트리밍 데이터, 온라인 머신러닝 등 실시간 데이터 처리
- 데이터 가공
- 피그 : 대용량 데이터 집합을 분석하기 위한 플랫폼으로 하둡을 이용하여 맵리듀스를 사용하기 위한 높은 수준의 스크립트 언어인 피그 라틴이라는 자체 언어를 제공
- 하이브 : 하둡 기반 DW 솔루션으로 SQL과 매우 유사한 HiveQL이라는 쿼리를 제공
- 데이터 마이닝
- 머하웃 : 하둡 기반으로 데이터 마이닝 알고리즘을 구현한 오픈소스로 분류, 클러스터링, 추천 및 협업 필터링, 패턴 마이닝, 회귀 분석, 진화 알고리즘 등 주요 알고리즘 지원
- 실시간 SQL 질의
- 임팔라 : 하둡 기반의 실시간 SQL 질의 시스템으로 데이터 조회를 위한 인터페이스로 HiveQl을 사용하며, 수초 내에 SQL 질의 결과를 확인할 수 있으며, HBase와 연동이 가능
- 타조 : 다양한 데이터 소스를 위한 하둡 기반의 ETL 기술을 이용해서 데이터 웨어하우스에 적재하는 시스템
- 워크플로우 관리
- 우지 : 하둡 작업을 관리하는 워크플로우 및 코디네이터 시스템
- 분산 코디네이션
- 주키퍼 : 분산 환경에서 서버들 간ㄴ에 상호 조정이 필요한 다양한 서비스를 제공하는 기술로 하나의 서버에서만 서비스가 집중되지 않도록 서비스를 알맞게 분산하여 동시에 처리
- 비정형 데이터 수집
인공지능
- 인간의 지적능력을 인공적으로 구현하여 컴퓨터가 인간의 지능적인 행동과 사고를 모방할 수 있도록 하는 소프트웨어.
- 인공지능 > 기계학습 > 딥러닝 순으로 인공지능의 범위가 정의되어있다.
- 빅데이터의 신뢰성과 현실성으로 AI기술인 분석력과 예측력을 결합하여, 보다 뛰어난 분석을 가능하게 한다.
- 빅데이터 목표가 인공지능 목표와 부합하고, 인공지능 판단을 위해서는 빅데이터와 같은 기술이 필수이므로, 빅데이터는 인공지능을 위한 기술이 될 가능성이 크다.
반응형
'빅데이터 이론' 카테고리의 다른 글
[빅분기] 빅데이터 수집 (0) | 2022.08.28 |
---|---|
[빅분기] 빅데이터 분석 방법론 (0) | 2022.08.28 |
[빅분기]데이터 분석 계획 (0) | 2022.08.28 |
[빅분기] 빅데이터 조직 및 구성 (0) | 2022.08.28 |
[빅분기] 빅데이터란? (0) | 2022.08.28 |
댓글