[빅분기] 빅데이터 수집

데이터 수집 유형
- 내부 데이터 : 조직 내부에 데이터가 위치하며, 데이터 담당자와 수집 주기 및 방법 등을 협의하여 데이터를 수집, 내부 조직 간 협의를 통한 데이터 수집을 통해 주로 수집이 용이한 정형 데이터이며, 서비스의 수명 주기 관리가 용이하다.
- 외부 데이터 : 조직 외부에 데이터가 위치하며, 특정 기관의 담당자 협의 또는 데이터 전문 업체를 통해 데이터를 수집, 공공 데이터의 경우에는 공공 데이터 포털을 통해 API 또는 파일로 수집, 외부 조직과 협의를 통해 데이터를 구매하거나 웹상의 오픈 데이터를 통한 데이터 수집을 통해 주로 수집이 어려운 비정형 데이터이다.
원천 데이터
- 내부 데이터 : SCM, ERP, CRM, 포털, 원장정보 시스템, 인증 시스템, 거래 시스템, 백본, 방화벽, 스위치, IPS, IDS, VOC 접수 데이터, 고객 포털 시스템 등
- 외부 데이터 : SNS, 커뮤니티, 게시판, 센서 데이터, 장비 간 발생 로그, 공공 데이터 등
데이터 수집 방법
- ETL : 데이터 분석을 위한 데이터를 데이터 저장소인 DW 및 DM으로 이동시키기 위해 다양한 소스 시스템으로부터 필요한 원본 데이터를 추출하고 변환하여 적재하는 기술이다.
  - 프로세스
    - 추출 : 동일 기종 또는 이기종 소스 데이터베이스로부터 데이터를 추출
    - 변환 : 조회 또는 분석을 목적으로 적절한 포맷이나 구조로 데이터를 저장하기 위해 데이터를 변환하여 데이터 결합 및 통합, 데이터 재구성 및 중복 데이터 제거, 일관성 확보를 위한 정제수행, Rule 적용, 데이터 표준화를 수행한다.
    - 적재 : 추출 및 변환된 데이터를 최종 대상에 저장
- FTP : TCP/IP 포로토콜을 기반으로 서버, 클라이언트 사이에서 파일 송수신을 하기 위한 프로토콜이다.
  - 유형
    - Active FTP : 클라이언트가 데이터를 수신받을 포트를 서버에 알려주면, 서버가 자신의 20번 포트를 통해 클라이언트의 임의의 포트로 데이터를 전송해 주는 방식으로 명령은 21번 포트, 데이터는 20번 포트를 사용한다.
    - Passive FTP : 서버가 데이터를 송신해줄 임의의 포트를 클라이언트에 알려주면 클라이언트가 서버의 임의의 포트로 접속해서 데이터를 가져가는 방식으로 명령은 21번 포트, 데이터는 1024 이후의 포트를 사용한다.
- 스쿱 : 커넥터를 사용하여 관계형 데이터베이스 시스템에서 하둡 파일 시스템으로 데이터를 수집하거나, 하둡 파일 시스템에서 관계형 데이터베이스로 데이터를 보내는 기술
  - 특징
    - 벌크 임포트 지원 : 전체 데이터베이스 또는 테이블을 HDFS로 한 번에 전송 가능
    - 데이터 전송 병렬화 : 시스템 사용률과 성능을 고려한 병렬 데이터 전송
    - 직접 입력 제공 : RDB에 매핑해서 HBase와 Hive에 직접 import 제공
    - 프로그래밍 방식의 데이터 인터랙션 : 자바 클래스 생성을 통한 데이터 상호작용
  - 구성요소
    - 스쿱 클라이언트 : 스쿱 1에서 지원하며, 클라이언트 기반으로 Import와 Export를 제공
    - 스쿱 서버 : 스쿱 2에서 지원하며, 클라이언트의 요청을 받아 작업을 수행
    - 커넥터 : FTP, JDBC, HDFS, 카프카 등과 연결하여 데이터의 이동을 수행하는 기술
    - Import : 다른 저장소의 데이터를 지정된 저장소로 가져오기 기능
    - Export : 저장소의 데이터를 다른 저장소로 내보내기 기능
- 스크래파이 : 파이썬 언어 기반의 비정형 데이터 수집 기술
  - 특징
    - 파이썬 기반 : 파이썬 언어 기반으로 구성, 설정이 쉬움
    - 단순한 스크랩 과정 : 크롤링 수행 후 바로 데이터 처리 가능
    - 다양한 부가 요소 : scrapyd, scrapinghub 등 부가 기능과 로깅을 지원한다.
  - 주요 기능
    - Spider, Selector, Items, Pipelines, Settings
- 아파치 카프카 : 대용량 실시간 로그 처리를 위한 분산 스트리밍 플랫폼
  - 특징
    - 신뢰성, 확장성
  - 주요 기능
    - 소스, 채널, 싱크, 인터프리터
- 플럼 : 많은 양의 로그 데이터를 효율적으로 수집, 집계, 이동하기 위해 이벤트와 에이전트를 활용하는 기술
  - 특징
    - 발행 모델, 구독 모델, 고가용성 제공, 파일 기반 저장방식
  - 주요 기능
    - 소스, 채널, 싱크
- 스크라이브 : 다수의 서버로부터 실시간으로 스트리밍되는 로그 데이터를 수집하여 분산 시스템에 데이터를 저장하는 대용량 실시간 로그 수집 기술로 단일 중앙 스크라이브 서버와 다수의 로컬 스크라이브 서버로 구성되어 안정성과 확장성을 제공
  - 특징
    - 실시간 스트리밍 수집, 확장, 데이터 수집 다양성, 고가용성
- 척와 : 분산된 각 서버에서 에이전트를 실행하고, 컬렉터가 에이전트로부터 데이터를 수집하여 하둡 파일 시스템에 저장, 실시간 분석 기능을 제공하는 기술
  - 특징
    - HDFS 연동, 실시간 분석 제공, 청크 단위 처리
  - 구성
    - 에이전트, 컬렉터
  - 데이터 처리
    - 아카이빙, 디먹스
- CEP : 여러 이벤트 소스로부터 발생한 이벤트를 실시간으로 추철하여 대응되는 액션을 수행하는 처리 기술로 실시간 상황에서 의미 있는 이벤트를 파악하고 가능한 빨리 대응할 수 있다.
- EAI : 기업에서 운영되는 서로 다른 플랫폼 및 애플리케이션들 간의 정보 전달, 연계, 통합을 가능하게 해 주는 연계 기술이며, 각 비즈니스 간 통합 및 연계성을 증대시켜 효율성을 높여 줄 수 있으며 각 시스템 간의 확장성을 높여 줄 수 있다.
- CDC : 데이터 백업이나 통합 작업을 할 경우 최근 변경된 데이터들을 대상으로 다른 시스템으로 이동하는 처리 기술로 실시간 백업과 데이터 통합이 가능하여 24시간 운영해야 하는 업무 시스템에 활용한다.
- ODS : 데이터에 대한 추가 작업을 위해 다양한 데이터 원천들로부터 데이터를 추철 및 통합한 데이터베이스로 비즈니스 지원을 위해 타 시스템으로 이관되거나, 보고서 생성을 위해 데이터 웨어하우스로 이관된다.
- 크롤링 : 인터넷상에서 제공되는 다양한 웹 사이트로부터 소셜 네트워크 정보, 뉴스, 게시판 등의 웹 문서 및 콘텐츠 수집 기술
- RSS : 블로그, 뉴스, 쇼핑몰 등의 웹 사이트에 게시된 새로운 글을 공유하기 위해 XML 기반으로 정보를 배포하는 프로토콜을 활용하여 데이터를 수집하는 기술
- Open API : 응용 프로그램을 통해 실시간으로 데이터를 수신할 수 있도록 공개된 API를 이용하여 데이터를 수집하는 기술로 센서 데이터, 공공 데이터 등의 정보를 수집
- 스트리밍 : 네트워크를 통해 오디오, 비디오 등의 미디어 데이터를 실시간으로 수집하는 기술

'빅데이터 이론' 카테고리의 다른 글

[빅분기] 데이터 적재, 저장 (0)	2022.08.28
[빅분기] 데이터 유형 및 비식별화 (0)	2022.08.28
[빅분기] 빅데이터 분석 방법론 (0)	2022.08.28
[빅분기]데이터 분석 계획 (0)	2022.08.28
[빅분기] 빅데이터 기술 (0)	2022.08.28