본문 바로가기
빅데이터 이론

[빅분기] 데이터 유형 및 비식별화

by BoomBear 2022. 8. 28.
  • 데이터 유형
    • 구조 관점
      • 정형 데이터 : 정형화된 스키마 구조기반의 형태를 가지고 고정된 필드에 저장되며 값과 형식에서 일관성을 가지는 데이터로 컬럼과 로우 구조를 가지며, 설계된 구조 기반 목적에 맞는 정보들을 의미한다.
      • 반정형 데이터 : 스키마 구조 형태를 가지고 메타데이터를 포함하며, 값과 형식에서 일관성을 가지지 않는 데이터로서 XML, HTML과 같은 웹 데이터가 Node 형태의 구조를 가짐
      • 비정형 데이터 : 스키마 구조 형태를 가지지 않고 고정된 필드에 저장되지 않는 데이터로 텍스트, 이미지, 오디오, 비디오 등이 있다.
    • 시간 관점
      • 실시간 데이터 : 생성된 이후 수 초~수 분 이내에 처리되어야 의미가 있는 현재 데이터
      • 비실시간 데이터 : 생성된 데이터가 수 시간 또는 수 주 이후에 처리되어야 의미가 있는 과거 데이터
    • 저장 형태 관점
      • 파일 데이터 : 시스템 로그, 서비스 로그, 텍스트, 스프레드시트 등과 같이 파일 형식으로 파일 시스템에 저장되는 데이터이며, 파일 크기가 대용량이거나 파일의 개수가 다수인 데이터
      • 데이터베이스 데이터 : 관계형 데이터베이스, 인메모리 데이터베이스 등에 의해서 데이터의 종류나 성격에 따라 데이터베이스의 컬럼또는 테이블 등에 저장된 데이터
      • 콘텐츠 : 텍스트, 이미지, 오디오, 비디오 등과 같이 개별적으로 데이터 객체로 구분 될 수 있는 미디어 데이터
      • 스트림 데이터 : 센서 데이터, HTTP 트랜잭션, 알람 등과 같이 네트워크를 통해서 실시간으로 전송되는 데이터
  • 데이터 변환 기술
    • 데이터의 특정 변수를 정해진 규칙에 따라 바꿔주는 기술로 데이터들에 대한 유형과 활용 목적에 따라 데이텁 변환 여부와 변환기술을 결정한다.
    • 변환 기술
      • 평활화 : 데이터로부터 잡음을 제거하기 위해 데이터 추세에 벗어나는 값들을 변환하는 기법으로 데이터 집합에 존재하는 잡음으로 인해 거칠게 분포된 데이터를 매끄럽게 만들기 위해 구간화 군집화 등의 기법을 적용한다.
      • 집계 : 다양한 차원의 방법으로 데이터를 요약하는 기법으로 여러 개의 표본을 하나의 표본으로 줄이는 방법, 함수를 이용해서 한꺼번에 변수 변환을 적용하여 새로운 변수로 값을 생성하는 방법 등을 활용한다.
      • 일반화 : 특정 구간에 분포하는 값으로 스케일을 변화시키는 기법으로 일부 특정 데이터만 잘 설명하는 것이 아니라 범용적인 데이터에 적합한 모델을 만드는 기법이다.
      • 정규화 : 데이터를 특정 구간으로 바꾸는 척도법으로 정규화의 유형에는 최소 - 최대 정규화, Z-점수 정규화 등이 있다.
      • 속성 생성 : 데이터 통합을 위해 새로운 속성이나 특징을 만드는 방법으로 주어진 여러 데이터 분포를 대표할 수 있는  새로운 속성및 특징을 활용하는 기법이다
  • 데이터 비식별화
    • 특정 개인을 식별할 수 없도록 개인정보의 일부 또는 전부를 변환하는 방법으로 데이터를 안전하게 활용하기 위해서는 수집된 데이터의 개인정보 일부 또는 전부를 삭제하거나 다른 정보로 대체함으로써 다른 정보와 결합하여 특정 개인을 식별하기 어렵게 데이터 비식별화 조치를 한다.
    • 적용대상
      • 개인을 식별할 수 있는 정보, 고유식별 정보, 생체 정보, 기관 및 단체 등의 이용자 계정, 개인 특성, 신체 특성, 신용 특성, 경력 특성, 전자적 특성, 가족 특성, 위치특성등 민감한 정보나 고유 식별정보들이 해당한다.
    • 처리기법
      • 가명처리 : 개인 식별이 가능한 데이터에 대하여 직접 식별할 수 없는 다른 값으로 대체하는 기법으로 그 자체로는 완전 비식별화가 가능하며 데이터의 변형, 변질 수진이 낮음
      • 총계처리 : 개인정보에 대하여 통곗값을 적용하여 특정 개인을 판단할 수 없도록 하는 기법으로 민감한 정보에 대하여 비식별화가 가능하며 다양한 통계분석용 데이터 세트 작성에 유리하다.
      • 데이터값 삭제 : 개인정보 식별이 가능한 특정 데이터값 삭제 처리 기법으로 민감한 개인 식별 정보에 대하여 완전한 삭제처리가 가능하여 예측, 추론 등이 어렵도록 한다.
      • 범주화 : 단일 식별 정보를 해당 그룹의 대푯값으로 변환하거나 구간 값으로 변환하여 고유 정보 추적 및 식별 방지 기법으로 범주나 범위는 통계형 데이터 형식으므로 다양한 분석 및 가공이 가능한다.
      • 데이터 마스킹 : 개인 식별 정보에 대하여 전체 또는 부분적으로 대체값 공배또는 * 등으로 변환하는 기법으로 완전 비식별화가 가능하며 원시 데이터의 구조에 대한 변형이 적다.
    • 재현 데이터
      • 실제로 측정된 원본자료를 활용하여 통계적 방법이나 기계학습 방법 등을 이용하여 새롭게 생성한 모의 데이터
      • 특징으로는 원본 자료와 최대한 유사한 통계적 성질을 보이는 가상의 데이터를 생성하기 위해서 개인정보의 특성을 분석하여 새로운 데이터를 생성한다.
      • 유형
        • 완전 재현 데이터 : 원본 자료의 속성 정보 모두를 재현 데이터로 생성한 데이터로서 정보보호 측면에서 가장 강력한 보안성을 가진다.
        • 부분 재현 데이터 : 모든 속성자료를 재현 데이터로 만들기가 현실적으로 어렵기 때문에 민감하지 않은 정보는 그대로 두고, 민감한 정보에 대해서만 재현 데이터로 대체한 데이터
        • 복합 재현 데이터 : 일부 변수들의 값을 재현 데이터로 생성하고 생성된 재현 데이터와 실제 변수를 모두 이용하여 또 다른 일부 변수들의 값을 다시 도출하는 방법으로 생성한 데이터
  • 개인정보 익명 처리 기법
    • 가명처리 : 개인 식별이 가능한 데이터에 대하여 직접 식별할 수 없는 다른 값으로 대체하는 기법
    • 일반화 : 더 일반화된 값으로 대체하는 것으로 숫자 데이터의 경우 구간으로 정의하고, 범주화된 속성은 트리의 계층적 구조에 의해 대체하는 기법
    • 섭동 : 원래 데이터를 동일한 확률적 정보를 가지는 변형된 값으로 대체하는 기법
    • 치환 : 특정 컬럼의 데이터를 부작위로 순서를 변경하는 기법
  • 개인정보 비식별 조치 가이드라인
    1. 사전검토 : 개인정보 해당 여부를 검토하고, 개인정보에 해당하지 않는 경우에는 별도 조치 없이 활용
    2. 비식별 조치 기준
      • 식별자 조치 기준 : 정보 집합물에 포함된 식별자는 원칙적으로 삭제 조치
      • 속성자 조치 기준 : 데이터 이용 목적과 관련이 없는 속성자의 경우 원칙적으로 삭제
      • 비식별 조치 방법 : 여러 비식별 조치 방법을 이용하여 단독 또는 복합적 활용
    3. 적정성 평가
      • 기초 자료 작성 : 적정성 평가가 필요한 기초자료를 작성
      • 평가단 구성 : 개인정보보호 책임자가 3명 이상의 관련 분야 전문가로 구성
      • 평가 수행 : 여러 프라이버시 보호 모델 활용하여 비식별 수준 적정성 평가
      • 추가 비식별 조치 : 평가결과가 부적정인 경우, 추가 비식별 조치 실시
      • 데이터 활용 : 평가결과가 적정인 경우, 해당 데이터를 빅데이터 분석에 이용하거나 제3자에게 제공
    4. 사후관리
      • 비식별 정보 안전조치 : 비식별 조치된 정보가 유출되는 경우 다른 정보와 결합하여 식별될 우려가 존재하므로 필수적 보호조치 이행
      • 재식별 가능성 모니터링 : 비식별 정보를 이용하여 제3자에게 제공하는 경우, 정보의 재식별 가능성을 정기적으로 모니터링 수행

 

반응형

'빅데이터 이론' 카테고리의 다른 글

[빅분기] 데이터 정제  (0) 2022.08.28
[빅분기] 데이터 적재, 저장  (0) 2022.08.28
[빅분기] 빅데이터 수집  (0) 2022.08.28
[빅분기] 빅데이터 분석 방법론  (0) 2022.08.28
[빅분기]데이터 분석 계획  (0) 2022.08.28

댓글