AYSTORY

[필기] 데이터 수집 및 전환 본문

빅데이터분석기사

[필기] 데이터 수집 및 전환

bye0nzn 2026. 3. 7. 15:15

Ch3. 데이터 수집 및 저장 계획


01. 데이터 수집

데이터 처리 시스템에 들어갈 데이터를 모으는 과정으로 여러 장소에 있는 데이터를 한 곳으로 모으는 것

  1. 비즈니스 도메인과 원천 데이터 정보 수집
    • 비즈니스 도메인 정보
      • 비즈니스 모델
      • 비즈니스 용어집
      • 비즈니스 프로세스
      • 도메인 전문가 인터뷰
    • 원천 데이터 정보
      • 데이터 수집 가능성
      • 데이터 보안
      • 데이터 정확성
      • 수집 난이도
      • 수집 비용
  2. 내·외부 데이터 수집
    • 데이터 종류
      • 내부 데이터: 서비스 시스템 / 네트워크 및 서버 장비 / 마케팅 데이터
      • 외부 데이터: 소셜 데이터(제품 리뷰 커뮤니티, 페북) / 특정 기관 데이터 / M2M 데이터(센서 데이터, 장비 발생 로그) / LOD(공공 데이터)
    • 데이터 수집 주기
      • 내부 데이터: 실시간 수집하여 분석할 수 있도록
      • 외부 데이터: 일괄 수집으로 끝날지, 일정 주기로 데이터를 수집할지 결정하여 수집 데이터 관리 정책 정함.
    • 데이터 수집 방법
      • 내부 데이터
        • 조직 내부 협의에 따른 데이터 수집
        • 인터페이스 생성
        • 파일 시스템, DBMS, 센서 등
      • 외부 데이터
        • 외부 조직의 데이터 필요시 상호 협약에 의한 수집
        • 인터넷 통한 연결
        • 협약에 의한 DBMS 데이터, 웹 페이지, 소셜 미디어, 문서 등
  3. 데이터 수집 기술
    • 데이터 유형별 데이터 수집 기술
      • 정형 데이터
        • ETL(Extract Transform Load): 수집 대상 데이터 추출 및 가공하여 데이터 웨어하우스에 저장하는 기술
        • FTP(File Transfer Protocol): TCP/IP나 UDP 프로토콜을 통해 원격지 시스템으로부터 파일을 송수신하는 기술
        • API(Application Programming Interface): 솔루션 제조사 및 3rd party 소프트웨어로 제공되는 도구로, 시스템 간 연동을 통해 실시간으로 데이터를 수신할 수 있도록 기능을 제공하는 인터페이스
        • DBToDB: DBMS 간 데이터를 동기화 또는 전송
        • Sqoop: RDBMS와 hadoop 간 데이터 전송
      • 비정형 데이터
        • 크롤링
        • RSS(Rich Site Summary): 블로그, 뉴스, 쇼핑몰 등 웹사이트에 게시된 새로운 글을 공유하기 위해 XML 기반으로 정보 배포하는 프로토콜
        • Open API
        • Chuckwa: 분산 시스템으로부터 데이터 수집, 하둡 파일 시스템에 저장 실시간 분석 기능 제공
        • Kafka: 대용량 실시간 로그처리를 위한 분산 스트리밍 플랫폼 기술
      • 반정형 데이터
        • Flume: 분산 환경에서 대량의 로그 데이터를 수집, 전송하고 분석
        • Scribe: 다수 수집 대상 서버로부터 실시간으로 데이터를 수집, 분산 시스템에 데이터 저장
        • Sencing: 센서로부터 수집, 생성된 데이터를 네트워크 통해 활용해 수집
        • Streaming: 네트워크를 통해 센서 데이터 및 오디오, 비디오 등의 미디어 데이터를 실시간으로 수집
    • ETL(Extract Transform Load)
      • 하나 이상의 데이터 소스로부터 데이터 웨어하우스, 데이터 마트, 데이터 통합, 데이터 이동(migration) 등 다양한 응용시스템을 위한 데이터 구축에 필요한 핵심 기술
      • Extract - Transform - Load의 3단계 프로세스
        • Extract: 하나 또는 그 이상의 데이터 원천으로부터 데이터 획득
        • Transform: 목표로 하는 형식이나 구조로 데이터 변환 / 데이터 정제, 변환, 표준화, 통합 등 진행
        • Load: 변환이 완료된 데이터를 특정 목표 시스템에 저장
    • FTP(File Transfer Protocol)
      • 대량의 파일(데이터)을 네트워크를 통해 주고받을 때 사용되는 파일 전송 서비스
      • 인터넷을 통한 파일 송수신만을 위해 만들어진 프로토콜이기 때문에 동작 방식이 단순하고 직관적, 파일을 빠른 속도로 한꺼번에 주고받을 수 있음.
      • 특징
        • 인터넷 프로토콜인 TCP/IP 위에서 동작
        • 서버와 클라이언트를 먼저 연겷고 이후 데이터 파일 전송
        • FTP 서비스를 제공하는 서버와 접속하는 클라이언트 사이 두 개의 연결을 생성
        • 사용자 계정 및 암호 등 정보나 파일 전송 명령 및 결과 등은 데이터 제어 연결에서, 이후 실제 파일 송수신 작업은 데이터 전송 연결에서 처리
    • 정형 데이터 수집을 위한 아파치 스쿱(Sqoop) 기술
      • 관계형 데이터 스토어 간 대량 데이터를 효과적으로 전송하기 위해 구현된 도구
      • 커넥터 사용하여 관계형 DB의 데이터를 하둡 파일시스템(HEFS, Hive, Hbase)으로 수집
      • 관계형 DB에서 가져온 데이터들을 하둡 맴리듀스로 변환하고, 변환된 데이터 다시 관계형 데이터베이스로 내보내기
      • 데이터 가져오기/내보내기 과정을 맵리듀스를 통해 처리하기 때문에 병렬처리가 가능하고 장애에도 강한 특징
      • 아파치 스쿱 특징
        • Bulk import 지원: 전체 DB 또는 테이블을 HDFS로 전송 가능
        • 데이터 전송 병렬화: 시스템 사용률과 성능을 고려한 병렬 데이터 전송
        • Direct input 제공: RDB에 매핑하여 Hbase와 Hive에 직접적 import 제공
        • 프로그래밍 방식의 데이터 인터랙션: 자바 클래스 생성을 통한 데이터 상호작용 지원
      • Sqoop(SQL+HADOOP): MySQL, Oracle 환경의 데이터를 Hbase, Hive 또는 HDFS로 import 가능
        • HDFS: 하둡 분산 파일 시스템
        • Hive: 하둡에서 동작하는 데이터 웨어하우스 인프라 구조로서 데이터 요약, 질의 및 분석 기능 제공
        • Hbase: 하둡 플랫폼을 위한 공개 비관계형 분산 데이터베이스
    • 로그/센서 데이터 수집을 위한 아파치 플럼(Flume) 기술
      • 대용량 로그 데이터를 효과적으로 수집, 집계, 이동시키는 신뢰성 있는 분산 서비스를 제공하는 솔루션
      • 스트리밍 데이터 흐름에 기반을 둔 간단하고 유연한 구조
      • 하나의 에이전트는 소스, 채널, 싱크로 구성
        • 소스는 웹서버, 로그데이터서버 등 원시데이터소스와 연결되며, 소스로부터 들어오는 데이터는 큐의 구조를 갖는 채널로 들어간 후, 싱크를 통해 목표 시스템으로 전달
      • 특징
        • 신뢰성: 장애 시 로그 데이터 유실 없이 전송 보장
        • 확장성: 수평 확장이 가능하여 분산 수집이 가능
        • 효율성: 커스터마이징 가능 + 고성능 제공

아파치 플럼

  • (이어서)
    • 웹 및 소셜 데이터 수집을 위한 스크래피(Scrapy) 기술
      • 웹사이트 크롤링 + 구조화된 데이터 수집하는 도구
      • API를 이용하여 다양한 형식의 데이터를 추출할 수 있어, 범용 웹크롤러로 사용
      • Scrapy; 파이썬으로 작성된 오픈소스 웹크롤링 프레임워크
        • 데이터 마이닝, 정보 처리, 이력 기록 같은 다양한 애플리케이션에 유용하게 사용
      • 특징
        • 파이썬 기반
        • 단순 스크랩 과정: 크롤링 후, 바로 데이터 처리 가능
        • 다양한 부가 요소: scrapyd, scrapinghub 등 부가요소, 쉬운 수집, 로깅 지원
Q. 관계형 데이터베이스로부터 데이터를 추출하는데 사용되는 기술로 틀린 것은?
1) ETL
2) Sqoop
3) API
4) 크롤링 → 웹페이지를 그대로 가져온 후 데이터 추출하는 것

02. 데이터 유형 및 속성 파악

  • 데이터 수집 세부 계획 작성
  • 데이터 유형과 위치 및 비용
    • 데이터 유형
      • 정형 데이터 - RDB, file
      • 반정형 데이터: 메타 구조 갖는 데이터 - HTML, XML, JSON, RSS, 웹로그, 센서 데이터
      • 비정형 데이터 - 동영상, 이미지, 텍스트
    • 데이터 위치
      • 내부 데이터
        • 내부 조직간 협의를 통해 데이터 수집
        • 대부분 정형 데이터로 존재
        • 데이터 담당자와 협의 원활
        • 비용 및 수집 난이도 낮음.
        • 서비스 수명 주기 관리 용이
      • 외부 데이터 (분석 가치 높음)
        • 외부 조직과 협약, 데이터 구매, 웹 상의 오픈 데이터를 통해 수집
        • 대부분 반정형, 비정형 데이터로 존재
        • 외부 데이터 담당자와 의사소통 어려움.
        • 대부분 추가적 데이터 가공 작업 필요
        • 비용 및 수집 난이도 높음.
        • 외부 환경에 대한 통제 어려움에 따른 서비스 관리정책 수집이 필요
    • 데이터 확보 비용 산정
      • 데이터 종류: RDB, 파일, HTML
      • 데이터 크기 및 보관 주기: 데이터 수집, 저장 크기, 수집 데이터 저장 주기
      • 데이터 수집 주기: 실시간, 매시, 매일, 매주, 매달
      • 데이터 수집 방식: 자동/수동 수집
      • 데이터 수집 기술: ETL, FTP, 클로러, DBtoDB
      • 데이터 가치성: 분석 수행을 위한 목적성 있는 대상 데이터
  • 수집되는 데이터 형태
    • HTML(Hypertext Markup Language)
      • 웹페이지 만들 때 사용되는 문서 형식
      • 텍스트, 태그, 스크립트로 구성
        • 텍스트: 실제 표현하고자 하는 내용으로 웹 문서 본문
        • 태그: 텍스트에 속성, 기능을 부여하기 위해 문서 중간에 붙여주는 꼬리표
        • 스크립트: 동적 웹 문서 작성을 지원하는 명령어들 집합
    • XML(eXtensible Markup Language)
      • 데이터 표현하기 위해 태그를 사용하는 언어
      • 엘리먼트, 속성, 처리명령, 엔티티, 주석, CDATA 섹션으로 구성
        • 엘리먼트: <head>...</head>, <a>...</a> 같이 쌍으로 존재하는 태그
        • 속성: <img src='abc.gif/>과 같이 태그 안에 특정 의미를 상세화한 표현
        • 처리명령: <?와 ?> 사이에 표현되고 특정 응용프로그램이 처리할 정보나 명령을 지정
        • 엔티티: <!ENTITY xml "eXtensible Markup Language">를 정의하고, XMl 문서 내에서는 &xml;과 같이 사용하는 것처럼, <>&을 사용하여 문자열을 특정 문자열로 대체
        • 주석
        • CDATA 섹션: <![CDATA[<greeting>Hello</greeting>]]으로 정의하여, <greeting>Hello</greeting>를 모두 문자열로 인식하게 함.
    • JSON(JavaScript Object Notation)
      • 자바스크립트를 위해 객체 형식으로 자룔를 표현하는 문서 형식
      • 경량의 데이터 교환 방식
      • 자료형: 수 / 문자열 / 배열 / 객체
  • 데이터 저장 방식
    • 파일 시스템: 데이터 읽고, 쓰고, 찾기 위해 일정 규칙으로 파일에 이름을 명명하고 파일의 위치를 지정하는 체계
    • 관계형 데이터베이스: 데이터의 종류나 성격에 따라 여러 개의 칼럼을 포함하는 정형화된 테이블로 구성된 데이터 항목들의 집합체
    • 분산처리 데이터베이스: 데이터의 집합이 여러 물리적 위치에 분산 배치되어 저장되는 DB
  • 데이터 적절성 검증
    • 데이터 누락 점검
    • 소스 데이터와 비교
      • 수집 데이터와 소스 데이터의 사이즈 및 개수를 비교 검증
    • 데이터 정확성 점검
    • 보안 사항 점검
    • 저작권 점검
    • 대량 트래픽 발생 여부
      • 네트워크 및 시스템에 트래픽 발생시키는 데이터 여부 검증

03. 데이터 변환

  • 데이터 변환
    • 데이터를 하나의 표현 형식에서 다른 형식으로 변형하는 과정
    • 변환 방식 종류
      • 비정형 데이터를 정형 데이터 형태로 저장하는 방식(관계형 데이터베이스)
      • 수집 데이터를 분산파일시스템으로 저장하는 방식(HDFS 등)
      • 주제별, 시계열적으로 저장하는 방식(데이터 웨어하우스)
      • 키-값 형태로 저장하는 방식(NoSQL)
    • 데이터 변환 수행자료
      • 데이터 수집 계획서
      • 데이터 변환 솔루션
      • 소프트웨어 아키텍처 개념도
      • 수집 솔루션 매뉴얼
      • 하둡 오퍼레이션 매뉴얼
수집 데이터 저장 형태 저장 솔루션 라이센스
관계형 데이터베이스 MySQL, Oracle, DB2, PostgreSQL 등 상용 라이센스, 오픈소스
분산데이터 저장 HDFS(Hadoop Distributed File System) 오픈소스
데이터 웨어하우스 네티자, 테라데이타, 그린플럼의 DW 솔루션 상용 라이선스
NoSQL Hbase, Cassandra, MongoDB 오픈소스
  • 데이터베이스 구조 설계
    • DBMS 구축 여부 결정
    • 저장 데이터베이스 결정
    • DBMS 설치
    • 테이블 구조 설계
  • 비정형/반정형 데이터의 변환
    • 수집 데이터의 속성 구조 파악
    • 데이터 수집 절차에 대한 수행 코드 정의
    • 데이터 저장 프로그램 작성
    • 데이터베이스에 저장
  • 융합 데이터베이스 설계
    • 요구사항 분석
    • 데이터 표준화와 모델링 수행
      • 개념적 설계 수행
        • 저장된 데이터를 엔티티와 속성(attribute)으로 추출하여, 엔티티 간의 관계를 정의하고 ER 다이어그램 그리미.
      • 논리적 설계 수행
        • 작성된 ER 다이어그램을 기반으로 매핑하여 관계형 스키마 만들어 냄.
  • 고려사항

04. 데이터 비식별화

  • 비식별화 개요
    • 식별자(identifier)와 속성자(attribute value)
      • 식별자는 개인 또는 개인과 관련한 사물에 고유하게 부여된 값 또는 이름
      • 속성자는 개인과 관련된 정보로서 다른 정보와 쉽게 결합하는 경우 특정 개인을 알아볼 수도 있는 정보
  • 비식별 조치 방법
    • 가명처리
      • 개인정보 중 주요 식별요소를 다른 값으로 대체하는 방법
      • 값 대체 시 규칙이 노출되어 역으로 쉽게 식별할 수 없도록 주의
      • 세부기술; 휴리스틱 가명화 / 암호화 / 교환 방법
    • 총계처리
      • 데이터의 총합 값을 보여주고 개별 값을 보여주지 않는 방법
      • 특정 속성을 지닌 개인으로 구성된 단체의 속성 정보를 공개하는 것은 그 집단에 속한 개인의 정보를 공개하는 것과 마찬가지이므로 주의해야 함.
      • 세부기술; 총계처리 / 부분총계 / 라운딩(반올림, 올림, 내림 등) / 재배열
    • 데이터 삭제
      • 데이터 공유나 개방 목적에 따라 데이터셋에 구성된 값 중 필요없는 값 또는 개인식별에 중요한 값을 삭제하는 방법
      • 세부기술; 식별자 삭제 / 식별자 부분삭제 / 레코드 삭제 / 식별요소 전부삭제
    • 데이터 범주화
      • 데이터 값을 범주의 값으로 변환하여 값을 숨기는 방법
      • 세부기술; 감추기 / 랜덤 라운딩 / 범위 방법 / 제어 라운딩
    • 데이터 마스킹
      • 개인을 식별하는 데 기여할 확률이 높은 주요 식별자를 보이지 않도록 처리하는 방법
      • 남아 있는 정보만으로 개인을 식별할 수 없어야하며, 공개된 다른 정보와 결합하더라도 특정 개인을 식별할 수 없어야 함.
      • 세부기술; 임의 잡음 추가 / 공백과 대체
  • 가명처리
    • 개인 식별이 가능한 데이터를 직접적으로 식별할 수 없는 다른 값으로 대체하는 기법
      • 장점; 데이터 변형 또는 변질 수준이 적음. 
      • 단점; 대체 값 부여 시에도 식별 가능한 고유 속성이 계속 유지
    • 휴리스틱 가명화
      • 식별자에 해당하는 값들을 몇 가지 정해진 규칙으로 대체하거나 사람의 판단에 따라 가공하여 자세한 개인정볼르 숨기는 방법
      • 식별자 분포 고려하거나 수집된 자료의 사전 분석을 하지 않고 모든 데이터를 동일한 방법으로 가공하기 때문에 사용자가 쉽게 이해하고 활용 가능
      • 활용할 수 있는 대체 변수에 한계가 있으며, 다른 값으로 대체하는 일정한 규칙이 노출되는 취약점이 있어 규칙 수립 시 개인을 쉽게 식별할 수 없도록 세심한 고려가 필요
      • 적용정보: 성명, 사용자 ID, 소속, 우편번호, 이메일 주소 등
    • 암호화
      • 정보 가공 시 일정한 규칙의 알고리즘 적용 → 암호화 → 개인정보 대체
      • 다시 복호가 가능토록 복호화 키 갖고 있음. → 보안 방안 필요
      • 일방향 암호화를 사용하는 경우 → 이론상 복호화가 원천적으로 불가능
      • 적용정보: 주민등록번호, 여권번호, 의료보험번호, 외국인등록번호 등
    • 교환방법 Swapping
      • 기존의 DB의 레코드를 사전에 정해진 외부 변수값과 연계하여 교환
      • 적용정보: 사용자 ID, 요양기관번호, 나이, 성별, ...
  • 총계처리
    • 통계 값을 적용 → 특정 개인을 식별할 수 없도록
    • 개인과 직접 관련된 날짜 정보, 기타 고유 특징을 주요 대상으로 함.
    • 데이터 전체 또는 부분을 집계
      • 장점; 민감한 수치 정보 → 비식별 조치 가능, 통계분석용 데이터셋 작성에 유리
      • 단점; 정밀 분석이 어려우며, 집계 수량이 적을 경우 추론에 의한 식별 가능성
    • 부분총계
      • 데이터셋 내 일정부분 레코드만 총계 처리하며, 다른 데이터 값에 비해 오차 범위가 큰 항목을 통계값으로 변환
      • 예; 다양한 연령대의 소득 분포에 있어서 40대의 소득 분포 편차가 다른 연령대에 비하여 매우 크거나 특정 소득 구성원을 포함하고 있을 경우, 40대만의 소득만 선별하여 평균값 구한 후 40대에 해당하는 각 개인의 소득 값을 해당 평균값으로 대체
    • 라운딩
      • 집계처리된 값에 대해 라운딩 기준 적용 → 최종 집계 처리
      • 예; 23세, 41세, 57세, 26세, 33세 각 나이 값을 20대, 30대, 40대, 50대 등 각 대표 연령대로 표기하거나 3576000원, 4210000원 등의 소득 값을 일부 절삭하여 3백만원, 4백만원 등으로 집계 처리하는 방식
    • 재배열
      • 기존 정보 값을 유지하면서 개인이 식별되지 않도록 데이터를 재배열하는 방법
      • 개인의 정보를 타인의 정보와 뒤섞어 전체 정보에 대한 손상 없이 특정 정보가 해당 개인과 연결되지 않도록 함.
      • 적용정보: 나이, 신장, 소득, 질병, 학력 등
  • 데이터 삭제
    • 개인을 식별할 수 있는 정보를 주요 대상으로 함.
      • 장점; 개인 식별요소의 전부 및 일부 삭제 처리가 가능
      • 단점; 분석 다양성과 분석 결과의 유효성, 신뢰성 저하
    • 식별자 (부분)삭제
      • 원조 데이터에서 식별자를 단순 삭제하는 방법과 일부만 삭제하는 방법
      • 남아 있는 정보 그 자체로도 분석의 유효성을 가져야 함과 동시에 개인을 식별할 수 없어야 하며, 인터넷 등에 공개되어 있는 정보 등과 결합하였을 경우에도 개인을 식별할 수 없어야 함.
    • 레코드 삭제
      • 다른 정보와 뚜렷하게 구별되는 레코드 전체 삭제하는 방법
      • 통계분석에 있어 전체 평균에 비해 오차범위를 벗어나는 자료를 제거할 때에도 사용 가능
    • 식별요소 전부삭제
      • 식별자뿐 아니라 잠재적으로 개인을 식별할 수 있는 속성자까지 전부 삭제 → 프라이버시 침해 위험을 줄임.
      • 데이터 유용성이 낮아지는 문제
      • 예; 연예인, 정치인 등의 가족정보, 판례 및 보도 등에 따라 공개되어 있는 사건과 관련되어 있음을 알 수 있는 정보 등 잠재적 식별자까지 사전에 삭제함으로써 연관성 있는 정보의 식별 및 결합을 예방
  • 데이터 범주화
    • 특정 정보를 해당 그룹의 대푯값 또는 구간값으로 변환(범주화)하여 개인 식별을 방지
      • 장점; 통계형 데이터 형식 → 다양한 분석 및 가공 가능
      • 단점; 정확한 분석결과 도출 어려움. 데이터 범위 구간이 좁혀질 경우 추론 가능성 o
    • 감추기
      • 명확한 값 숨기기 위해 데이터 평균 또는 범주 값으로 변환
    • 랜덤 라운딩
      • 수치 데이터를 임의의 수 기준으로 올림 또는 내림하는 기법 → 수치 데이터 이외의 경우에도 확장 적용 가능
    • 범위 방법
      • 수치 데이터를 임의의 수 기준 범위로 설정하는 기법
      • 해당 값의 범위 또는 구간으로 표현
    • 제어 라운딩
      • 랜덤 라운딩 방법에서 어떠한 특정 값을 변경할 경우 행과 열의 합이 일치하지 않는 단점 해결을 위해 행과 열이 맞지 않는 것을 제어하여 일치시키는 기법
  • 데이터 마스킹
    • 데이터 전부 또는 일부분을 대체 값으로 변환
      • 장점; 개인 식별 요소를 제거하는 것이 가능하며, 원 데이터 구조에 대한 변형이 작음.
      • 단점; 마스킹을 과도하게 적용할 경우 데이터 필요 목적에 활용하기 어려우며 마스킹 수준이 낮을 경우 특정한 값에 대한 추론이 가능
    • 임의 잡음 추가
      • 개인 식별이 가능한 정보에 임의의 숫자 등 잡음을 추가하는 방법
    • 공백과 대체
      • 특정 항목의 일부 또는 전부를 공백 또는 대체문자로 바꾸는 기법
  • 적정성 평가
    • 적정성 평가 시 프라이버시 보호 모델 중 최소한의 수단으로 k-익명성을 활용하며, 필요시 추가적 모델을 활용
기법 의미 적용
k-익명성 특정인임을 추론할 수 있는지 여부를 검토, 일정 확률수준 이상 비식별되도록 하는 기법 동일한 값을 가진 레코드를 k개 이상으로 하며, 이 경우 특정 개인을 식별할 확률은 1/k
l-다양성 특정인 추론이 안된다고 해도 민감한 정보의 다양성을 높여 추론 가능성을 낮추는 기법 각 레코드는 최소 l개 이상의 다양성을 가지도록 하여 동질성 또는 배경지식 등에 의한 추론을 방지
t-근접성 l-다양성뿐만 아니라, 민감한 분포를 낮추어 추론 가능성을 더욱 낮추는 기법 전체 데이터 집합의 정보 분포와 특정 정보 분포 차이를 t 이하로 하여 추론 방지
  • k-익명성
    • 주어진 데이터 집합에서 같은 값이 적어도 k개 이상 존재하도록 하여 쉽게 다른 정보로 결합할 수 없도록 함.
      • 데이터 집합의 일부를 수정하여 모든 레코드가 자기 자신과 동일한 k-1개 이상의 레코드를 가짐.
      • 적정성 평가단은 적절한 k-값을 선택 후 평가(k=3, k=4 등) 진행
    • 취약점
      • 동질성 공격
        • k-익명성에 의해 레코드들이 범주화됐더라도 일부 정보들이 모두 같은 값을 가질 수 있기 때문에 데이터 집합에서 동일한 정보를 이용해 공격 대상의 정보를 알아내는 공격
      • 배경지식에 의한 공격
        • 주어진 데이터 이외의 공격자의 배경지식을 통해 공격 대상의 민감한 정보를 알아내는 공격\
  • l-다양성
    • k-익명성에 대한 두 가지 공격(동질성 공격, 배경지식에 의한 공격)을 방어하기 위한 모델
    • 주어진 데이터 집합에서 함께 비식별되는 레코드들은 (동질 집합에서) 적어도 l개의 서로 다른 정보를 갖도록 함.
    • 비식별 조치 과정에서 충분히 다양한 서로 다른 정보를 갖도록 동질 집합을 구성 → 다양성 부족으로 인한 공격에 방어가 가능하고, 배경지식으로 인한 공격에도 일정 수준의 방어능력 가질 수 있음.
    • 취약점
      • 쏠림 공격
        • 정보가 특정한 값에 쏠려 있을 경우 l-다양성 모델이 프라이버시를 보호하지 못함.
      • 유사성 공격
        • 비식별 조치된 레코드의 정보가 서로 비슷하다면 l-다양성 모델을 통해 비식별된다 할지라도 프라이버시가 노출될 수 있음.
  • t-근접성
    • l-다양성의 취약점(쏠림 공격, 유사성 공격)을 보완하기 위한 모델 → 값의 의미를 고려하는 모델
    • 동질 집합에서 특징 정보의 분포와 전체 데이터 집합에서 정보의 분포가 t 이하의 차이를 보여야 하며, 각 동질 집합에서 '특정 정보의 분포'가 전체 데이터집합의 분포와 비교하여 너무 특이하지 않도록 함.
    • 정보의 분포를 조정하여 정보가 특정 값으로 쏠리거나 유사한 값들이 뭉치는 경우를 방지하는 방법
    • t 수치가 0에 가까울수록 전체 데이터의 분포와 특정 데이터 구간의 분포 유사성이 강해지기 때문에 그 익명성의 방어가 더 강해지는 경향
    • 익명성 강화를 위해 특정 데이터들을 재배치해도 전체 속성자들의 값 자체에는 변화가 없기 때문에 일반적인 경우에 정보 손실의 문제는 크지 않음.

05. 데이터 품질 검증

  • 데이터 품질 관리
    • 비즈니스 목표에 부합한 데이터 분석을 위해 가치성, 정확성, 유용성 있는 데이터를 확보하고, 신뢰성 있는 데이터를 유지하는 데 필요한 관리 활동
    • 중요성
      • 분설 결과의 신뢰성 확보
      • 일원화된 프로세스
      • 데이터 활용도 향상
      • 양질의 데이터 확보
  • 데이터 품질
    • 정형 데이터 품질 기준
      • 정형 데이터에 대한 품질 기준은 일반적으로 완전성, 유일성, 일관성, 유효성, 정확성 5개의 품질 기준으로 나눌 수 있음.
        • 완전성 (개별 / 조건 완전성)
        • 유일성 (단독 / 조건 유일성)
        • 일관성 (기준코드 일관성, 참조 무결성, 데이터 흐름 일관성, 칼럼 일관성)
        • 유효성 (범위 / 날짜 / 형식 유효성)
        • 정확성 (선후 관계 정확성, 계산/집계 정확성, 최신성, 업무규칙 정확성)
    • 비정형 데이터 품질 기준
      • 기능성 (적절성, 정확성, 상호 운용성, 기능 순응성)
      • 신뢰성 (성숙성, 신뢰 순응성)
      • 사용성 (이해성, 친밀성, 사용 순응성)
      • 효율성 (시간/자원 효율성, 효율 순응성)
      • 이식성 (적응성, 공존성, 이식 순응성)
  • 데이터 품질 진단 기법
    • 정형 데이터 품질 진단
      • 데이터 프로파일링 기법을 통해 진단
        • 메타데이터 수집 및 분석
        • 칼럼 속성 분석
        • 누락 값 분석
        • 값의 허용 범위분석
        • 허용 값 목록 분석
        • 문자열 패턴 분석
        • 날짜 유형 분석
        • 기타 특수 도메인 (특정 번호 유형) 분석
        • 유일 값 분석
        • 구조 분석
    • 비정형 데이터 품질 진단
      • 품질 세부 기준을 정하여 항목별 체크리스트를 작성하여 진단
        • 기능성
          • 정확성
          • 적절성
          • 상호 운용성
          • 기능 순응성
        • 신뢰성
          • 성숙성
          • 신뢰 순응성
        • 사용성
          • 이해성
          • 친밀성
          • 사용 순응성
        • 효율성
          • 시간 효율성
          • 효율 순응성
        • 이식성
          • 적응성
          • 공존성
          • 이식 순응성
  • 데이터 품질 진단 절차
    1. 품질 진단 계획 수립
    2. 품질 기준 및 진단 대상 정의
    3. 품질 측정
    4. 품질 측정 결과 분석
    5. 데이터 품질 개선
  • 데이터 품질 검증 수행
Q. 정형 데이터 품질 기준 중 아래 규칙을 만족하는 것은?
- 학기 시작일은 학기 종료일보다 이전 시점이어야 한다.
- 1분기 매출액은 1월, 2월, 3월 매출액의 합계와 같아야 한다.

A. 정확성 (데이터 값이 실제 값과 일치해야 함. 날짜의 선후 관계 정확성, 계산/집계 정확성, 최신성, 업무규칙 정확성 등 만족) 

 

Q. 다음 중 데이터 프로파일링 기법을 통해 검증할 수 있는 것으로 틀린 것?
1) 누락된 값을 찾아냄.
2) 유일해야 하는 칼럼의 중복값 존재 여부 파악
3) 연락처가 최신의 것으로 업데이트됐는지 파악 →  (X)
4) 메타데이터 이용해 데이터 형식 불일치 찾아냄.

'빅데이터분석기사' 카테고리의 다른 글

[필기] 데이터 정제  (0) 2026.03.11
[필기] 데이터 적재 및 저장  (0) 2026.03.08
[필기] 분석 작업 계획  (0) 2026.03.07
[필기] 분석 방안 수립  (0) 2026.03.04
[필기] 빅데이터 기술 및 제도  (0) 2026.02.12