[필기] 데이터 수집 및 전환

Notice

Recent Posts

Recent Comments

Link

« 2026/03 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

Tags more

Archives

Today

Total

관리 메뉴

AYSTORY

[필기] 데이터 수집 및 전환 본문

빅데이터분석기사

[필기] 데이터 수집 및 전환

bye0nzn 2026. 3. 7. 15:15

Ch3. 데이터 수집 및 저장 계획

01. 데이터 수집

데이터 처리 시스템에 들어갈 데이터를 모으는 과정으로 여러 장소에 있는 데이터를 한 곳으로 모으는 것

비즈니스 도메인과 원천 데이터 정보 수집
- 비즈니스 도메인 정보
  - 비즈니스 모델
  - 비즈니스 용어집
  - 비즈니스 프로세스
  - 도메인 전문가 인터뷰
- 원천 데이터 정보
  - 데이터 수집 가능성
  - 데이터 보안
  - 데이터 정확성
  - 수집 난이도
  - 수집 비용
내·외부 데이터 수집
- 데이터 종류
  - 내부 데이터: 서비스 시스템 / 네트워크 및 서버 장비 / 마케팅 데이터
  - 외부 데이터: 소셜 데이터(제품 리뷰 커뮤니티, 페북) / 특정 기관 데이터 / M2M 데이터(센서 데이터, 장비 발생 로그) / LOD(공공 데이터)
- 데이터 수집 주기
  - 내부 데이터: 실시간 수집하여 분석할 수 있도록
  - 외부 데이터: 일괄 수집으로 끝날지, 일정 주기로 데이터를 수집할지 결정하여 수집 데이터 관리 정책 정함.
- 데이터 수집 방법
  - 내부 데이터
    - 조직 내부 협의에 따른 데이터 수집
    - 인터페이스 생성
    - 파일 시스템, DBMS, 센서 등
  - 외부 데이터
    - 외부 조직의 데이터 필요시 상호 협약에 의한 수집
    - 인터넷 통한 연결
    - 협약에 의한 DBMS 데이터, 웹 페이지, 소셜 미디어, 문서 등
데이터 수집 기술
- 데이터 유형별 데이터 수집 기술
  - 정형 데이터
    - ETL(Extract Transform Load): 수집 대상 데이터 추출 및 가공하여 데이터 웨어하우스에 저장하는 기술
    - FTP(File Transfer Protocol): TCP/IP나 UDP 프로토콜을 통해 원격지 시스템으로부터 파일을 송수신하는 기술
    - API(Application Programming Interface): 솔루션 제조사 및 3rd party 소프트웨어로 제공되는 도구로, 시스템 간 연동을 통해 실시간으로 데이터를 수신할 수 있도록 기능을 제공하는 인터페이스
    - DBToDB: DBMS 간 데이터를 동기화 또는 전송
    - Sqoop: RDBMS와 hadoop 간 데이터 전송
  - 비정형 데이터
    - 크롤링
    - RSS(Rich Site Summary): 블로그, 뉴스, 쇼핑몰 등 웹사이트에 게시된 새로운 글을 공유하기 위해 XML 기반으로 정보 배포하는 프로토콜
    - Open API
    - Chuckwa: 분산 시스템으로부터 데이터 수집, 하둡 파일 시스템에 저장 실시간 분석 기능 제공
    - Kafka: 대용량 실시간 로그처리를 위한 분산 스트리밍 플랫폼 기술
  - 반정형 데이터
    - Flume: 분산 환경에서 대량의 로그 데이터를 수집, 전송하고 분석
    - Scribe: 다수 수집 대상 서버로부터 실시간으로 데이터를 수집, 분산 시스템에 데이터 저장
    - Sencing: 센서로부터 수집, 생성된 데이터를 네트워크 통해 활용해 수집
    - Streaming: 네트워크를 통해 센서 데이터 및 오디오, 비디오 등의 미디어 데이터를 실시간으로 수집
- ETL(Extract Transform Load)
  - 하나 이상의 데이터 소스로부터 데이터 웨어하우스, 데이터 마트, 데이터 통합, 데이터 이동(migration) 등 다양한 응용시스템을 위한 데이터 구축에 필요한 핵심 기술
  - Extract - Transform - Load의 3단계 프로세스
    - Extract: 하나 또는 그 이상의 데이터 원천으로부터 데이터 획득
    - Transform: 목표로 하는 형식이나 구조로 데이터 변환 / 데이터 정제, 변환, 표준화, 통합 등 진행
    - Load: 변환이 완료된 데이터를 특정 목표 시스템에 저장
- FTP(File Transfer Protocol)
  - 대량의 파일(데이터)을 네트워크를 통해 주고받을 때 사용되는 파일 전송 서비스
  - 인터넷을 통한 파일 송수신만을 위해 만들어진 프로토콜이기 때문에 동작 방식이 단순하고 직관적, 파일을 빠른 속도로 한꺼번에 주고받을 수 있음.
  - 특징
    - 인터넷 프로토콜인 TCP/IP 위에서 동작
    - 서버와 클라이언트를 먼저 연겷고 이후 데이터 파일 전송
    - FTP 서비스를 제공하는 서버와 접속하는 클라이언트 사이 두 개의 연결을 생성
    - 사용자 계정 및 암호 등 정보나 파일 전송 명령 및 결과 등은 데이터 제어 연결에서, 이후 실제 파일 송수신 작업은 데이터 전송 연결에서 처리
- 정형 데이터 수집을 위한 아파치 스쿱(Sqoop) 기술
  - 관계형 데이터 스토어 간 대량 데이터를 효과적으로 전송하기 위해 구현된 도구
  - 커넥터 사용하여 관계형 DB의 데이터를 하둡 파일시스템(HEFS, Hive, Hbase)으로 수집
  - 관계형 DB에서 가져온 데이터들을 하둡 맴리듀스로 변환하고, 변환된 데이터 다시 관계형 데이터베이스로 내보내기
  - 데이터 가져오기/내보내기 과정을 맵리듀스를 통해 처리하기 때문에 병렬처리가 가능하고 장애에도 강한 특징
  - 아파치 스쿱 특징
    - Bulk import 지원: 전체 DB 또는 테이블을 HDFS로 전송 가능
    - 데이터 전송 병렬화: 시스템 사용률과 성능을 고려한 병렬 데이터 전송
    - Direct input 제공: RDB에 매핑하여 Hbase와 Hive에 직접적 import 제공
    - 프로그래밍 방식의 데이터 인터랙션: 자바 클래스 생성을 통한 데이터 상호작용 지원
  - Sqoop(SQL+HADOOP): MySQL, Oracle 환경의 데이터를 Hbase, Hive 또는 HDFS로 import 가능
    - HDFS: 하둡 분산 파일 시스템
    - Hive: 하둡에서 동작하는 데이터 웨어하우스 인프라 구조로서 데이터 요약, 질의 및 분석 기능 제공
    - Hbase: 하둡 플랫폼을 위한 공개 비관계형 분산 데이터베이스
- 로그/센서 데이터 수집을 위한 아파치 플럼(Flume) 기술
  - 대용량 로그 데이터를 효과적으로 수집, 집계, 이동시키는 신뢰성 있는 분산 서비스를 제공하는 솔루션
  - 스트리밍 데이터 흐름에 기반을 둔 간단하고 유연한 구조
  - 하나의 에이전트는 소스, 채널, 싱크로 구성
    - 소스는 웹서버, 로그데이터서버 등 원시데이터소스와 연결되며, 소스로부터 들어오는 데이터는 큐의 구조를 갖는 채널로 들어간 후, 싱크를 통해 목표 시스템으로 전달
  - 특징
    - 신뢰성: 장애 시 로그 데이터 유실 없이 전송 보장
    - 확장성: 수평 확장이 가능하여 분산 수집이 가능
    - 효율성: 커스터마이징 가능 + 고성능 제공

(이어서)
- 웹 및 소셜 데이터 수집을 위한 스크래피(Scrapy) 기술
  - 웹사이트 크롤링 + 구조화된 데이터 수집하는 도구
  - API를 이용하여 다양한 형식의 데이터를 추출할 수 있어, 범용 웹크롤러로 사용
  - Scrapy; 파이썬으로 작성된 오픈소스 웹크롤링 프레임워크
    - 데이터 마이닝, 정보 처리, 이력 기록 같은 다양한 애플리케이션에 유용하게 사용
  - 특징
    - 파이썬 기반
    - 단순 스크랩 과정: 크롤링 후, 바로 데이터 처리 가능
    - 다양한 부가 요소: scrapyd, scrapinghub 등 부가요소, 쉬운 수집, 로깅 지원

Q. 관계형 데이터베이스로부터 데이터를 추출하는데 사용되는 기술로 틀린 것은?
1) ETL
2) Sqoop
3) API
4) 크롤링 → 웹페이지를 그대로 가져온 후 데이터 추출하는 것

02. 데이터 유형 및 속성 파악

데이터 수집 세부 계획 작성
데이터 유형과 위치 및 비용
- 데이터 유형
  - 정형 데이터 - RDB, file
  - 반정형 데이터: 메타 구조 갖는 데이터 - HTML, XML, JSON, RSS, 웹로그, 센서 데이터
  - 비정형 데이터 - 동영상, 이미지, 텍스트
- 데이터 위치
  - 내부 데이터
    - 내부 조직간 협의를 통해 데이터 수집
    - 대부분 정형 데이터로 존재
    - 데이터 담당자와 협의 원활
    - 비용 및 수집 난이도 낮음.
    - 서비스 수명 주기 관리 용이
  - 외부 데이터 (분석 가치 높음)
    - 외부 조직과 협약, 데이터 구매, 웹 상의 오픈 데이터를 통해 수집
    - 대부분 반정형, 비정형 데이터로 존재
    - 외부 데이터 담당자와 의사소통 어려움.
    - 대부분 추가적 데이터 가공 작업 필요
    - 비용 및 수집 난이도 높음.
    - 외부 환경에 대한 통제 어려움에 따른 서비스 관리정책 수집이 필요
- 데이터 확보 비용 산정
  - 데이터 종류: RDB, 파일, HTML
  - 데이터 크기 및 보관 주기: 데이터 수집, 저장 크기, 수집 데이터 저장 주기
  - 데이터 수집 주기: 실시간, 매시, 매일, 매주, 매달
  - 데이터 수집 방식: 자동/수동 수집
  - 데이터 수집 기술: ETL, FTP, 클로러, DBtoDB
  - 데이터 가치성: 분석 수행을 위한 목적성 있는 대상 데이터
수집되는 데이터 형태
- HTML(Hypertext Markup Language)
  - 웹페이지 만들 때 사용되는 문서 형식
  - 텍스트, 태그, 스크립트로 구성
    - 텍스트: 실제 표현하고자 하는 내용으로 웹 문서 본문
    - 태그: 텍스트에 속성, 기능을 부여하기 위해 문서 중간에 붙여주는 꼬리표
    - 스크립트: 동적 웹 문서 작성을 지원하는 명령어들 집합
- XML(eXtensible Markup Language)
  - 데이터 표현하기 위해 태그를 사용하는 언어
  - 엘리먼트, 속성, 처리명령, 엔티티, 주석, CDATA 섹션으로 구성
    - 엘리먼트: <head>...</head>, <a>...</a> 같이 쌍으로 존재하는 태그
    - 속성: <img src='abc.gif/>과 같이 태그 안에 특정 의미를 상세화한 표현
    - 처리명령: <?와 ?> 사이에 표현되고 특정 응용프로그램이 처리할 정보나 명령을 지정
    - 엔티티: <!ENTITY xml "eXtensible Markup Language">를 정의하고, XMl 문서 내에서는 &xml;과 같이 사용하는 것처럼, <>&을 사용하여 문자열을 특정 문자열로 대체
    - 주석
    - CDATA 섹션: <![CDATA[<greeting>Hello</greeting>]]으로 정의하여, <greeting>Hello</greeting>를 모두 문자열로 인식하게 함.
- JSON(JavaScript Object Notation)
  - 자바스크립트를 위해 객체 형식으로 자룔를 표현하는 문서 형식
  - 경량의 데이터 교환 방식
  - 자료형: 수 / 문자열 / 배열 / 객체
데이터 저장 방식
- 파일 시스템: 데이터 읽고, 쓰고, 찾기 위해 일정 규칙으로 파일에 이름을 명명하고 파일의 위치를 지정하는 체계
- 관계형 데이터베이스: 데이터의 종류나 성격에 따라 여러 개의 칼럼을 포함하는 정형화된 테이블로 구성된 데이터 항목들의 집합체
- 분산처리 데이터베이스: 데이터의 집합이 여러 물리적 위치에 분산 배치되어 저장되는 DB
데이터 적절성 검증
- 데이터 누락 점검
- 소스 데이터와 비교
  - 수집 데이터와 소스 데이터의 사이즈 및 개수를 비교 검증
- 데이터 정확성 점검
- 보안 사항 점검
- 저작권 점검
- 대량 트래픽 발생 여부
  - 네트워크 및 시스템에 트래픽 발생시키는 데이터 여부 검증

03. 데이터 변환

데이터 변환
- 데이터를 하나의 표현 형식에서 다른 형식으로 변형하는 과정
- 변환 방식 종류
  - 비정형 데이터를 정형 데이터 형태로 저장하는 방식(관계형 데이터베이스)
  - 수집 데이터를 분산파일시스템으로 저장하는 방식(HDFS 등)
  - 주제별, 시계열적으로 저장하는 방식(데이터 웨어하우스)
  - 키-값 형태로 저장하는 방식(NoSQL)
- 데이터 변환 수행자료
  - 데이터 수집 계획서
  - 데이터 변환 솔루션
  - 소프트웨어 아키텍처 개념도
  - 수집 솔루션 매뉴얼
  - 하둡 오퍼레이션 매뉴얼

수집 데이터 저장 형태	저장 솔루션	라이센스
관계형 데이터베이스	MySQL, Oracle, DB2, PostgreSQL 등	상용 라이센스, 오픈소스
분산데이터 저장	HDFS(Hadoop Distributed File System)	오픈소스
데이터 웨어하우스	네티자, 테라데이타, 그린플럼의 DW 솔루션	상용 라이선스
NoSQL	Hbase, Cassandra, MongoDB	오픈소스

데이터베이스 구조 설계
- DBMS 구축 여부 결정
- 저장 데이터베이스 결정
- DBMS 설치
- 테이블 구조 설계
비정형/반정형 데이터의 변환
- 수집 데이터의 속성 구조 파악
- 데이터 수집 절차에 대한 수행 코드 정의
- 데이터 저장 프로그램 작성
- 데이터베이스에 저장
융합 데이터베이스 설계
- 요구사항 분석
- 데이터 표준화와 모델링 수행
  - 개념적 설계 수행
    - 저장된 데이터를 엔티티와 속성(attribute)으로 추출하여, 엔티티 간의 관계를 정의하고 ER 다이어그램 그리미.
  - 논리적 설계 수행
    - 작성된 ER 다이어그램을 기반으로 매핑하여 관계형 스키마 만들어 냄.
고려사항

04. 데이터 비식별화

비식별화 개요
- 식별자(identifier)와 속성자(attribute value)
  - 식별자는 개인 또는 개인과 관련한 사물에 고유하게 부여된 값 또는 이름
  - 속성자는 개인과 관련된 정보로서 다른 정보와 쉽게 결합하는 경우 특정 개인을 알아볼 수도 있는 정보
비식별 조치 방법
- 가명처리
  - 개인정보 중 주요 식별요소를 다른 값으로 대체하는 방법
  - 값 대체 시 규칙이 노출되어 역으로 쉽게 식별할 수 없도록 주의
  - 세부기술; 휴리스틱 가명화 / 암호화 / 교환 방법
- 총계처리
  - 데이터의 총합 값을 보여주고 개별 값을 보여주지 않는 방법
  - 특정 속성을 지닌 개인으로 구성된 단체의 속성 정보를 공개하는 것은 그 집단에 속한 개인의 정보를 공개하는 것과 마찬가지이므로 주의해야 함.
  - 세부기술; 총계처리 / 부분총계 / 라운딩(반올림, 올림, 내림 등) / 재배열
- 데이터 삭제
  - 데이터 공유나 개방 목적에 따라 데이터셋에 구성된 값 중 필요없는 값 또는 개인식별에 중요한 값을 삭제하는 방법
  - 세부기술; 식별자 삭제 / 식별자 부분삭제 / 레코드 삭제 / 식별요소 전부삭제
- 데이터 범주화
  - 데이터 값을 범주의 값으로 변환하여 값을 숨기는 방법
  - 세부기술; 감추기 / 랜덤 라운딩 / 범위 방법 / 제어 라운딩
- 데이터 마스킹
  - 개인을 식별하는 데 기여할 확률이 높은 주요 식별자를 보이지 않도록 처리하는 방법
  - 남아 있는 정보만으로 개인을 식별할 수 없어야하며, 공개된 다른 정보와 결합하더라도 특정 개인을 식별할 수 없어야 함.
  - 세부기술; 임의 잡음 추가 / 공백과 대체
가명처리
- 개인 식별이 가능한 데이터를 직접적으로 식별할 수 없는 다른 값으로 대체하는 기법
  - 장점; 데이터 변형 또는 변질 수준이 적음.
  - 단점; 대체 값 부여 시에도 식별 가능한 고유 속성이 계속 유지
- 휴리스틱 가명화
  - 식별자에 해당하는 값들을 몇 가지 정해진 규칙으로 대체하거나 사람의 판단에 따라 가공하여 자세한 개인정볼르 숨기는 방법
  - 식별자 분포 고려하거나 수집된 자료의 사전 분석을 하지 않고 모든 데이터를 동일한 방법으로 가공하기 때문에 사용자가 쉽게 이해하고 활용 가능
  - 활용할 수 있는 대체 변수에 한계가 있으며, 다른 값으로 대체하는 일정한 규칙이 노출되는 취약점이 있어 규칙 수립 시 개인을 쉽게 식별할 수 없도록 세심한 고려가 필요
  - 적용정보: 성명, 사용자 ID, 소속, 우편번호, 이메일 주소 등
- 암호화
  - 정보 가공 시 일정한 규칙의 알고리즘 적용 → 암호화 → 개인정보 대체
  - 다시 복호가 가능토록 복호화 키 갖고 있음. → 보안 방안 필요
  - 일방향 암호화를 사용하는 경우 → 이론상 복호화가 원천적으로 불가능
  - 적용정보: 주민등록번호, 여권번호, 의료보험번호, 외국인등록번호 등
- 교환방법 Swapping
  - 기존의 DB의 레코드를 사전에 정해진 외부 변수값과 연계하여 교환
  - 적용정보: 사용자 ID, 요양기관번호, 나이, 성별, ...
총계처리
- 통계 값을 적용 → 특정 개인을 식별할 수 없도록
- 개인과 직접 관련된 날짜 정보, 기타 고유 특징을 주요 대상으로 함.
- 데이터 전체 또는 부분을 집계
  - 장점; 민감한 수치 정보 → 비식별 조치 가능, 통계분석용 데이터셋 작성에 유리
  - 단점; 정밀 분석이 어려우며, 집계 수량이 적을 경우 추론에 의한 식별 가능성
- 부분총계
  - 데이터셋 내 일정부분 레코드만 총계 처리하며, 다른 데이터 값에 비해 오차 범위가 큰 항목을 통계값으로 변환
  - 예; 다양한 연령대의 소득 분포에 있어서 40대의 소득 분포 편차가 다른 연령대에 비하여 매우 크거나 특정 소득 구성원을 포함하고 있을 경우, 40대만의 소득만 선별하여 평균값 구한 후 40대에 해당하는 각 개인의 소득 값을 해당 평균값으로 대체
- 라운딩
  - 집계처리된 값에 대해 라운딩 기준 적용 → 최종 집계 처리
  - 예; 23세, 41세, 57세, 26세, 33세 각 나이 값을 20대, 30대, 40대, 50대 등 각 대표 연령대로 표기하거나 3576000원, 4210000원 등의 소득 값을 일부 절삭하여 3백만원, 4백만원 등으로 집계 처리하는 방식
- 재배열
  - 기존 정보 값을 유지하면서 개인이 식별되지 않도록 데이터를 재배열하는 방법
  - 개인의 정보를 타인의 정보와 뒤섞어 전체 정보에 대한 손상 없이 특정 정보가 해당 개인과 연결되지 않도록 함.
  - 적용정보: 나이, 신장, 소득, 질병, 학력 등
데이터 삭제
- 개인을 식별할 수 있는 정보를 주요 대상으로 함.
  - 장점; 개인 식별요소의 전부 및 일부 삭제 처리가 가능
  - 단점; 분석 다양성과 분석 결과의 유효성, 신뢰성 저하
- 식별자 (부분)삭제
  - 원조 데이터에서 식별자를 단순 삭제하는 방법과 일부만 삭제하는 방법
  - 남아 있는 정보 그 자체로도 분석의 유효성을 가져야 함과 동시에 개인을 식별할 수 없어야 하며, 인터넷 등에 공개되어 있는 정보 등과 결합하였을 경우에도 개인을 식별할 수 없어야 함.
- 레코드 삭제
  - 다른 정보와 뚜렷하게 구별되는 레코드 전체 삭제하는 방법
  - 통계분석에 있어 전체 평균에 비해 오차범위를 벗어나는 자료를 제거할 때에도 사용 가능
- 식별요소 전부삭제
  - 식별자뿐 아니라 잠재적으로 개인을 식별할 수 있는 속성자까지 전부 삭제 → 프라이버시 침해 위험을 줄임.
  - 데이터 유용성이 낮아지는 문제
  - 예; 연예인, 정치인 등의 가족정보, 판례 및 보도 등에 따라 공개되어 있는 사건과 관련되어 있음을 알 수 있는 정보 등 잠재적 식별자까지 사전에 삭제함으로써 연관성 있는 정보의 식별 및 결합을 예방
데이터 범주화
- 특정 정보를 해당 그룹의 대푯값 또는 구간값으로 변환(범주화)하여 개인 식별을 방지
  - 장점; 통계형 데이터 형식 → 다양한 분석 및 가공 가능
  - 단점; 정확한 분석결과 도출 어려움. 데이터 범위 구간이 좁혀질 경우 추론 가능성 o
- 감추기
  - 명확한 값 숨기기 위해 데이터 평균 또는 범주 값으로 변환
- 랜덤 라운딩
  - 수치 데이터를 임의의 수 기준으로 올림 또는 내림하는 기법 → 수치 데이터 이외의 경우에도 확장 적용 가능
- 범위 방법
  - 수치 데이터를 임의의 수 기준 범위로 설정하는 기법
  - 해당 값의 범위 또는 구간으로 표현
- 제어 라운딩
  - 랜덤 라운딩 방법에서 어떠한 특정 값을 변경할 경우 행과 열의 합이 일치하지 않는 단점 해결을 위해 행과 열이 맞지 않는 것을 제어하여 일치시키는 기법
데이터 마스킹
- 데이터 전부 또는 일부분을 대체 값으로 변환
  - 장점; 개인 식별 요소를 제거하는 것이 가능하며, 원 데이터 구조에 대한 변형이 작음.
  - 단점; 마스킹을 과도하게 적용할 경우 데이터 필요 목적에 활용하기 어려우며 마스킹 수준이 낮을 경우 특정한 값에 대한 추론이 가능
- 임의 잡음 추가
  - 개인 식별이 가능한 정보에 임의의 숫자 등 잡음을 추가하는 방법
- 공백과 대체
  - 특정 항목의 일부 또는 전부를 공백 또는 대체문자로 바꾸는 기법
적정성 평가
- 적정성 평가 시 프라이버시 보호 모델 중 최소한의 수단으로 k-익명성을 활용하며, 필요시 추가적 모델을 활용

기법	의미	적용
k-익명성	특정인임을 추론할 수 있는지 여부를 검토, 일정 확률수준 이상 비식별되도록 하는 기법	동일한 값을 가진 레코드를 k개 이상으로 하며, 이 경우 특정 개인을 식별할 확률은 1/k
l-다양성	특정인 추론이 안된다고 해도 민감한 정보의 다양성을 높여 추론 가능성을 낮추는 기법	각 레코드는 최소 l개 이상의 다양성을 가지도록 하여 동질성 또는 배경지식 등에 의한 추론을 방지
t-근접성	l-다양성뿐만 아니라, 민감한 분포를 낮추어 추론 가능성을 더욱 낮추는 기법	전체 데이터 집합의 정보 분포와 특정 정보 분포 차이를 t 이하로 하여 추론 방지

k-익명성
- 주어진 데이터 집합에서 같은 값이 적어도 k개 이상 존재하도록 하여 쉽게 다른 정보로 결합할 수 없도록 함.
  - 데이터 집합의 일부를 수정하여 모든 레코드가 자기 자신과 동일한 k-1개 이상의 레코드를 가짐.
  - 적정성 평가단은 적절한 k-값을 선택 후 평가(k=3, k=4 등) 진행
- 취약점
  - 동질성 공격
    - k-익명성에 의해 레코드들이 범주화됐더라도 일부 정보들이 모두 같은 값을 가질 수 있기 때문에 데이터 집합에서 동일한 정보를 이용해 공격 대상의 정보를 알아내는 공격
  - 배경지식에 의한 공격
    - 주어진 데이터 이외의 공격자의 배경지식을 통해 공격 대상의 민감한 정보를 알아내는 공격\
l-다양성
- k-익명성에 대한 두 가지 공격(동질성 공격, 배경지식에 의한 공격)을 방어하기 위한 모델
- 주어진 데이터 집합에서 함께 비식별되는 레코드들은 (동질 집합에서) 적어도 l개의 서로 다른 정보를 갖도록 함.
- 비식별 조치 과정에서 충분히 다양한 서로 다른 정보를 갖도록 동질 집합을 구성 → 다양성 부족으로 인한 공격에 방어가 가능하고, 배경지식으로 인한 공격에도 일정 수준의 방어능력 가질 수 있음.
- 취약점
  - 쏠림 공격
    - 정보가 특정한 값에 쏠려 있을 경우 l-다양성 모델이 프라이버시를 보호하지 못함.
  - 유사성 공격
    - 비식별 조치된 레코드의 정보가 서로 비슷하다면 l-다양성 모델을 통해 비식별된다 할지라도 프라이버시가 노출될 수 있음.
t-근접성
- l-다양성의 취약점(쏠림 공격, 유사성 공격)을 보완하기 위한 모델 → 값의 의미를 고려하는 모델
- 동질 집합에서 특징 정보의 분포와 전체 데이터 집합에서 정보의 분포가 t 이하의 차이를 보여야 하며, 각 동질 집합에서 '특정 정보의 분포'가 전체 데이터집합의 분포와 비교하여 너무 특이하지 않도록 함.
- 정보의 분포를 조정하여 정보가 특정 값으로 쏠리거나 유사한 값들이 뭉치는 경우를 방지하는 방법
- t 수치가 0에 가까울수록 전체 데이터의 분포와 특정 데이터 구간의 분포 유사성이 강해지기 때문에 그 익명성의 방어가 더 강해지는 경향
- 익명성 강화를 위해 특정 데이터들을 재배치해도 전체 속성자들의 값 자체에는 변화가 없기 때문에 일반적인 경우에 정보 손실의 문제는 크지 않음.

05. 데이터 품질 검증

데이터 품질 관리
- 비즈니스 목표에 부합한 데이터 분석을 위해 가치성, 정확성, 유용성 있는 데이터를 확보하고, 신뢰성 있는 데이터를 유지하는 데 필요한 관리 활동
- 중요성
  - 분설 결과의 신뢰성 확보
  - 일원화된 프로세스
  - 데이터 활용도 향상
  - 양질의 데이터 확보
데이터 품질
- 정형 데이터 품질 기준
  - 정형 데이터에 대한 품질 기준은 일반적으로 완전성, 유일성, 일관성, 유효성, 정확성 5개의 품질 기준으로 나눌 수 있음.
    - 완전성 (개별 / 조건 완전성)
    - 유일성 (단독 / 조건 유일성)
    - 일관성 (기준코드 일관성, 참조 무결성, 데이터 흐름 일관성, 칼럼 일관성)
    - 유효성 (범위 / 날짜 / 형식 유효성)
    - 정확성 (선후 관계 정확성, 계산/집계 정확성, 최신성, 업무규칙 정확성)
- 비정형 데이터 품질 기준
  - 기능성 (적절성, 정확성, 상호 운용성, 기능 순응성)
  - 신뢰성 (성숙성, 신뢰 순응성)
  - 사용성 (이해성, 친밀성, 사용 순응성)
  - 효율성 (시간/자원 효율성, 효율 순응성)
  - 이식성 (적응성, 공존성, 이식 순응성)
데이터 품질 진단 기법
- 정형 데이터 품질 진단
  - 데이터 프로파일링 기법을 통해 진단
    - 메타데이터 수집 및 분석
    - 칼럼 속성 분석
    - 누락 값 분석
    - 값의 허용 범위분석
    - 허용 값 목록 분석
    - 문자열 패턴 분석
    - 날짜 유형 분석
    - 기타 특수 도메인 (특정 번호 유형) 분석
    - 유일 값 분석
    - 구조 분석
- 비정형 데이터 품질 진단
  - 품질 세부 기준을 정하여 항목별 체크리스트를 작성하여 진단
    - 기능성
      - 정확성
      - 적절성
      - 상호 운용성
      - 기능 순응성
    - 신뢰성
      - 성숙성
      - 신뢰 순응성
    - 사용성
      - 이해성
      - 친밀성
      - 사용 순응성
    - 효율성
      - 시간 효율성
      - 효율 순응성
    - 이식성
      - 적응성
      - 공존성
      - 이식 순응성
데이터 품질 진단 절차
1. 품질 진단 계획 수립
2. 품질 기준 및 진단 대상 정의
3. 품질 측정
4. 품질 측정 결과 분석
5. 데이터 품질 개선
데이터 품질 검증 수행

Q. 정형 데이터 품질 기준 중 아래 규칙을 만족하는 것은?
- 학기 시작일은 학기 종료일보다 이전 시점이어야 한다.
- 1분기 매출액은 1월, 2월, 3월 매출액의 합계와 같아야 한다.

A. 정확성 (데이터 값이 실제 값과 일치해야 함. 날짜의 선후 관계 정확성, 계산/집계 정확성, 최신성, 업무규칙 정확성 등 만족)

Q. 다음 중 데이터 프로파일링 기법을 통해 검증할 수 있는 것으로 틀린 것?
1) 누락된 값을 찾아냄.
2) 유일해야 하는 칼럼의 중복값 존재 여부 파악
3) ~~연락처가 최신의 것으로 업데이트됐는지 파악~~ → (X)
4) 메타데이터 이용해 데이터 형식 불일치 찾아냄.

'빅데이터분석기사' 카테고리의 다른 글

[필기] 데이터 정제 (0)	2026.03.11
[필기] 데이터 적재 및 저장 (0)	2026.03.08
[필기] 분석 작업 계획 (0)	2026.03.07
[필기] 분석 방안 수립 (0)	2026.03.04
[필기] 빅데이터 기술 및 제도 (0)	2026.02.12

'빅데이터분석기사' Related Articles

AYSTORY

[필기] 데이터 수집 및 전환 본문

[필기] 데이터 수집 및 전환

Ch3. 데이터 수집 및 저장 계획

01. 데이터 수집

02. 데이터 유형 및 속성 파악

03. 데이터 변환

04. 데이터 비식별화

05. 데이터 품질 검증

'빅데이터분석기사' 카테고리의 다른 글

티스토리툴바