빅데이터 품질관리시스템 개발
빅데이터 주요 품질 요소
- 데이터의 완전성, 적시성, 일관성, 정확성
빅데이터의 결측치를 처리하는 기능 3가지
- 무시, 자동 채우기, 수작업
빅데이터 품질 평가 기능 규격에서 이상값을 탐지하는 방법
- 데이터의 분포와 상관관계 분석을 통해 이상값을 탐지한다. 그 후 이상값에 해당하는 값을 제외한다.
분산처리 프레임워크인 하둡(Hadoop)의 장점
- 검색 질의 방식이 아닌 데이터 직접 검색 도구를 제공하여 처리 속도가 빠르고 분산 처리 방식으로 용량에 제한이 없다.
개인 정보 비식별화 처리 기술
- 대체값 가명 처리
- 범주화
- 데이터 마스킹
- 오류 또는 특정 데이터 삭제
Leave a comment