텍스트 데이터 분석
텍스트 데이터 분석의 개념
- 대용량의 비정형 텍스트나 특정 형식이 없는 텍스트를 수집하고 처리하여 유의미한 흐름과 패턴을 도출하여 중요한 의사결정을 위한 분석을 의미한다.
빅데이터를 정의하기 위한 3V
- Volumn(크기)
- 테라바이트,페타바이트 이상의 방대한 양의 크기를 의미함
- Variety(다양성)
- 정형, 반정형, 비정형 데이터를 의미함
- Velocity(속도)
- 실시간으로 생산되며 빠른 속도로 처리/분석함
빅데이터 프로젝트의 유형
- 플랫폼 구축형 프로젝트
- 빅데이터 분석 프로젝트
- 빅데이터 운영 프로젝트
빅데이터 아키텍처 레이어 구축 6단계 순서
하둡의 구성
- 하둡은 분산된 장비를 활용하는 분산파일시스템과 분산된 저장파일 데이터를 쉽고 빠르게 분석할 수 있는 맵리듀스로 구성되어 있다.
빅데이터에서 파이썬을 사용할 때의 장점
- 문법 구조가 간결하고 다양한 라이브러리가 있으므로 다양한 용도로 확장하기 좋다.
- 그러므로 데이터 분석 머신러닝등에도 활용하기 편리하여 실제 머신러닝 소프트웨어에 가장 많이 사용하고 있다.
Leave a comment