텍스트 데이터 분석의 개념

  • 대용량의 비정형 텍스트나 특정 형식이 없는 텍스트를 수집하고 처리하여 유의미한 흐름과 패턴을 도출하여 중요한 의사결정을 위한 분석을 의미한다.


빅데이터를 정의하기 위한 3V

  • Volumn(크기)
    • 테라바이트,페타바이트 이상의 방대한 양의 크기를 의미함
  • Variety(다양성)
    • 정형, 반정형, 비정형 데이터를 의미함
  • Velocity(속도)
    • 실시간으로 생산되며 빠른 속도로 처리/분석함


빅데이터 프로젝트의 유형

  • 플랫폼 구축형 프로젝트
  • 빅데이터 분석 프로젝트
  • 빅데이터 운영 프로젝트


빅데이터 아키텍처 레이어 구축 6단계 순서


하둡의 구성

  • 하둡은 분산된 장비를 활용하는 분산파일시스템과 분산된 저장파일 데이터를 쉽고 빠르게 분석할 수 있는 맵리듀스로 구성되어 있다.


빅데이터에서 파이썬을 사용할 때의 장점

  • 문법 구조가 간결하고 다양한 라이브러리가 있으므로 다양한 용도로 확장하기 좋다.
  • 그러므로 데이터 분석 머신러닝등에도 활용하기 편리하여 실제 머신러닝 소프트웨어에 가장 많이 사용하고 있다.

Leave a comment