머신러닝의 개념

  • 인공지능의 한 분야로서 컴퓨터가 명시적인 프로그램 없이 스스로 배울 수 있는 능력을 부여하는 연구분야를 의미한다.
  • 컴퓨터가 어떠한 작업에 대해 꾸준한 경험을 통하여 그 작업에 대한 성능을 높이는 것으로 여기서 꾸준한 경험이란 품질 좋은 대량의 데이터를 갖고 있어야 한다는 것이 핵심이다.


빅데이터의 특징

  • 통상적으로 사용되는 데이터 수집 및 관리 처리와 관련된 소프트웨어의 수용한계를 넘어서는 크기의 데이터를 말한다.
  • 빅데이터의 규모는 단일 데이터 집합의 크기가 수십 테라바이트에서 수 페타바이트에 이르며 그 크기가 끊임없이 변화하는 것이 특징이다.
    • 테라바이트(Tera) = 1000GByte, 1조 바이트
    • 페타바이트(Peta) = 1000TByte, 1000조 바이트


빅데이터의 목적

  • 대용량 데이터를 활용/분석해서 가치 있는 정보를 추출하고 생성된 지식을 바탕으로 능동적으로 대응하거나 변화를 예측하기 위한 의사결정을 목적으로 한다.


빅데이터의 오해

  • 빅데이터를 처음 접하는 사용자들이 빅데이터 시스템을 전통적인 RDBMS처럼 생각하는 것으로 만일 관계형데이터베이스의 기능을 빅데이터 시스템에 요구하면 정작빅데이터의 핵심기능의 구현이 어려워진다.


빅데이터 분석 프로그램 종류

  • Python, R, Hadoop, Storm, Kafka, Spark 등


하둡

  • 대규모 컴퓨터 클러스터에서 동작하는 분산 애플리케이션을 지원하는 오픈 자바 소프트웨어 프레임워크를 의미한다.
  • 여러 개의 컴퓨터를 마치 하나인 것처럼 묶어 대용량 데이터를 처리하는 기술이다.

Leave a comment