빅데이터 처리 기술의 필요성

  • 빅데이터 특성은 데이터의 크기(Volume), 발생속도(Velocity), 다양성(Variety) 등 3V로 표현될 수 있음
  • 빅데이터 처리 기술의 요구사항은 실시간 데이터 처리, 분산 병렬처리, 비정형 데이터 처리 등이 있음
  • 빅데이터 처리 시스템이란 대용량 데이터를 분산 병렬 처리하고 관리하는 시스템을 말함
  • 빅데이터 처리 시스템은 대규모 양의 데이터의 수집, 관리, 유통, 분석을 처리하는 일련의 분산 병렬 처리 프레임워크를 제공함



빅데이터 처리 시스템의 목표

  • 빅데이터 처리 시스템의 설계 원칙 및 목표
    • 결함 허용 시스템
    • 저비용 시스템
    • 기존 시스템과의 연계성을 제공
  • 결함 허용 시스템이란 장애가 발생하여도 버티고 수행하는 능력을 의미함
  • 하둡에서 결함 허용 시스템을 보장하기 위해서 클러스터 내에 있는 노드가 죽거나 실행이 실패하는 경우에 클러스터 내에 있는 다른 노드에 작업을 재할당하거나 노드를 자동으로 재수행하여 전체 수행에 문제가 없도록 하는 것



빅데이터 처리 시스템의 기능성 비교

  • 다양한 데이터 처리 : 배치 처리, 실시간 처리
  • 확장성 : 수직 확장(Scale Up), 수평 확장(Scale Out)
  • 결함 허용 시스템 : 분산 파일 저장 시스템, 데이터 복제 기술, 고가용성 기술
  • 다양한 도구 지원 : 기본적인 빅데이터 저장 및 처리뿐만 아니라 빅데이터 수집, 분석, 가시화 등 다양한 도구 필요



하둡 클러스터 운영방식

  • 독립 모드 : 맵리듀스 프로그램을 동작시키고 개발 테스트하는 동안 사용 가능한 모드지만 실제 빅데이터 분산 처리 환경으로는 적합하지 않음
  • 의사(가상)분산 모드 : 하둡 데몬 프로그램이 하나의 로컬 컴퓨터에 여러 개 동작하는 모드로 작은 규모의 클러스터를 시뮬레이션 하는 경우 사용
  • 완전분산 모드 : 하둡 데몬 프로세스가 클러스터로 구성된 여러 개의 컴퓨터에 나누어 동작하고 마스터 노드와 작업 노드로 구분되어 분산 처리 시스템으로 운영하는 환경

Leave a comment