본문 바로가기

빅데이터/하둡

1.빅데이터란?

1.빅데이터란?

 1) 데이터의 규모에 초점을 맞춘 정의

  - 기존 데이터베이스 관리 도구의 데이터 수집,저장,분석하는 역량을 넘어서는 데이터

 2) 업무 수행 방식에 초점을 맞춘 정의

  - 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 빠른 수집,발굴,분석을 지원하도록 고안된 차세대 기술 및 아키텍처

 

2.  빅데이터의 3대 요수 (3V)

1) 크기(Volume)

 - 비즈니스 특성에 따라 다를 수 있지만 일반 적으로 수집 테라바이트 혹은 수집 페타바이트 이상이 빅데이터에 해당합니다.

 - 이러한 데이터는 기존 파일 시스템에 저장하기 어려울뿐더라 데이터 분석을 사용하는 기존 데이터웨어하우스 같은 솔루션에서 소화하기 어려울 정도로 데이터 양이 많습니다.

2) 속도(Velocity)

매 순간 많은 양의 데이터가 생상되고 있기 때문에 데이터의 생산, 저장, 유통, 수집, 분석이 실시간으로 처리 되어야 합니다.

예를 들어, 게임의 채팅창에 불건전한 내용을 입력할 경우 시스템에서 이러한 문구를 빠르게 분석해서 다른 사용자에게 피해가 없도록 해야 합니다.

3) 다양성(Variety)

- 다양한 종류의 데이터들이 빅데이터를 구성하고 있다. 데이터 정형화의 종류에 따라 정형, 반전형, 비정형으로 나눌 수 있습니다.