알기쉬운 IT 용어: Bigdata

advanced concept

데이터를 매우 많이 모으면 무언가 새로운 것이 됩니다. 그것이 빅데이터입니다.

개념

  • 빅데이터는 기존 방식으로는 처리하기 어려운 대량의 자료입니다.
    • 3V 모델에 따르면 데이터의 양(Volume)이 많을수록, 생산 속도(Velocity)가 빠를수록, 형태가 다양(Variety)할수록을 빅데이터에 가까워집니다.

증가하는 빅데이터

  • 데이터의 생산이 쉬워지면서 빅데이터가 빠르게 증가하고 있습니다.
  • 빅데이터를 생산하는 방법은 크게 3가지 입니다.
    • 첫째, 기존에 흩어져 있던 데이터를 통합하는 것입니다.
      • 야구경기 기록, 바독 기보, X-ray·CT·MRI 사진, CCTV 영상 등
    • 둘째, 온라인 플랫폼을 통해 자료를 모으는 것입니다.
      • 페이스북, 링크드인, 웨이보 등 SNS와 구글, 아마존, 우버 등의 플랫폼
    • 셋째, 센서가 주기적으로 생산하는 자료를 모으는 것입니다.
      • 휴대폰, 자동차 위치정보, 기상정보, 비행기·선박 운항정보 등

빅데이터 분석

  • 빅데이터를 분석하려면 그에 맞는 하드웨어·소프트웨어가 필요합니다.
    • 하드웨어: 분산처리시스템(예: Hadoop, Spark)을 활용하여 대용량 데이터를 여러 컴퓨터에서 나누어 처리해야 합니다.
    • 소프트웨어: 머신러닝(기계학습)을 활용하여 정형·비정형 데이터를 효과적으로 분석해야 합니다.

한계

  • 빅데이터도 데이터로서의 한계를 그대로 가지고 있습니다.
    • 데이터의 신뢰성이 떨어지거나, 분석을 제대로 하지 못한다면 빅데이터가 있어도 원하는 결과를 얻기 어렵습니다.