2012년 3월 26일 월요일

빅데이터, 그리고 비정형 데이터


빅데이터란?

빅데이터에 대한 명확한 정의는 없다. 다만 사용자집단에게 주어진 시간, 비용, 환경에 따라 처리할 수 있는 데이터의 범위를 초과하는 데이터를 빅데이터라고 할 수 있다. 스마트 디바이스에서 생성되는 데이터, 소셜 데이터임베이드 시스템을 통해 생성되는 데이터, 개인 노트북에 저장되는 문서파일, 이메일, 동영상 등 기업이 관리하고 싶은 데이터 대상은 많지만 어떻게 관리하고 처리해야 할지 난감하기만 하다.



현재 빅데이터에 대해 많은 벤더사와 언론사에서 이미 빅데이터 관련 솔루션을 수 차례 소개하고 홍보하고 있다그로 인해 충분히 많은 IT관련 종사자들은 빅데이터에 대한 충분한 지식과 실제로 경험하지는 못했어도 여러 사례를 통해 빅데이터에 대한 개념은 어느 정도 잡고 있고, 필요성을 느끼고 있다.

하지만 과연 빅데이터라고 할 만한 데이터를 가지고 제대로 활용하는 기업은 얼마나 될까? 국내 시장에서 구글, 야후, 페이스북 처럼 수억명의 사용자와 수백억건의 웹문서에 대한 정보를 모으고, 관리하여 광고 또는 마케팅, CRM에 활용하는 기업이 얼마나 있을까?
현재까지는 국내시장에서 제대로 빅데이터를 적용하고 활용하는 기업은 제한적이라고 생각이 든다. 가트너 자료에 의하면 포춘 500 대기업의 약 85%가 빅데이터 활용에 실패할 것이라고 예상하고 있다고 하니 철저한 준비와 전략을 세우고 접근하는 것이 필요하다고 생각한다.


“빅데이터를 단순히 쌓아놓는다면 큰 의미가 없다. 중요한 것은 빅데이터 안에서 통찰을 얻을만한 패턴을 찾아내어야 한다.



비정형 데이터의 증가와 현 데이터 분석 방식의 한계성



빅데이터는 확실히 기존 RDB에 쌓여 있던 데이터들과 다르다. RDB에 잘 정리되어 담겨있는 데이터가 아닌 웹문서, 이메일, 소셜데이터 등 비정형 데이터가 주를 이루게 된다. 또한 기존의 BI는 분석 정보가 제한된 소수의 의사결정자 및 숙련된 사내 분석 전문가 등에 의해 활용 되어져 왔으며, 한번 구축되면 이를 변경하고 관리하는데 상당한 비용을 재투자해야 하는 문제점을 가지고 있었다. 이러한 BI의 기반 위에 또 하나의 변수인 비정형 데이터 출현은 또 하나의 골칫덩이다. 가트너에 의하면, 2015년 전체 데이터 볼륨은 1년에 59, 파일의 숫자는 일년에 88%씩 증가할 것이라고 예상 되어지고 있다. Storage Computing Power가 증가하더라도 분석 방식의 변화 없이는 많은 양의 데이터, 다양한 종류의 데이터에 대응하기는 쉽지 않을 것으로 예상된다.


정형/비정형 데이터의 통합 분석 필요

빅데이터 처리 기술인 Hadoop, NoSQL, MapReduce 에 대해 이미 많이 소개받고 많이 들어봤을 것이다. 이러한 기술의 특징은 대부분 오픈소스이고, 기술이 많이 공개 되어 있어 쉽게 접근 가능하다. 하지만 가장 중요한 것은 어떤 데이터를 분석하고, 어떻게 의미있는 정보를 찾아낼 것 인가 이다.
이를 위해서는 단순히 데이터 처리가 아닌 분석 방법에 대한 변화도 필요하다는 것이다. 앞에서 말했듯이 DB에 쌓여있는 정형데이터 뿐만 아니라 사람들이 만들어낸 문서, 이메일, 동영상 등 비정형 데이터도 분석해야 하고여러 스마트기기, 임베이드 시스템에서 나오는 머신데이터에 대한 처리도 필요하다. 이런 여러 유형의 데이터를 통합하고 분석 할 수 있어야 한다.
소셜미디어분석을 예로 들어본다면, 기존의 CRM, 콜센터, 고객메일, 소셜미디어 데이터를 통합적으로 분석할 때 비로서 개개인의 고객의 성향과 군집의 성향을 정확히 파악할 수 있다.
이를 위해서 비정형 데이터를 분석할 수 있는 NLP(Natural Language Processing), Text Analytics, Entity Extraction 등의 기술 역시 필요하다. 복잡한 텍스트 안에서 의미있는 정보를 추출하고 이를 정형 데이터와 통합하여 분석할 수 있는 기술은 앞으로 빅데이터 시대의 큰 도움이 될 것이다.


 - Post by Namyoun 



댓글 없음:

댓글 쓰기