선사시대 때, 농경을 시작할 무렵 어느 한 부족이 농사를 짓기 위해 드넓은 평야에
다다랐을 때 이미 그 땅을 일궈 밀을 재배하고 있는 다른 부족이 있었다. 이 부족에게 평야의 일부를 빌려달라고 요청하자 너무 많은 대가를 요구했다. 그래서 그 평야를 놓고 싸우려는데, 다른 부족장이 대안을 제시했다. “평야를 지나가면 우리 능력으로도 일궈내지 못한 언덕이 있다. 그 언덕을 가져라.”밀밭을 지나 언덕을 봤을 때 그 부족은 두 번 놀랐다. 한 번은 그 어마어마한 넓이에, 또 한 번은 땅이 너무 거칠어 제대로 일구기가 힘들다는 데에. 이것이 바로 빅데이터이며, 7년 동안 이 땅을 일궈 밭을 만들어 낸 것이 바로 하둡(Hadoop) 프로젝트다. 일궈낸 밭에 무엇을 심고, 어떻게 가꿀지는 IT업체와 각 기업들이 할 일이다. 여기서는 하둡이라는 밭에 대해, 그리고 무엇을 심을 지 알아보기로 하자.
어떻게 가꿀지는 데이터베이스 관련한 거의 모든 IT업체들이 설명하고 있으니 여기서는 논외로 하겠다.
빅데이터 시대의 대표 기술, 하둡
2008년 이래로 데이터 폭증 시대가 도래했다. 5년만에 데이터 량이 44배에 이를 것으로 예측했고, 실제 이를 능가하는 수치를 기록했다. 이는 단순한 데이터량의 증가가 아니라 데이터의 다양성, 속도 등을 함께 아우르는 의미다. 특히 모바일 기기나 소셜 미디어 등에서 생산되는 비정형 데이터의 증가는 소비자의 행태를 바꾸고 있으며, 이는 산업계에서는 비즈니스 경쟁의 규칙조차 바꾸고 있다. 이제 빅데이터는 피할 수 있는 것이 아니며, 누가 먼저 빅데이터를 활용하느냐가 향후 비즈니스를 판가름하는 척도가 된 것이다. 그러나 문제는 폭증하는 데이터를 저장, 분석, 활용하는 방법이 기존 방식으로는 거의 불가능 하다는 것. 특히 기존 방식이 1970~80년대 RDBMS(Relational DataBase Management
System), 90년대 DW(Data
Warehouse) 시대였다면, 이제 빅데이터기술이 필요하게 된 것이다. 빅데이터 저장 분석 기술을 대표하는 것이 바로 하둡이다.
검색에서 시작한 하둡, 클라우드 컴퓨팅과 만나 활기
하둡(Hadoop)은 지난 2005년 루센 개발자인 더그커팅과 마이크 카파렐라가 구글의 맵리듀스 알고리즘을 구현하면서 만들어졌다. 이후 커팅은 야후로 옮겨가 검색 서비스에 하둡 기술을 적용하는 프로젝트에 참여했으며, 최종적으로는 약
4만여 대의 서버에걸쳐 하둡을 구현했다.
하둡이 널리 유명해지기 시작한 것은 클라우드 컴퓨팅과의 연계를 통해 상상을 초월하는 데이터 분석성능을 제공하는 등의 가시적인 효과가 나타났기 때문이다. 하둡 프로젝트의 핵심 설계자인 톰 화이트가 저술한 <하둡 완벽 가이드>에 따르면, 전에는 시간이 너무 오래 걸려 결과를 얻을 수 없었던 문제들을 이제는 하둡으로 빠르게 해답을 얻을 수 있게 됐다. 대표적인 사례는 다음과 같다.
□ 2008년 2월 -
뉴욕타임스는 1851년부터 1980년 12월까지 130년 분량의 신문기사 1,100만 매를‘아마존 S3’에 저장하고, 하둡을 이용해 약 4테라바이트 크기의 데이터를 24시간 만에 변환했다. 이는, 일반 서버로 대략 14년이 걸리는 어마어마한 작업량이다.
□ 2008년 4월 -
하둡은‘맵 리듀스로 테라바이트 데이터 소트하기’대회에서 2007년도 우승자의 297초에 비해 2/3분 수준인 209초 만에 정렬하며 우승했다. 이어 2009년 5월, 야후는 하둡으로 62초 만에 1테라바이트를 정렬했다.
□ 2009년 4월 -
‘1분 소트’대회에서 500기가바이트를 59초에(1,400개 노드에서) 정렬하며 우승했다. 또한 100 테라바이트를 173분에(3,400개 노드에서) 정렬했다.
데이터 분산 저장 분산 처리 프레임워크, 하둡
하둡은 대량의 자료를 처리할 수 있는 대규모 컴퓨터 클러스터에서 동작하는 분산 애플리케이션을 지원하는 오픈 자바 소프트웨어 프레임워크다. 원래 검색의 분산처리를 지원하기 위해 개발된 것으로, 아파치 루센의 하부 프로젝트였다. 분산처리 시스템인 구글 파일 시스템을 대체할 수 있는 하둡 분산 파일 시스템, 즉 HDFS(Hadoop
Distributed File System)와 분산 처리 시스템인 맵 리듀스(Map Reduce)를 구현한 것이다. 이는 위키피디아에서 정의한 하둡의 의미를 조금 수정한 것이다. 한 마디로 얘기하면, 하둡은 대용량 데이터 처리 분석을 위한 대규모 분산 컴퓨팅 지원 프레임워크다. 하둡의 구성 요소 가운데 핵심 구성은 바로 저장과 처리(계산)이다. HDFS을 통해 분산 저장하고, 맵 리듀스를 통해 분산 처리한다는 것.
여기서 하둡의 가장 큰 특성이 나타난다. 바로 분산(Distributed)이다. 즉 분산 처리, 분산 저장이다. 하둡은 여러 개의 컴퓨터를 마치 하나인 것처럼 묶어주는 기술을 통해 저장 공간과 계산 능력을 늘린다.
출처 : IDG
Korea
댓글 없음:
댓글 쓰기