빅 데이터의 시대 - 하둡(Hadoop)

 

500기가를 59초만에, 100테라바이트를 173분만에 정렬하는 하둡은 상상을 초월하는 데이터 분석 성능을

제공한다. 클라우드 컴퓨팅의 역사를 바꾸는 하둡!


 

최첨단 IT기술이 세상을 지배하고 있는 현재는 데이터 폭증의 시대이다.  

전 세계의 인터넷 사용자 수는 20억명 가량 되며 사용 중인 모바일 디바이스는 이미 46억대를 넘어서고 있다.

또한 전문가들은 현재의 데이터가 2015년까지 약 500% 성장할 것으로 전망하고 있고, 이렇게 매일 2.5퀸틸리언(100, 100만의 6제곱)바이트의 데이터가 생성되고 있는 상황에서 IT업체들은 이토록 엄청난 양의 데이터를 분석해야 하는 과제에 직면하고 있으며 이를 해결하기 위한 방법의 하나로 '하둡(Hadoop)'이 고안되었다.

하둡은 구글파일시스템(GFS)에서 비롯되어 구글이 자사의 서비스 플랫폼을 공개한 후 YAHOO의 개발자 더그 커팅이 만들어낸 빅데이터 처리 기술이다.

구글이 자신들의 검색 서비스를 위해 사용하고 있던 분산 파일 시스템인 GFS와 분산 처리 시스템 MapReduce에 대한 논문을 발표하면서 구글의 분산 시스템 방식이 널리 알려지게 되었다.

당시 오픈 소스 검색 엔진인 넛치(Nutch)를 개발 중이던 더그 커팅(Doug Cutting)은 넛치에서 웹 검색 수준의 대용량 데이터 처리를 위해 여러 대의 컴퓨터를 연결해서 작업을 수행하는 기능을 구현하는데 있어 많은 어려움을 느끼고 있었는데 마침 구글의 논문을 접한 더그 커팅은 여기에 나온 내용을 참고하여 구현한 소프트웨어가 바로 하둡이다.

이렇듯 하둡은 분산처리 시스템인 구글 파일 시스템(GFS)을 대체할 수 있는 하둡 분산 파일 시스템(HDFS)과 데이터를 분산시켜 처리한 뒤 하나로 합치는 기술인 맵리듀스를 구현한 오픈소스 프레임워크다. 아파치 소프트웨어 재단 소속으로 HDFS외 피그, H베이스 같은 프로그래밍 언어를 포함하고 있다.

하둡은 페이스북과 야후, 국내의 네이버 등 인터넷 서비스업체에서 활발히 사용되고 있으며 최근 KT가 유클라우드 서비스를 위해 하둡 전문업체 넥스알 인수를 발표하면서 더욱 인기가도를 달리고 있다.

가상화시스템을 주도하고 있는 클라우드 컴퓨팅은 한 인프라에 존재하는 이용자 정보량도 셀 수 없을 정도로 많으며 이 막대한 데이터를 안정적으로 관리하지 못하면 클라우드 컴퓨팅을 도입한 이유마저 사라져 버리게 된다.

또한 클라우드를 도입하는 기업들은 비용대비 최대 효과를 노리기 때문에 인프라비용을 최대한 줄이게 되고, 클라우드 사업자는 저가 하드웨어로 인프라를 채우면서 오픈소스 SW로 안정성을 높이는 게 일반적이기 때문에 안정성을 높이는 한편 이러한 대용량 정보를 저장, 분석하기 위한 수단으로 하둡을 선호하게 되었다.

2007 11월 마이크로소프트의 CEO인 스티브 발머는 "10년 후에는 사내에서 운용되는 서버는 클라우드로 이행되어 사라진다."라고 말했다. 썬마이크로시스템즈의 CTO인 그렉 파파도폴라스는 "세상에는 단 5대의 컴퓨터만 있으면 된다. 구글, 마이크로소프트, 야후, 아마존, 이베이, 세일즈포스닷컴이다." 라고 말했다. 이는 왜 클라우드 컴퓨팅 시대가 올 수 밖에 없는지를 단적으로 말하고 있는 것이며 앞으로 클라우드 컴퓨팅과 하둡과의 관계가 더욱 긴밀해 질 수밖에 없음 말하고 있는 것이다.

 이렇게 급격한 성장가도를 달리고 있는 하둡에 대해 IDC하둡과 맵리듀스 생태계 소프트웨어 풍경 2012′라는 보고서를 통해 2011 7700만달러 수준인 하둡과 맵리듀스과 관련 시장이 2016년이 되면 81280만달러에 이를 것으로 보인다고 분석했다. 매년 60% 넘게 성장하는 셈이다. 또한 IDC 애널리스트는 보고서를 통해 이번 기회에 말로만 무성했던 하둡과 맵리듀스 시장의 실체와 가능성을 파악하고, 이들이 비구조화된 데이터로부터 기존에는 발견하지 못했던 새로운 가치를 만들어내고 있다는 사실을 깨닫게 됐다라며 지금까지는 하둡에 대한 개념 정리가 주를 이뤘다면, 2013년부터는 하둡을 통해 실제로 가치를 만들어 내는 방향으로 관련 시장이 발전할 것으로 보인다라고 설명했다.

허나 “하둡이 급속도로 성장한 것과 달리 하둡을 다룰 수 있는 개발자 수는 현저히 부족하다라며 이는 앞으로 2~3년 동안은 하둡이 성장하는 데 한계로 작용할 것으로 보인다라는 지적을 받은 것은 하둡의 장미빛 미래 이면에 반드시 풀고 나가야만 하는 여러 가지 과제를 품고 있다는 사실 또한 알려주고 있는 것이다.

 


하둡 기술 요소

 하둡은 분산 파일 시스템인 HDFS(Hadoop Distributed File System)분산 처리 시스템인 MapReduce로 구성되어 있다. HDFS MapReduce는 둘 다 Master/Slave 구조인데 HDFS에서 Master Name node, Slave Data node라고 부르며 MapReduce에서는 각각 JobTracker TaskTracker라고 부른다.

HDFS에서는 Master Name node가 파일의 메타(meta) 정보를 관리하고 실제 데이터는 여러 대의 Data node에 분산해서 저장한다. 이 때, 데이터는 일정 크기(default 64MB)의 블록단위로 나뉘어 관리되며 이 블록들을 여러 대의 Data node에 분산 및 복제해서 저장한다. 이렇게 하는 이유는 일부 Data node에 장애가 발생하더라도 전체 시스템에서 데이터를 읽고 쓰는데 문제가 없도록 하기 위함이다.

MapReduce는 이렇게 HDFS에 분산 저장된 데이터를 여러 대의 TaskTracker에서 병렬로 처리함으로써 대용량의 데이터를 빠르게 처리하고자 만들어진 시스템이다. 특히 MapReduce JobTracker에서 TaskTracker의 상태 및 전체 작업의 진행 상황 등을 지속적으로 감시하며 일시적인 장애에 대해서 자동으로 복구하는 기능을 제공하기 때문에 일부 TaskTracker 장비에 문제가 발생하더라도 전체 작업이 진행되는데 문제가 없도록 설계되어 있다. 또한 JobTracker가 여러 대의 TaskTracker에게 자동으로 작업을 할당하고 결과를 통합해 주기 때문에 사용자는 전체 작업 흐름 및 세부 사항에 크게 신경쓰지 않고 데이터 처리 로직에만 집중할 수 있다.

 

참조.

gimmesilver's blog Hadoop_Guide_ext.pdf  (URL  http://Agbird.egloos.com)

 

※ 빅데이터 관련 기사

핫이슈-분석엔진 `R` 분석시장 판도 바꾼다 - 전자신문 <2012.05.06 일자>

배포 제한없는 오픈소스...하둡과 만나 분석시장 '큰 일 낸다' - 전자신문 <2012.05.07 일자>

 

 

블로그 이미지

(주)싸이크로스

(주)싸이크로스 www.sycros.com

댓글을 달아 주세요