메뉴 바로가기 검색 및 카테고리 바로가기 본문 바로가기

한빛출판네트워크

IT/모바일

마이크로소프트의 하둡과 빅 데이터 계획 - 하둡은 마이크로소프트의 데이터 전략의 중요한 부분이다.

한빛미디어

|

2012-03-05

|

by HANBIT

14,929

제공 : 한빛 네트워크
저자 : Edd Dumbill
역자 : 임혜연
원문 : Microsoft"s plan for Hadoop and big data

마이크로소프트가 아파치 하둡(Apache Hadoop)을 빅 데이터 전략의 핵심으로 삼았다. 영향력 있는 오픈 소스 제품을 상당히 열정적으로 도입하는 것은 대충 살펴보는 사람에게는 놀라울 만한 움직임이다.

이러한 움직임의 이유는 하둡이 순전히 그 인기에 의해 분산된 대용량 데이터 분석의 사실상 표준이 되었다는 것이다. 하둡을 아우르는 것으로, 마이크로소프트는 자신의 고객들이 빠르게 성장하는 하둡 생태계를 이용 가능하게 하고 증가하는 하둡에 익숙한 개발자들을 활용할 수 있게 했다.

마이크로소프트의 목표는 윈도우에 하둡을 통합시키는 것 이상이다. 마이크로소프트는 자신이 변경한 부분을 아파치 하둡 프로젝트에 다시 공헌하여, 아무나 순수 오픈 소스 하둡을 윈도우에서 실행할 수 있게 하려고 한다.

마이크로소프트의 하둡 배포판

Hadoop 완벽 가이드 : 클라우드 컴퓨팅 구축을 위한 실전 안내서(개정판) 마이크로소프트의 하둡 배포판은 현재 "고객 기술 선체험"(Customer Technology Preview) 단계에 있다. 이것은 하둡 배포판이 현장에서 고객 그룹에게 평가되고 있다는 뜻이다. 예상되는 출시 시점은 2012년 중반이지만, 기술 선체험 프로그램의 결과에 영향을 받을 것이다.

마이크로소프트의 하둡 배포판은 윈도우 서버에 바로 설치하는 형태 혹은 마이크로소프트의 클라우드 플랫폼인 윈도우 Azure 기반 모두 사용 가능하다. 이 제품의 핵심은 하둡의 MapReduce, HDFS, Pig, Hive 요소에 있다. 이것들은 확실히 1.0 에 포함되어 나갈 것이다.

마이크로소프트의 목표가 100% 하둡 호환성이기 때문에, Zookeeper, HBase, HCatalog, Mahout과 같은 하둡 생태계의 추가적인 요소들도 출시될 것으로 예상된다.

추가 요소들은 하둡을 마이크로소프트의 비즈니스 인텔리전스와 분석 제품 생태계와 통합시킨다.
  • 하둡을 SQL 서버와 SQL 서버 병렬 데이터 웨어하우스에 통합시키는 하둡용 커넥터

  • 모든 윈도우 애플리케이션을 Hive 데이터 웨어하우스에 접근하고 질의를 할 수 있게 하는 Hive용 ODBC 드라이버

  • Hive로부터 데이터를 직접적으로 엑셀이나 PowerPivot으로 옮길 수 있게 하는 엑셀용 Hive 추가 기능
백엔드에서는, 마이크로소프트는 하둡 성능 향상과 접근 제어를 쉽게 하는 액티브 디렉터리와의 통합과 관리 및 운영을 위한 시스템 센터와의 통합을 제공한다.


하둡이 마이크로소프트 생태계와 통합하는 방식 (출처: microsoft.com)


개발자들, 개발자들, 개발자들

마이크로소프트의 하둡 관련 작업 중 가장 흥미로운 기능 하나는 JavaScript API의 추가이다. 프로그램 레벨의 하둡을 사용한 작업은 지겹고 재미없을 수 있다: 이것이 Pig와 같은 고수준 언어가 출현한 이유이다.

소프트웨어 개발자가 중요한 고객이라는 관점 때문에, 마이크로소프트는 하둡 생태계에 JavaScript 계층(Layer)을 넣기로 결정했다. 개발자들은 MapReduce 작업을 생성하고, 브라우저 환경에서 Pig나 Hive와 통신하는 데 JavaScript를 사용할 수 있다.

JavaScript 계층의 진정한 이점은 하둡을 비즈니스 환경에 통합했을 때 나타나는데, 개발자가 비즈니스 사용자가 접근 가능한 인트라넷 분석 환경을 만드는 것을 쉽게 하기 때문이다.

Node.js를 통해 서버측 JavaScript를 윈도우와 Azure로 가져오는 데 마이크로소프트가 주력한다는 것과 결합하여 이것은 개발자의 열정과 재능이 어디에 자리해야 하는지에 대한 마이크로소프트의 흥미로운 관점을 슬쩍 들여다보게 해준다.

마이크로소프트가 자신의 JavaScript API를 아파치 하둡 오픈 소스 프로젝트 자체에 기여하려고 하는데, 이것은 더 넓은 하둡 커뮤니티에도 좋은 소식이다,

마이크로소프트의 소프트웨어 개발 환경의 다른 절반은 물론 .NET 플랫폼이다. 마이크로소프트의 하둡 배포판을 쓰면, .NET으로부터 하둡 API를 직접 사용하여 MapReduce 작업을 생성하는 것이 가능해진다. 고수준 인터페이스가 앞으로의 릴리스에 생겨날 것이 확실하다. 마찬가지로 Visual Studio도 시간이 흐르면서 하둡 프로젝트 지원 레벨이 높아질 것이다.

스트리밍 데이터와 NoSQL

하둡은 빅 데이터 문제의 일부를 커버한다, 그러나 스트리밍 데이터 프로세싱이나 NoSQL 데이터베이스는 어떤가? 이 대답은 두 부분으로 나뉜다, 기존 마이크로소프트 제품을 커버하는 것과 미래의 하둡-호환의 솔루션을 커버하는 것.

마이크로소프트는 몇몇 자리잡은 제품을 가지고 있다: StreamInsight라는 스트리밍 데이터 솔루션, NoSQL에 대해서라면 Azure Tables라는 Window Azure 제품이 있다.

장래를 바라보면, 완전한 하둡 호환성을 위해서는 하둡 생태계의 일부로 설계되는 스트리밍 데이터 솔루션과 NoSQL 데이터베이스들이 마이크로소프트 배포판과 함께 동작해야 할 것이다 - HBase 자체는 핵심 제공물로 출하될 것이다. S4와 같은 솔루션들이 호환될 것이다.

통합된 환경을 향하여

마이크로소프트가 빅 데이터 도구의 주요 구성요소를 통합시키고 있는데, 마이크로소프트는 모두 다 합쳐 통합 비즈니스용 데이터 과학 플랫폼을 제공하는 것을 의도하고 있는가?

그것이 비전임이 확실하다. 마이크로소프트의 빅 데이터 시니어 제품 기획자인 Madhu Reddy는 이렇게 말했다. "하둡은 주로 개발자용이다. 우리는 사람들이 자신이 좋아하는 도구를 쓸 수 있도록 하고 싶다."

이를 성취하기 위한 전략은 여러 레벨의 진입 지점을 포함한다. 개발자 대상, 분석가 대상, 그리고 기업 사용자들 대상. 선택 가능한 하나의 특정 분석 플랫폼을 선택하는 대신, 마이크로소프트는 이미 있는 도구들의 상호 운용성에 초점을 맞출 것이다. 엑셀이 명백한 우선대상이나, 다른 도구들도 마이크로소프트에게 중요하다.

Reddy에 의하면 데이터 과학자들은 선호사항의 스펙트럼을 대변한다. 엑셀이 흔하고 널리 쓰이는 선택지이지만 다른 고객들은 예를 들자면 매틀랩, SAS, R을 사용한다.

데이터 마켓플레이스

빅 데이터와 클라우드 플랫폼으로 마이크로소프트에게 특별한 것 하나는 마이크로소프트의 데이터 마켓인 Windows Azure Marketplace 이다. 지리 정보나 소셜과 같은 외부 데이터를 당신의 고유한 것과 섞으면 흥미로운 사실을 이끌어내는 통찰을 이끌어낼 수 있다. 그러나 데이터를 찾고, 그것의 품질을 믿고, 편하게 사기는 어렵다. 그것이 데이터 마켓플레이스가 필요한 지점이다.

마이크로소프트의 도구와 통합된 Azure 마켓플레이스를 통해 분석가는 일부 품질이 보장된 이미 준비된 외부 데이터의 소스를 사용할 수 있다. 마켓플레이스는 아직 젖먹이 단계이지만 미래에 데이터 중심의 사업에서 더 큰 비중을 차지하게 될 것이다.

요약

마이크로소프트의 빅 데이터 접근법은 자신의 윈도우 플랫폼과의 연속적인 관련성을 보장했다. 그리고 자신의 클라우드 서비스를 데이터 중심 비즈니스의 경쟁력 있는 선택지로 만들었다.

마이크로소프트의 접근방식은 넓고 다양한 소프트웨어 생태계가 있는 회사에게 아주 적절하게도, 일종의 상호운용성을 추구하는 것이다. 마이크로소프트는 다른 이들의 기기 중심적 접근방식이 시사하는 것과 같은 빅 데이터를 위한 특별한 길을 펼쳐놓는 대신, 통합에 대단히 집중하고 있다.

이 방법은 새 도구들과 재능있는 개발자들을 자신의 플랫폼으로 이주 가능하도록 마이크로소프트가 아파치 하둡 커뮤니티를 아우르고 협업할 것임을 보장한다.
TAG :
댓글 입력
자료실

최근 본 책0