테라데이타가 7월 16일 양재동 엘타워에서 ‘CTO로드쇼 서울 2014’(CTO ROADSHOW SEOUL 2014)를 열었다. 이번 행사에서 오전 세션 강연자로 나선 스티븐 브롭스트(Stephen Brobst) 테라데이타 최고기술책임자(CTO)를 만나 최근 빅데이터 시대에 대응하는 테라데이타의 행보에 대해 이야기를 나눴다. 장혜림 기자 [email protected]

그림1.JPG

“기술은 변합니다. 여기 적응하든지 멸종하든지, 기업이 할 수 있는 선택은 둘 중 하나뿐입니다.”

브롭스트 CTO는 자신이 오픈소스 소프트웨어의 오랜 팬이라고 밝히며 최근 데이터 처리 명가다운 발언으로 이야기를 시작했다. 특히 그는 2006년쯤 상용화되기 시작한 하둡(Hadoop)이 CTO로서 좋은 데이터 처리 솔루션이 될 수 있을 것이라고 말했다. 테라데이타는 전통적인 데이터웨어하우스(Data Warehousing, 이하 DW)를 기반으로 한 기업이었지만, 브롭스트 CTO는 하둡이 ‘실패를 전제’로 한 대용량 데이터 병렬 분산 처리 소프트웨어였다는 점에 매력을 느끼고 계속 공부해왔다.

“하둡은 인터넷 환경을 염두에 둔 파일 시스템이고 데이터를 일괄 처리하는 배치(Batch) 방식이기 때문에 고도의 데이터 분석을 하지는 못합니다. 하지만 저비용으로 용량을 확장하거나 축소할 수 있습니다. 그래서 테라데이타가 전통적으로 강세를 보인 DW와 공존하며 생태계 파트너가 될 수 있겠다는 생각을 했습니다. 테라데이타 UDA(Teradata Unified Data Architecture)를 제안한 이유도 거기 있고요.”

테라데이타 UDA는 테라데이타 데이터베이스 15의 핵심 기능이다. 그는 고객 기업들이 대용량 데이터를 쉬운 IT 기술을 활용해 처리하고 빠른 의사결정을 도출하는 데에 관심이 있다고 말했다. 그래서 테라데이타 UDA를 통한 플랫폼 통합은 필수적인 과정이라고 강조했다.

“UDA를 구성하는 프로그래밍 중 가상 컴퓨팅 기능을 제공하는 쿼리그리드 프로그래밍(Query Grid Programming)이 핵심입니다. 이는 세 개의 플랫폼 사이드로 구성돼 있습니다. 데이터 호수(Data Lake)가 한 부분입니다. 목소리, 동영상 등 날 것의 정형, 비정형, 센서데이터를 여기에 저장합니다. 하둡 서버가 여기 쓰일 수 있습니다.하둡은 데이터베이스가 아니라 파일 시스템이라 유연하기 때문입니다. 두 번째는 데이터 R&D(Data R&D)입니다. 데이터 호수로부터 SQL, 맵리듀스(Mapreduce) 등을 통해 받아온 정보를 인메모리 프로세싱을 거친 뒤 시각화해 인사이트를 도출합니다. 마지막은 데이터 생산(Data Manufacturing) 과정입니다. 정제된 데이터 내부로부터 가치를 창출하는 과정입니다. 테라데이타가 이 과정에 개입할 수 있습니다.”

이 세 개의 플랫폼은 그 사이에서 데이터와 기능이 교차하면서 협업해 데이터를 분석하게 된다. 하둡의 데이터를 테라데이타로, 테라데이타에 있는 데이터를 하둡으로 옮기면서 분석하는 과정이다. 브롭스트 CTO는 하둡과 테라데이타의 기존 플랫폼을 연동 혹은 결합해 데이터 분석을 하고 있는 고객사들의 예시가 있다며 이베이와 North American Bank(북미은행)을 이야기했다.

“이베이 사용자들은 자신의 물건을 팔기 위해 사진을 올립니다. 이 사진의 질이 좋을수록 검색이 더 잘되고 랭킹이 올라갈 수 있는 가능성이 높아집니다. 따라서 이베이는 디지털 이미지 기술을 통해 이 그림의 질을 평가하게 되죠. SQL로는 그림을 분석할 수 없기 때문에 다른 언어로 하둡 플랫폼에서 분석합니다. 그 다음 과정은 그림마다 점수를 매기는 것이겠죠. 이때 점수를 매기고 저장하는 것은 SQL로 실시하고 테라데이타 데이터베이스에 저장돼 검색 랭킹 알고리즘에 적용됩니다.

또 다른 예는 들어볼까요? North American Bank의 전화내용 분석입니다. 과거에는 트레이닝이나 분쟁 시에만 과거 전화 내용을 들었습니다. 분석적인 가치가 창출되지 않는 것이죠. 그러나 분명히 분석적인 내용이 그 안에 들어있습니다. 음성데이터는 하둡에 저장됩니다. 여기서 자바를 통해 대화 내용을 텍스트로 저장하는 알고리즘을 거치죠. 아직까지 관계형 데이터베이스에는 중요하지 않은 데이터입니다. 다음 단계는 이 텍스트에서 전화 상의 분위기, 느낌을 추출하는 것입니다. 이 데이터는 텍스트보다 작기 때문에 테라데이타에서 분석하게 되는 거죠.”

브롭스트 CTO는 적극적으로 하둡을 이용하지만 SQL on Hadoop만으로는 제대로된 데이터 분석을 할 수 없다고 믿고 있었다. SQL은 빠르고 유용하고 쉽지만 모든 걸 해결하진 않는다는 입장이었다. 그래서 그는 하둡 생태계에서 쏟아지는 브랜드들이 DW 시장을 대체할 수 없다고 봤다. 대체하기보다는 파트너가 될 것이라고 그는 말했다. “앞서 예를 들었듯이 테라데이타는 SQL on Hadoop만으로 데이터를 처리하지는 않습니다. SQL만의 장점이 있고 그걸 살릴 수 있는 DW는 따로 있는 거죠. 하둡은 파일 시스템이기 때문에 SQL을 쓰는 게 비효율적이라고 생각합니다. 일례로 SQL on Hadoop 중 하나인 하이브는 굉장히 느립니다. 그래서 SQL이 하지 못하는 부분을 하둡에서 하는 것이 더 가치 있다고 봅니다. 그래서 NoSQL 기반 데이터베이스인 몽고DB(MongoDB)와 협력하고 있습니다.

하둡을 사용하고 있는 전통적인 DW인 테라데이타가 맞이한 새로운 경쟁자는 구글, 아마존이었다. 이들은 빅데이터 플랫폼을 서비스로 내놓고 쏠쏠한 수익을 얻고 있다. 아마존은 올해 클라우드 서비스로 거둬들인 수익만 50억 달러였다. 플랫폼을 보유한 테라데이타도 비슷한 서비스를 하고 있지 않을까.

“중소규모 회사들도 고객으로 보유하고 있는 미국에서는 테라데이타도 하둡이나 애스터로 빅데이터 플랫폼을 제공하고 있습니다. 하지만 한국 고객들은 텔레콤, 은행과 같은 큰 규모의 회사들입니다. 이러한 고객들은 테라데이타 UDA 등 어플라이언스를 구매해서 자체 데이터센터 내에서 구동합니다.”

그는 한국에서 불었던 빅데이터 바람과 지금의 화두인 사물인터넷(IoT)도 눈여겨 보고 있었다. 사실 두 키워드는 떼려야 뗄 수 없는 관계다. 사물인터넷을 통해 수집되는 엄청난 양의 데이터를 분석하는 것은 빅데이터 기술이기 때문이다. 그러나 한국에서는 두 기술이 분리된 것처럼 단발적으로 이슈가 터지고 있다. 5년마다 바뀌는 정부가 소프트웨어 산업에 주도적으로 투자하고 있기 때문이다. 브롭스트 CTO에게 한국에서 말하는 빅데이터를 어떻게 생각하는지 물었다.

“한국 사회가 하둡 같은 새로운 기술이 있을 때 먼저 나서서 받아들이는 것 같진 않습니다. 보수적인 면이 있죠. 하지만 저희가 상대하는 한국의 텔레콤 회사 고객들이나 제조업 회사들은 빅데이터의 필요성을 인식하고 있는 것 같았습니다. 세계 일류는 아니지만 선두권이랄까요.”

그는 마지막으로 전 세계적인 이슈인 사물인터넷에 테라데이타가 어떻게 반응할지에 대해 간략히 설명했다.