과거의 컴퓨팅 인프라는 데이터 처리 비용이 비쌌다. 그래서 어떤 국가나 산업은 그런 종류의 컴퓨팅을 도입할 수 있는 경제력이 없었다. 반면 이른바 선진국이나 고부가가치 산업에서는 이를 도입해 높은 인건비를 줄이는 게 더 경제적이었다.

그러나 구글의 ‘하둡’을 시작으로 분산파일 시스템 기반 컴퓨팅 플랫폼이 개발됨으로써 저비용 대용량 실시간 컴퓨팅이 가능해졌고, 저개발국과 선진국, 저부가가치 산업과 고부가가치 산업 모두 데이터 컴퓨팅을 적용할 수 있게 됐다.

이는 산업 구조적으로 더 이상 시장을 잘게 쪼개서 볼 이유가 없어졌음을 의미한다. 물론 시장을 잘게 쪼개(segmentation) 각 세그먼트의 지불 의향을 최대한 수익으로 실현시키는 것은 가능하다. 그러나 그렇게 하려면 각 세그멘트 별로 영업 영역을 나누거나 별도의 상품 패키징을 하고 관리해야 한다. 잘게 쪼갤수록 비용이 급격히 증가하는 문제가 생긴다. 차라리 시장을 세분화하지 않고 전세계를 대상으로 사업을 전개한다면 어떨까?

이것이 바로 구글이 야후를 이길 수 있었던 이유다. 야후는 상당히 늦게까지 북미 시장에서 방문자수 1위를 유지했고, 전 세계 여러 지역에서 포털 시장의 강자 지위를 구축했다. 그러나 낮은 컴퓨팅 비용으로 전세계에 동일한 서비스를 하고 하나의 가격 메커니즘으로 광고상품을 파는 구글을 이길 수 없었다.

구글은 검색 기술 측면에서도 시장을 세분화할 필요가 없는 ‘언어 독립적 랭킹 기술’에서 시작했기 때문에, 이런 기업 모델은 너무나 자연스러운 것이었다. 반면 야후를 포함한 다른 기업들은 컴퓨팅 아키텍쳐를 혁신하더라도 여전히 세분화된 시장 위에 서 있었고, 그런 이유에서 글로벌한 서비스가 되는 길로 가지 못했다.

gettyimages

SNS 등장과 실시간 대용량 컴퓨팅


구글이 매우 훌륭한 대용량 컴퓨팅 아키텍쳐를 만들어냈지만, 여전히 남는 문제가 있었다. 바로 고속 데이터 트랜젝션을 처리하는 것이었다. 이는 데이터베이스 관리시스템(DBMS)을 사용하던 컴퓨팅에서도 문제였다. DBMS가 하드디스크 상에 데이터를 저장하는 한 피할 수 없는 물리적 저장 매체의 읽기/쓰기 시간과 관련된 문제였기 때문이다.

제한된 환경에서 엄격히 통제되는 데이터를 다루는 데이터컴퓨팅에서는 이 문제를 그럭저럭 해결할 수 있었다. 대표적으로 금융 트랜젝션과 같은 것들이다. 그런 고부가가치 영역에서는 DBMS를 기반으로 애플리케이션이 맞게 미리 인덱싱한 데이터를 사용하는 기법 말고도 휘발성 데이터들을 메모리 상에서 처리하고 버리는 기법, 하드디스크 기반 DBMS 앞에 하드디스크보다 훨씬 고속으로 데이터를 읽고 쓸 수 있는 반도체 소자인 메모리 기반 DBMS를 배치하고 분산된 DBMS 간에 데이터 동기화를 처리하는 기법 등 다양한 방법이 발전했다.

그러나 페이스북과 같은 소셜네트워크 서비스가 등장하자 상황이 바뀌었다. 페이스북 같은 서비스들이 생산하는 데이터는 양적으로도 매우 많을 뿐만 아니라 트랜젝션 당 부가가치가 매우 낮다. 고가의 DBMS 기반 데이터 컴퓨팅을 사용했다가는 알타비스타와 같은 최후를 맞을 것이 뻔했다.

그렇다고 SNS 사용자들이 쏟아내는 대량의 데이터를 포기할 수는 없었다. 만약 그것을 포기한다면 사용자들이 생산하는 데이터는 사후 분석의 대상이 될 수 밖에 없다. 실시간으로 지나쳐가는 SNS 사용자들의 맥락은 다음 번 접속 때에는 이미 의미가 반감돼 버리고 만다.

이 문제에 대한 해결책으로 제시된 것이 빅데이터 컴퓨팅이다. 빅데이터 컴퓨팅 기술의 상당 부분이 메신저 서비스로부터 비롯됐다. 특히 페이스북이 벨루가(Beluga)를 인수해 만든 페이스북 메신저는 전세계 8억명 이상의 사용자를 가진 메신저이기 때문에, 단시간 내에 대량의 메시지를 엄청난 숫자의 사용자들에게 전달해야 했다.

이때 사용된 것이 바로 MQTT라고 불리는 메시징 프로토콜이다. MQTT는 DBMS를 거쳐 애플리케이션에 데이터를 전달하지 않는다. 대신 단순한 규격의 메시지를 메시지 브로커가 네트워크로부터 메모리를 거쳐 애플리케이션에 직접 배포한다. DBMS를 거치지 않고 응용 프로그램으로 직접 전달하면 되는 데이터는 http 같은 파일 단위 응용 프로토콜로 보내지 않고, 실시간 데이터 배포를 위한 전용 프로토콜을 이용하는 것이다. 이렇게 하면 DBMS를 거치는 것보다 속도가 훨씬 빠르다. 이러한 실시간 메시징 프로토콜을 HBase와 같은 분산파일 시스템 기반 DBMS와 함께 활용한 것이 현재 사물인터넷 빅데이터 컴퓨팅에 사용되고 있는 람다(Lambda) 아키텍쳐다.

그렇다고 MQTT 프로토콜이 다른 애플리케이션 프로토콜처럼 특정 애플리케이션에 종속적인 것은 아니다. 어찌보면 이것은 DBMS의 기능을 전송 프로토콜 수준으로 내려서 구현한 것이라고 해석해도 될 것이다. 이 데이터는 특정한 응용프로그램에 종속적이지 않고, 다양한 응용 프로그램이 이 데이터를 공유하여 사용한다. 실시간 분석 애플리케이션은 ‘분석’을 하고, 시각화(Visualization) 애플리케이션은 그 데이터로 그래프를 만든다.

이제 온라인 컴퓨팅은 인터넷에서 벌어지는 거의 모든 일을 실시간으로 컴퓨팅할 수 있는 수준에 도달했다. 이것은 디지털 혁신이 서비스 분야에서 거대 기업들을 탄생시킨 것과 비슷하게 새로운 유형의 기업, 과거에는 상상하지 못했던 초국적 기업의 탄생을 예고하고 있었다.

실리콘밸리의 스타트업이 투자자들에게 자신의 서비스가 왜 글로벌 스케일로 확장 가능한지 열변을 토할 때, 글로벌 확장을 위한 컴퓨팅 비용이 사업의 장애물이 될 것이라고 생각하는 투자자는 이제 아무도 없었다.


 

 

블록체인의 기원_#1: 데이터 컴퓨팅의 진화와 구글의 시대

장중혁 iBloc 대표는 카이스트에서 경영과학을 전공했고, 서울대 과학철학협동과정에서 과학기술학으로 석사학위를 받았다. IT/통신분야 컨설팅 기업 애틀러스리서치앤컨설팅에서 일했고, 몇 개의 IT기업을 창업했으며 ,현재는 ㈜인포뱅크의 블록체인 사업부인 iBloc 대표로 블록체인 기반 금융서비스를 준비중이다. 장 대표는 코인데스크코리아 고정칼럼 ‘토큰토크’를 통해 컴퓨팅 역사의 관점에서 블록체인 기술의 기원을 짚어보는 글을 총 7회에 걸쳐 연재할 계획이다. 이밖에도 블록체인과 토큰이코노미에 대한 기술사회학적 고찰을 담은 글을 쓸 예정이다.
제보, 보도자료는 contact@coindeskkorea.com
저작권자 © 코인데스크코리아 무단전재 및 재배포 금지