블록체인의 기원_#1: 데이터 컴퓨팅의 진화와 구글의 시대

등록 : 2018년 7월 5일 23:49 | 수정 : 2019년 5월 2일 13:17

‘블록체인’과 ‘암호화폐’ 이슈에 접근하기 위해 ‘컴퓨팅’의 측면을 이해하는 것의 출발점은 아무래도 ‘온라인 컴퓨팅’의 메인스트림을 이해하는 것이다. 현 시점에 우리가 사용하고 있는 ‘온라인 컴퓨팅’에 가장 큰 영향을 준 당사자를 꼽으라면, 그것은 당연히 Google일 것이다. 그 다음은 Facebook과 Amazon이다.

이들은 컴퓨팅 산업의 역사에서 이전 ‘오프라인 컴퓨팅’에 가장 중요한 영향을 미친 이해당사자들과는 성격이 많이 다르다. 오프라인 컴퓨팅 시대에는 ‘기술 공급자’인 IBM이나 Microsoft, Sun microsystems, Oracle 같은 기업들이 이름을 떨쳤다.

반면 온라인 컴퓨팅 시대의 리더들은 모두 ‘기술 수요자’들이다. 이들은 자신이 직면한 문제들을 해결하는 과정을 통해 지금과 같은 ‘온라인 컴퓨팅’을 만들어냈다. ‘기술 공급자’들이 파는 기술만으로는 자신들의 사업 모델이 생존할 수 없는 상황이 될 것이 분명했기 때문이다. 이번에 살펴보려는 것은 바로 ‘컴퓨팅의 혁신’이 곧 ‘사업의 혁신’이었던 기업들이 어떻게 온라인 컴퓨팅이라는 새로운 장르를 개척했는가에 대한 이야기다.

 

데이터 처리를 위한 컴퓨팅 아키텍처의 탄생

컴퓨팅이 처음 태어났을 때, 데이터는 펀칭카드와 같은 입력매체를 통해 입력되고, 휘발성 메모리 안에 담겨져 연산되고, 그 결과가 다시 비휘발성의 출력 매체로 출력되는 방식으로 다뤄졌다.

그러던 것이 컴퓨터에 비휘발성 저장장치가 도입되어 상대적으로 큰 데이터를 응용 프로그램이 다룰 수 있게 되자 한 번의 큰 변화가 생겼다. 각각의 응용프로그램이 저마다 정의한 전용 포맷에 따라 만들어진 파일 단위로 데이터를 읽어들이고, 컴퓨팅하고, 그 결과를 기록하는 방식이 새로운 전형이 됐다.

그런 이유에서 지금도 모든 저장장치는 ‘포맷’이라는 절차를 거쳐야 비로소 ‘사용 가능한’ 저장장치가 되는데, 포맷이란 결국 ‘파일을 저장할 수 있는 준비가 됐다’는 뜻이다. ‘포맷’은 저장장치에 ‘파일 시스템’을 구성하는 일이기 때문이다. 파일 컴퓨팅이 시작된 후로 ‘저장장치’란 곧 ‘파일 저장장치’를 의미하게 되었고, 당시 데이터 컴퓨팅이란 ‘파일 컴퓨팅’이었다. 그러나 ‘파일 입출력’을 데이터 입출력 방법으로 사용하는 데이터 컴퓨팅은 엄청난 진보였지만 한계도 명백했다.

동일한 데이터를 여러 응용 프로그램에서 사용하는 것이 불편했고, 연산에 필요한 데이터만 읽어들이는 것이 아니라 파일을 한 묶음으로 읽어들인 후에 컴퓨팅을 해야하기 때문에 속도가 느릴 수 밖에 없었다.

이러한 문제에 대한 해결책으로 나타난 것이 데이터베이스 관리 시스템(DBMS)이다. 상대적으로 정적인 데이터는 파일 기반으로 처리하고, 고속 연산이라든가 복수의 응용프로그램이 동일 데이터를 사용하는 데이터 컴퓨팅을 위해서는 DBMS를 사용하는 분업 구조가 나타난 것이다.

DBMS의 사용은 기업의 생산, 판매, 회계, 재고관리 등 다양한 프로세스에서 나오는 규격화된 대량 데이터를 다루는 비용을 획기적으로 절감시켰다. 그 데이터를 모아서 기업 활동을 한 눈에 볼 수 있게 만들었을 뿐 아니라, 단계적으로 데이터 간 정합이 되어야 하는 프로세스들이 데이터 간 정합을 기다리느라 대기 상태에 놓이는 상황을 사라지게 만들었다.

이는 곧 이전보다 훨씬 큰 규모의 프로세스도 유휴 자원을 최소화하면서 연결하여 구성하는 것이 가능해졌다는 뜻이었다. 수백만 건의 기록을 아주 빠른 속도로 탐색할 수 있었고, 그렇게 탐색한 데이터에 대한 연산도 과거와는 비교할 수 없는 속도로 처리할 수 있게 됐다. 비용은 절감하고 품질은 개선하는 디지털 혁신이 모든 영역에서 진행되었다. DBMS는 거대한 서비스 기업들의 탄생을 불러온 컴퓨팅의 혁신이었고, 현대 사회의 ‘중앙화 규모’를 키운 핵심적 기술 인프라였다.

그러나 웹이 등장하자 이러한 방식의 데이터 컴퓨팅은 더이상 감당할 수 없는 요구사항에 직면했다. 바로 초저비용 대용량 데이터 컴퓨팅이다.

gettyimages

웹의 등장과 초저비용 대용량 데이터 컴퓨팅

웹 검색이 상황을 바꿔버렸다. 웹 검색엔진 중 초기 시장의 강자였던 AltaVista는 모기업인 Digital Equipment(DEC)가 당시로서는 엄청난 양의 컴퓨팅 파워를 공급했음에도 급증하는 웹 데이터의 양을 감당하기 위해 들어가는 비용 때문에 허덕였다. 물론 알타비스타가 웹 검색 시장에서 나가떨어진 보다 직접적인 이유는 알타비스타의 검색 알고리듬이 웹 스패머들과의 전투에서 밀리면서 검색 품질이 저하된 탓이다. 상대적으로 웹 스패머들의 공격에 강한 랭킹 시스템을 갖고 있던 구글과의 경쟁에서 밀려난 것이다.

하지만 급증하는 비용 문제가 아니었다면 알타비스타는 좀 더 버티며 기술혁신을 통해 경쟁을 이어갈 수 있었을 지 모른다. 알타비스타의 몰락은 한 편으로는 검색기술 경쟁에서의 패배이지만, 다른 한 편으로는 감당할 수 없는 데이터 컴퓨팅 비용으로 인한 포기였다고 볼 수 있다.

DBMS는 거대 기업의 정제된 프로세스를 담기에는 충분한 데이터 컴퓨팅을 제공했지만, 웹은 태어난지 얼마 되지 않아 DBMS 기반 컴퓨팅의 한계를 넘어서버렸다.

구글의 페이지랭크(초기의 시스템인 backrub)가 DBMS를 사용하지 않는 시스템 아키텍처를 가졌던 것은 구글에게는 큰 행운이었다. 구글이 그렇게 할 수 있었던 것은 창업 초기 멤버들이 스탠포드 대학의 전자 도서관 프로젝트의 서브 프로젝트에서 경험한 대용량 문서 처리를 위한 ‘청크(chunk)’ 파일 기반 데이터 컴퓨팅 아키텍처 덕분이었다.(Brin, S., Page, L. (1998), ‘The anatomy of a large-scale hypertextual Web search engine’, Computer Networks and ISDN Systems 30 : pp 107-117)

구글이 당시 문서 검색에서 전형적으로 사용되던 DBMS 기반 기술이 아닌 청크 기반 아키텍처를 사용할 수 있었던 이유는, 구글의 검색 기술이 전통적인 문서 검색 기술이 아니었기 때문이었다.(이 문제에 대한 상세한 내용은 ‘구글 검색엔진의 성장에 대한 ANT적 분석’(장중혁, 2016, 서울대학교) 참고)

그러나 그런 구글은 DBMS를 사용하지 않는 데이터 컴퓨팅을 통해 중요한 기술적 장점을 얻은 대신 ‘해결해야 할 문제들’도 왕창 떠안게 되었다. 그것은 바로 DBMS를 사용하지 않으면서도 DBMS를 이용하는 애플리케이션이 제공하는 데이터 컴퓨팅 기능들을 구현해야 한다는 것이었다.

구글은 그 도전을 회피하지 않고 정면 돌파를 해냈는데, 그건 추측컨데 AT&T에 있다가 나중에 구글에 합류한 ‘미스터 서치’ 아미트 싱할 덕분이었던 것으로 보인다. 어쨌건 구글은 DBMS에 의존하지 않고 DBMS가 제공하는 수준의 대용량 데이터 컴퓨팅을 할 수 있는 새로운 길을 개척한 개척자였고, 훌륭히 그 임무를 완수해냈다.

그 결과 구글은 자신의 검색 엔진을 위해 채택한 데이터 컴퓨팅 아키텍처를 ‘대용량 데이터 컴퓨팅’을 위한 새로운 모델로 공개했는데, 그것을 기초로 만들어진 새로운 대용량 데이터 컴퓨팅 프로젝트가 바로 ‘하둡(Hadoop)’이다. 하둡의 분산파일 시스템 기반의 새로운 컴퓨팅 아키텍처는 그 이후로 다양한 분산 파일시스템 기반의 컴퓨팅 플랫폼 프로젝트를 낳는 출발점이었고, 심지어 그 위에 가상머신을 띄워 지금까지 발전해 온 서버 컴퓨팅을 통째로 자기 생태계와 결합시키면서 컴퓨팅의 대세를 바꿔버렸다.

Amazon도 이 분야의 큰 기여자인데, 자신이 가진 컴퓨팅 자원을 통합, 비용을 절감하기 위해 하둡을 채용하여 사업의 전 영역에 활용하였고, 급기야 AWS(Amazon Web Service)라는 컴퓨팅 서비스를 만들어냄으로써, 서버 하드웨어 업체들의 고가용성 고성능 고가 서버 산업을 사실상 지구상에서 지워버렸다.

 

장중혁 iBloc 대표는 카이스트에서 경영과학을 전공했고, 서울대 과학철학협동과정에서 과학기술학으로 석사학위를 받았다. IT/통신분야 컨설팅 기업 애틀러스리서치앤컨설팅에서 일했고, 몇 개의 IT기업을 창업했으며 ,현재는 ㈜인포뱅크의 블록체인 사업부인 iBloc 대표로 블록체인 기반 금융서비스를 준비중이다. 장 대표는 코인데스크코리아 고정칼럼 ‘토큰토크’를 통해 컴퓨팅 역사의 관점에서 블록체인 기술의 기원을 짚어보는 글을 총 7회에 걸쳐 연재할 계획이다. 이밖에도 블록체인과 토큰이코노미에 대한 기술사회학적 고찰을 담은 글을 쓸 예정이다.

각종 제보 및 보도자료는 contact@coindeskkorea.com 으로 보내주세요.