데이터의 진화

Mark Porter

과거에는 매우 단순했습니다. 그 때는 기업 데이터라는 분야가 현재 규모의 일부에 지나지 않았습니다. 지금과 같은 규모가 된 것은 얼마 되지 않은 일입니다. 우리는 대부분의 데이터를 정해진 작은 열과 행에 집어 넣습니다. 예전에는 몇몇 트랜잭션 처리, 몇 가지 차트와 그래프, 약간의 비즈니스 인텔리전스로도 아무런 문제가 되지 않았습니다.

물론 다소 과장한 감이 없지 않아 있습니다. 데이터 처리의 한계를 뛰어 넘기 시작한 것은 1964년입니다. 그 해에 세계 최초의 항공사 승객 시스템인 SABRE가 2개의 IBM 메인프레임을 토대로 1,500개의 터미널에서 출범하면서 1초당 평균 1건의 트랜잭션을 처리할 수 있게 되었습니다. 그러나 오늘날 데이터는 초창기 데이터와 완전히 달라졌다고 해도 과언이 아닙니다. 첫째, 크기가 59 제타바이트에 달할 정도로 커졌습니다. 둘째, 데이터에 대한 정의가 완전히 바뀌었습니다. 급여 기록 및 주가를 뛰어 넘어 웹 로그, 위험 평점, 맵, 지문 등 다양한 유형의 데이터가 포함되었습니다.

하지만 아마도 가장 큰 변화는 기업에서 데이터가 맡고 있는 역할일 것입니다. 데이터는 항상 비즈니스 전략을 알리는 데 사용되어 왔습니다. 하지만 오늘날에는 데이터가 곧 비즈니스 전략인 경우가 종종 있습니다. 이렇게 생각해보십시오. 20년 전만 해도 CDO(Chief Data Officer)라는 직책 자체가 없었습니다. 오늘날은 어떻습니까? 포춘지 선정 1000대 기업의 2/3 정도가 CDO를 두고 있습니다.

그 이유는 무엇일까요? 그 어느 때보다 데이터에 대해 요구하는 것이 많아졌기 때문입니다. 당연한 얘기입니다. 디지털 경제에서는 모든 기업이 인사이트 기반의 혁신을 토대로 경쟁합니다. 이러한 혁신 덕분에 점차 더 영리해진 알고리즘을 중심으로 소프트웨어가 개발되고 있습니다. 이러한 알고리즘을 개발하고 실행하는 원 재료가 되는 것이 바로 데이터입니다. 데이터를 효율적이고 효과적이며 신속하게 관리할 수 있는 능력이 모든 산업 분야, 모든 기업의 전략 과제가 되었습니다.

지난 20년 동안 데이터의 양과 다양성, 전략적 중요성에 있어 급격한 변화가 있었지만 많은 기업들이 데이터 관리 방법을 바꾸지 않았습니다. 물론, 기존의 관계형 데이터베이스는 유연성이 부족하고 확장이 불편하기 때문에 오늘날 애플리케이션 개발 요구를 처리하기에는 적합하지 않습니다. 그럼에도 불구하고 계속 사용되고 있습니다. 이러한 문제를 해결하려는 노력의 일환으로 2000년대 말 "NoSQL" 운동이 전개되었습니다. 그리고 MongoDB가 최초로 문서 지향 데이터베이스를 발명하게 되었습니다.

그러나 제가 말씀드리고 있는 것은 더 광범위한 것입니다. 즉, 데이터 활용 방법에 대한 새로운 시각을 요구하는 더 장기적인 추세에 관한 것입니다. 다양한 데이터 세트의 기본적인 요구사항이 그냥 변화하는 것이 아니라 수렴되고 있다고 고객들은 말합니다. 이는 놀라운 변화입니다. 지난 50년 동안 줄곧 사일로화되고 전문화된 도구라는 추세가 뒤집히고 있습니다.

한 발 물러서 생각해봅시다. 수십 년 동안 기업들은 레코드 시스템과 인게이지먼트 시스템을 유지해왔습니다. 레코드 시스템은 기본적이고 미션 크리티컬한 진실 공급원으로, 내부 프로그램과 사용자가 주로 액세스합니다. 인게이지먼트 시스템은 고객과 직원이 상호 작용할 때 사용하는 디지털 인터페이스입니다. 최근에는 다양한 소스에서 나온 데이터를 통합하여 전사적 차원에서 의사 결정에 필요한 정보를 제공하는 인사이트 시스템이 추가되었습니다. 오랜 세월 각 시스템은 상주하는 컴퓨터가 서로 달랐고, 데이터 관리 요구사항도 서로 달랐으며, 자금을 대는 부서도 서로 달랐습니다.

하지만 이러한 추세가 변화하고 있습니다. 엄격하게 분리되었던 백 오피스와 프론트 오피스 간의 경계가 허물어지면서 모든 데이터 시스템이 하나가 되어 비즈니스를 수행하는 시대가 되었습니다. 신속하면서도 정확해야 하고, 접근이 쉬우면서도 안전해야 합니다. 또한 트랜잭션과 분석을 모두 처리할 수 있어야 합니다.

특히, 모델 훈련 및 추론이 새롭게 떠오르면서 다양한 유형의 분석이 등장하고 있습니다. 사람이 질문을 하고 모델을 구현할 프로그램을 작성하는 것이 아니라, 프로그램이 시스템에 인사이트 관련 질문을 하고 실시간으로 이에 대응하는 방식으로 바뀌고 있습니다. 이는 그야말로 근본적인 변화입니다. 마치 SABRE의 기반이 IBM 7090에서 SKYNET으로 바뀌는 것과 같습니다.

이러한 데이터 요구사항의 “수렴"은 도전 과제이자 기회입니다. 문서 데이터베이스 덕분에 데이터의 액세스 및 저장 방법을 재고할 수 있었던 것처럼, 이러한 수렴 현상 덕분에 데이터를 전사적으로 관리하는 데 사용하는 시스템을 다시 한 번 재고해야 하는 상황이 되었습니다. Snowflake부터 Databricks, MongoDB에 이르는 업계의 모든 기업들과 모든 클라우드 제공업체들은 정보에 입각한 실시간 의사 결정을 뒷받침하는 마이크로서비스 기반의 네트워크 또는 프로그램을 사용해 데이터로부터 더 많은 가치를 창출할 수 있는 시스템을 제공하기 위해 노력하고 있습니다.

재미있는 것은 혁신을 추구하는 소프트웨어 중심의 클라우드 기반 기업이 되기 위해 대부분 기업들이 획기적인 디지털 전환 프로젝트를 진행하고 있는 시점에 이러한 추세가 등장했다는 사실입니다. 다시 말해 모두가 이미 발 빠르게 움직이고 있습니다만, 지금이야말로 데이터베이스를 재고해 보기에 가장 적합한 때입니다. 데이터를 복사하거나 이러한 복사 작업을 눈에 보이지 않게 수행하지 않고 모든 관련 데이터 세트를 토대로 데이터를 실시간으로 처리, 저장, 보호 및 분석할 수 있는 실질적인 "데이터 플랫폼"을 설계할 수 있는 절호의 기회입니다.

저는 앞으로 몇 달에 걸쳐 이러한 데이터 플랫폼이 어떻게 설계되어 있고, 어떻게 최신 애플리케이션 개발을 지원하는지에 대해 자세히 알려드릴 계획입니다. 또한 오늘날 기업들이 할 수 있는 것과 할 수 없는 것을 살펴보고 현실의 문제를 해결하기 위해 어떤 제품들이 개발될 것인지 예측해 보면서 안개가 낀 듯 막연하기만 한 미래를 여러분과 함께 더듬어 가볼 생각입니다.

하지만 지금은 데이터베이스라는 기업 자산에서 어떤 일이 벌어지고 있는지 들어보고 싶습니다. 여러분도 이와 비슷한 데이터 요구사항의 수렴을 경험하고 계십니까? 그렇다면 디지털 전환 전략에 이러한 트렌드를 반영하고 계십니까? 아니라면 전사적 차원에서 데이터를 사용하는 방법에 있어 어떤 변화가 나타나고 있습니까? 제게 연락하고 싶으신 분들은 이 블로그나 Twitter(@MarkLovesTech)를 이용해 주시기 바랍니다.

읽어주셔서 감사합니다. 다시 만날 때까지 데이터가 여러분의 편이 되어주기를 바랍니다. Mark