“AI의 진짜 경쟁력은 데이터”… 유니콘 키운 스노클 AI의 철학[최중...
스노클 AI 공동창업자 겸 최고경영자(CEO) 알렉스 래트너 인터뷰스노클 AI 공동창업자 겸 최고경영자(CEO) 알렉스 래트러. 스노클AI 제공생성형 인공지능(AI) 시대의 주인공은 늘 거대한 모델처럼 보인다. 오픈AI, 구글, 앤스로픽, 메타 등 글로벌 빅테크는 더 큰 모델, 더 많은 그래픽처리장치(GPU), 더 방대한 데이터를 앞세워 성능 경쟁을 벌인다. 새로운 모델이 공개될 때마다 시장의 관심은 “이전보다 얼마나 더 똑똑해졌는가”에 쏠린다.하지만 기업 현장의 질문은 다르다. 모델이 아무리 뛰어나도 은행의 내부 규정, 보험사의 심사 기준, 제약사의 임상 문서, 제조사의 품질 기준, 정부 기관의 보안 절차를 이해하지 못하면 실제 업무에 투입하기 어렵다. 특히 금융·의료·공공·국방처럼 오류의 비용이 큰 분야에서는 ‘그럴듯한 답변’이 아니라 ‘검증 가능한 정확한 답변’이 필요하다. 그러나 실리콘밸리의 한 창업자는 정반대의 명제를 내세운다. “모델은 점점 범용화되고, 실제 승부는 데이터에서 갈린다”는 것이다. 미국 실리콘밸리 스타트업 ‘스노클 AI(Snorkel AI)’의 공동창업자 겸 최고경영자(CEO) 알렉스 래트너의 이야기다.스노클 AI는 2019년 미국 스탠퍼드대 AI 연구소에서 분사해 설립됐다. 스탠퍼드대 컴퓨터공학 박사 출신인 래트너는 박사과정 중 시작한 오픈소스 프로젝트를 바탕으로 회사를 창업했다. 스노클 AI는 전문가의 지식과 규칙을 활용해 AI 학습·평가 데이터를 구축하는 플랫폼 ‘스노클 플로우(Snorkel Flow)’를 개발했으며, 미국 상위 10대 은행 중 7곳과 다수의 포천 500 기업, 연방정부기관, 주요 거대언어모델(LLM) 기업 등과 협력해왔다고 밝혔다. 인터뷰 내내 그가 강조한 메시지는 단순했다. AI를 학습시키고 평가하며 신뢰할 수 있게 만드는 가장 중요한 연료는 결국 데이터라는 것이다.데이터, AI의 가장 중요하지만 가장 간과된 재료대중의 AI 논의는 대부분 모델을 중심으로 돌아간다. 그러나 모델은 데이터의 하류(下流)에 있다. AI 모델이 무엇을 알고, 어떻게 추론하며, 어디서 실패하고, 얼마나 신뢰할 수 있는지를 결정하는 것은 결국 데이터다. 스노클 AI는 바로 이 ‘데이터’ 자체와, 데이터를 만들어 내는 도구를 만드는 회사다. 의료 진단의 판단 기준, 금융 계약서의 해석 규칙처럼 기업과 전문가가 축적한 지식을 AI가 학습하고 평가할 수 있는 데이터로 바꿔주는 것이 이 회사의 핵심 사업이다.스노클 AI는 AI 개발의 핵심 병목이 모델이 아니라 데이터를 만들고 평가하며 개선하는 데 있다고 봤다. 이 회사는 오늘날 AI 업계에서 널리 쓰이는 ‘데이터 중심 AI(Data-Centric AI)’ 개념을 가장 먼저 체계화한 기업 중 하나로 꼽힌다.래트너는 AI 산업의 투자가 향하는 곳을 세 개의 축으로 설명한다. 컴퓨트(반도체·인프라), 인재, 그리고 데이터다. 앞의 두 분야에는 천문학적 자금이 몰렸지만, 데이터는 중요성에 비해 상대적으로 주목받지 못했다. 스노클의 베팅은 분명하다. 모델 구조가 점차 범용화되고 상향 평준화될수록, 진정한 경쟁력은 데이터에서 나온다는 것이다. 이 같은 판단의 배경에는 현실적인 문제가 있다. 강력한 범용 대형언어모델(LLM)이 등장했지만 기업들은 이를 ‘있는 그대로’ 규제 산업이나 전문 업무에 곧바로 투입할 수 없다. 시장조사기관 가트너는 2026년까지 확장 가능한 AI 데이터 체계를 구축하지 못한 조직의 AI 프로젝트 60% 이상이 폐기될 것으로 전망했다. 스노클은 이러한 간극을 메우기 위해 데이터 개발 플랫폼 ‘스노클 플로우’, 모델과 AI 에이전트를 정밀하게 평가하는 ‘스노클 이밸류에이트(Snorkel Evaluate)’, 전문가 데이터셋을 맞춤 제작해 공급하는 ‘전문가 데이터 서비스(Expert Data-as-a-Service)’ 등을 제공하고 있다.최근 스노클의 전략은 한 단계 더 확장됐다. 단순한 데이터 라벨링 자동화를 넘어 에이전트형 AI를 실제 기업 환경에 배포하기 위한 전문 데이터, 평가 환경, 벤치마크 구축으로 영역을 넓히고 있다. 동시에 래트너는 기업용 AI 경쟁의 다음 단계가 단순히 모델을 활용하는 것이 아니라, 특정 업무에 맞게 AI를 평가하고 튜닝하는 역량에 달려 있다고 강조한다. 스노클이 스스로를 ‘프런티어 데이터 랩(Frontier Data Lab)’이라 부르는 이유다. 시장의 평가도 뒤따랐다. 스노클은 2025년 5월 1억 달러 규모의 시리즈 D 투자를 유치하며 13억 달러(한화 약 1조8000억 원)의 기업가치를 인정받았다. 누적 투자 유치액은 약 2억3700만 달러에 이른다.물리학도에서 ‘데이터 중심 AI’의 개척자로공동창업자 겸 최고경영자(CEO)인 알렉스 래트너는 하버드대에서 물리학을 전공한 뒤 컨설팅 업계를 거쳤고, AI 스타트업 ‘시프트페이지(SiftPage)’를 창업했다. 이후 스탠퍼드대 박사과정에 진학해 크리스 레(Christopher Ré) 교수의 지도를 받았다. 학계와 산업 현장을 모두 경험한 것이다. 그가 박사과정에서 이룬 핵심 성과는 데이터 구축 방식의 새로운 패러다임을 정립한 것이다. 사람이 데이터마다 일일이 정답을 붙이는 대신 전문가의 지식을 규칙으로 표현해 대규모 데이터에 자동으로 라벨을 부여하는 ‘약한 지도 학습(Weak Supervision)’과 ‘프로그래매틱 라벨링(Programmatic Labeling)’ 개념을 정립한 것. 2016년 발표한 논문 ‘데이터 프로그래밍(Data Programming)’이 그 출발점이었다. 스노클 공동창업진의 데이터 증강 연구 역시 훗날 구글의 ‘오토오그먼트(AutoAugment)’ 등 후속 기술 개발에 영향을 미쳤다.래트너는 인터뷰에서 자신을 포함한 연구진이 AI 주요 학회에 발표한 관련 논문이 200편이 넘는다고 설명했다. 그는 현재 워싱턴대 폴 G. 앨런 컴퓨터과학·공학부의 겸임 조교수로도 활동하며 데이터 중심 AI를 연구하고 있다. 그의 연구 주제는 일관된다. 데이터 관리와 통계학습 기법을 AI 학습 데이터 개발 및 큐레이션에 적용하는 것이다. 전문가가 라벨링한 대규모 데이터를 구하기 어렵거나 현실적으로 만들수 없는 의료(유전체학·임상 진단)와 자율주행 분야에서 AI를 어떻게 학습시킬 것인가에 집중해 왔다.스노클의 창업진의 독특한 점은 모두 스탠퍼드 AI 연구소의 스노클 프로젝트를 함께 키운 연구자·엔지니어 출신이라는 것이다. 공동창업자인 크리스 레 교수는 스탠퍼드 컴퓨터과학 교수이자 머신러닝 시스템을 기반으로 네 개의 회사를 공동창업한 인물이다. 현재 스노클에서 상근 운영 역할은 맡지 않는다. 헨리 에런버그(Henry Ehrenberg), 파로마 바르마(Paroma Varma), 브레이든 행콕(Braden Hancock) 등 다른 공동창업자들도 역시 같은 연구실에서 스노클 프로젝트를 함께 키운 동료들이다.필자는 올해 4월 래트너 CEO를 화상으로 만나 데이터 중심 AI의 철학과 스노클의 전략, 그리고 한국 시장에 대한 생각을 들었다. 다음은 일문일답.스탠퍼드 ‘오후 프로젝트’에서 시작된 데이터 혁명스노클 AI는 범용 모델이 놓치는 특수 도메인, 벤치마크 사각지대, 정답 정의가 어려운 업무를 겨냥해 전문 데이터와 평가 환경을 구축한다. 출처 스노클 AI―스탠퍼드 AI 연구실에서 시작한 스노클 프로젝트가 유니콘 기업으로 성장했다. 처음 이 문제를 발견한 계기와, 이것이 사업이 될 수 있다고 확신한 순간은 언제였나.“학계의 목표는 어떤 기술의 최전선을 탐험하는 것이다. 우리도 여러 프로젝트를 했지만, 그중에서도 데이터 개발(data development)이라는 영역에 강하게 끌렸다. 이 분야는 매우 중요하지만 동시에 지나치게 덜 연구돼 있었고, 현장에서는 큰 고통이 있는 영역이었다.AI 개발에서 가장 중요한 입력값은 데이터다. 그런데 정작 데이터를 어떻게 개발하고 관리하며 개선할지에 대한 시스템과 이론, 형식화된 방법론은 거의 없었다. 머신러닝이라고 불리던 시절부터 모델을 만드는 방법은 많이 연구됐지만, 모델을 작동하게 만드는 가장 중요한 재료인 데이터 개발은 일종의 ‘상류 공정’으로 취급됐다. AI 연구자들이 직접 다룰 일은 아니라고 여겨진 것이다.우리는 이 공백을 봤다
원문 보기 ↗