[소버린AI 허와실②] 'NPU'로 소버린?… 증명된 칩 역량·글로벌 ...
![[소버린AI 허와실②] 'NPU'로 소버린?… 증명된 칩 역량·글로벌 ...](https://imgnews.pstatic.net/image/138/2026/06/18/0002231246_001_20260618060013109.png?type=w800)
미국 정부가 자국 AI 기업 앤트로픽의 ‘미토스5’와 ‘페이블5’ 모델의 외국인 접근을 막는 조치를 내리면서 ‘소버린AI’가 다시금 화두로 떠오르고 있다. ‘외부 변수로부터 자유로운 국가 차원 AI 운영 권한이 필요하다’는 주장이 설득력을 얻고 있다. 다만 아직까지도 ‘소버린’에 대한 정의조차 불분명하다. 이는 AI가 하드웨어부터 소프트웨어에 이르기까지 다양한 산업이 총집합한 거대한 생태계 산업이기 때문이다. <디지털데일리>는 소버린AI에 대한 실체와 동향을 전하고 전문가들과 업계 관계자들의 입을 통해 현실적인 AI 주권 확립 방향을 조명해본다.<편집자>[사진=제미나이 나노바나나2 생성 이미지][디지털데일리 구아현 기자] 국산 NPU(신경망처리장치)로 칩 주권을 확보하겠다는 정부 구상이 현실의 벽에 부딪히고 있다. 성능 검증, 소프트웨어 생태계, 조달 가능성이라는 세 가지 장벽을 넘어서야 글로벌로 나아갈 수 있다는 진단이다.한국은 그래픽처리장치(GPU) 핵심 부품인 HBM(고대역폭메모리) 시장에서 세계 1위를 달리고 있다. 하지만 데이터센터용 GPU는 한 장도 만들지 못하고 있다. HBM이라는 핵심 부품은 세계 최고 수준으로 만들면서 정작 그 부품이 들어가는 완제품 칩은 전량 수입하는 구조다. 과학기술정보통신부가 독자 AI 모델 개발을 위해 엔비디아 GPU 5만 개를 확보한 것이 그 현실을 단적으로 보여준다.소버린AI 정책으로 'NPU'가 주목받고 있다. 다만 칩 부문에서 소버린AI의 범위가 애매하다. 국산 NPU를 아무리 개발해도 파운드리는 TSMC, 설계 툴은 미국산, 패키징도 해외 의존도가 높은 구조에서 칩 주권의 범위를 어디까지 볼 것인지가 물음으로 남는다. 2024년 기준 글로벌 반도체 시장에서 한국의 메모리 점유율은 60%대를 넘지만 시스템 반도체 점유율은 2%, 팹리스 점유율은 약 1%에 불과하다.◆ GPU와 NPU, 무엇이 다른가… 엔비디아가 장악한 시장소버린AI 칩 논의를 이해하려면 먼저 GPU와 NPU의 차이부터 살펴봐야 한다. AI 모델에서 칩이 필요한 단계는 크게 두 가지다. 방대한 데이터를 반복 계산해 모델을 만드는 '학습(Training)'과 만들어진 모델을 실제 서비스에 활용하는 '추론(Inference)'이다. 두 단계 모두 고성능 반도체가 필요하지만 요구 특성이 다르다.GPU는 원래 게임 그래픽 처리용으로 개발됐다. 수천 개의 코어로 방대한 연산을 동시에 처리하는 구조가 AI 딥러닝 연산과 맞아떨어지면서 학습과 추론 모두에 쓰이는 범용 칩으로 자리 잡았다. GPT 같은 대형언어모델(LLM)을 학습시키려면 수백억~수천억 개의 파라미터를 반복 계산해야 하는데 이 대규모 병렬 연산에서 GPU가 독보적 강점을 발휘한다.NPU(신경망처리장치)는 학습된 모델을 실제 서비스에 활용하는 추론 과정에 특화된 칩이다. 전력 효율이 높고 추론 비용을 낮출 수 있어 AI 서비스가 확산될수록 수요가 커질 전망이다. 다만 GPU처럼 학습과 추론을 모두 처리하는 범용성은 없다. 소버린AI 논의에서 국산 NPU가 필요하다는 주장이 나오는 배경도 이 맥락이다. 학습은 엔비디아 GPU 없이 현실적으로 불가능하지만, 추론 영역에서만큼은 국산 NPU로 대체 가능성을 열어볼 수 있다는 것이다.이 시장을 사실상 독점하고 있는 것이 엔비디아다. AI 칩 시장 점유율만 따지면 80% 이상이다. 그 중심에는 '블랙웰(Blackwell)' 아키텍처가 있다. 엔비디아 B200은 단일 GPU에서 20페타플롭스의 AI 성능을 제공하며, 이전 세대 H100 대비 최대 15배의 추론 성능 향상을 이뤄냈다. 여기서 한 발 더 나아간 것이 블랙웰 울트라 B300이다. B300은 B200 대비 성능이 50% 높아지며 HBM 용량도 192GB에서 288GB로 확대됐다. B300 72개를 하나의 랙에 연결한 GB300 NVL72는 단일 노드에서 1.1 엑사플롭스라는 엑사스케일 성능을 달성한다. 대형 AI 모델 하나를 학습시키는 데 이런 GPU 수천 장이 필요하다.AI 모델 성능을 결정하는 건 칩이다. 같은 AI 모델이라도 어떤 칩으로 구동하느냐에 따라 응답 속도와 처리 용량, 운영 비용이 달라진다. 챗GPT, 제미나이, 클로드 등 범용 AI에 질문을 던졌을 때 답변이 빠르게 나오는 것도, 동시에 수백만 명이 접속해도 서비스가 끊기지 않는 것도 결국 칩 성능에 달려 있다. AI 서비스 기업들이 엔비디아 GPU 확보에 사활을 거는 이유다.◆ "성능과 레퍼런스 확보해야"현재 국산 NPU가 넘어야 할 첫 번째 산은 성능 검증이다. 성능이 나쁜 것이 아니라 성능을 믿을 수 있는 레퍼런스가 절대적으로 부족하다는 것이 문제다. 기업들이 AI 서비스를 운영할 때 가장 중요하게 보는 것은 특정 워크로드에서 얼마나 안정적으로 원하는 성능을 낼 수 있느냐다. 엔비디아 GPU는 수년간 대규모 서비스 환경에서 검증된 데이터가 쌓여 있지만, 국산 NPU는 그 레퍼런스가 부족하다. 과기정통부가 K-퍼프(K-Perf)라는 국산 NPU 성능 평가 기준을 발표하고 12개 주요 기업과 3개 유관기관이 참여한 협의체를 구성한 것도 이 신뢰 공백을 메우기 위해서다. 평가 기준을 만드는 것과 실제 현장에서 채택되는 것은 별개의 문제다.한국벤처투자는 직전에 리벨리온 기업가치 3조원 달성 기념식을 공동 개최하며 국산 AI 반도체 생태계 육성 성과를 강조했다. 하지만 정작 자체 AI 인프라 구축 조달 공고에서는 엔비디아 H200 탑재 서버 도입을 명시했다. 공공기관들이 새로운 NPU 도입에 따른 위험보다 이미 검증된 엔비디아 GPU의 안정성과 소프트웨어 호환성을 중시하는 현실이 그대로 반영된 것이다.성능이 만족스러워도 조달이 문제다. 칩이 존재하더라도 대규모로 즉시 구할 수 없다면 기업 입장에서 선택지가 되지 않는다. 현재 국내 AI 반도체 스타트업 양대산맥인 리벨리온과 퓨리오사AI는 각각 차세대 칩을 개발 중이지만 시장에서 대규모로 즉시 조달 가능한 상태는 아니다.리벨리온은 차세대 칩 '리벨쿼드(REBEL-Quad)'를 개발 중이다. 삼성전자 4나노 공정 기반으로 엔비디아 블랙웰 수준의 성능을 목표로 하며, 144GB 용량과 4.8TB/s 대역폭의 HBM3E 메모리를 탑재해 대규모 LLM 서비스 환경을 겨냥하고 있다. 칩렛 기반의 'REBEL-IO', 'REBEL-CPU' 등 후속 제품도 예정돼 있지만 리벨쿼드는 아직 출시 전이다. 퓨리오사AI는 2세대 칩 'RNGD(레니게이드)' 올해 2만 장 양산을 목표로 하고 있다. 지난 1월 1차 양산 물량 4000장을 인도받으며 양산을 시작했지만, 다양한 AI 모델 아키텍처를 지원하기 위한 소프트웨어 작업이 아직 진행 중이다. 3세대 칩은 2028년을 목표로 개발 중이다.업계 관계자는 "NPU 자체가 현장에서 쓰일 정도로 물량 보급이 안 돼 있다"며 "국산 NPU가 상용화되려면 국내에 많이 보급돼야 한다"고 말했다.AI 소프트웨어·서버 기업 코난테크놀로지는 리벨리온, 퓨리오사AI 두 곳의 NPU를 모두 테스트했다. 리벨리온 NPU를 탑재한 '코난 AI 스테이션 서버'를 출시해 실제 납품도 진행 중이다. 국산 NPU와 국산 LLM의 결합을 실제로 구현한 몇 안 되는 사례다. 코난테크놀로지 관계자는 "국산 NPU 위에서 국산 LLM이 자연스럽게 구동되는 환경을 구현함으로써 기술적 주도권을 확보할 수 있는 가능성을 확인했다"며 "실제 도메인별 국산 NPU 도입 사례가 선제적으로 확보·확대돼야 외산과 비교하는 고객들의 검토, 도입도 늘어날 것"이라고 말했다.GPU 물량 문제를 넘어서도 쿠다 소프트웨어 생태계 벽도 넘어야 한다. 엔비디아가 이 시장을 장악할 수 있었던 핵심 무기는 칩 성능만이 아니다. 이미지 생성, 자동차, 가상현실 등 각 기술 구현에 필요한 SW를 미리 묶어 제공하는 CUDA 생태계로 고객을 묶어뒀다. 한번 CUDA 기반으로 개발 환경을 구축한 기업은 국산 NPU로 전환하려면 기존 코드와 파이프라인을 처음부터 다시 짜야 한다. 단순히 칩을 교체하는 문제가 아니라 개발자 생태계 전체를 흔드는 일이다.단순 추론 서빙은 벤더가 제공하는 소프트웨어개발키트(SDK)로 처리할 수 있어 전환 부담이 크지 않다. 문제는 대규모 운영 단계다. 칩 모니터링, 배치
원문 보기 ↗