'삼전닉스'가 1000조 투자하는 HBM, 딥시크 논문 한 편의 균열

[중국AI미래지도] 메모리 병목을 알고리즘으로 해결하다▲ 중국 양대 메모리 반도체 기업, 양쯔메모리와 창신메모리의 성장과 딥시크의 소프트웨어가 만나면 메모리 반도체 우회 전략을 완성할 수 있다.ⓒ 자료사진한국이 대규모 팹 증설을 발표할 때 중국은 조용히 킬러 논문을 발표하였습니다. 삼성전자와 SK하이닉스가 2026년 6월 기준 향후 10년간 1000조 원 규모의 반도체 투자 계획을 발표하고 '왜 호남이냐'라는 공론을 벌일 때 중국의 딥시크(DeepSeek)는 조용히 한 편의 논문을 깃허브에 공개하였습니다.한쪽은 천조 단위의 하드웨어 투자이고, 다른 한쪽은 오픈소스 논문 한 편입니다. 이는 같은 차원의 경쟁이 아니지만 바로 이 점이 핵심입니다. 중국은 한국이 천문학적 비용을 들여 쌓아 올린 하드웨어 해자를 소프트웨어로 우회하려 하고 있기 때문입니다.DSpark 논문의 핵심 요약: 메모리 병목을 알고리즘으로 해결하다DSpark는 추측 디코딩(Speculative Decoding) 프레임워크입니다. 대규모 언어 모델 추론의 병목은 GPU 연산력이 아니라 HBM 대역폭에 있습니다. GPU는 연산보다 HBM에서 데이터를 가져오는 데 더 많은 시간을 소비합니다.딥시크 팀은 논문에서 하나의 반직관적 발견을 제시하였습니다. 토큰 10개를 디코딩하는 데 드는 HBM 전송 시간은 토큰 1개를 디코딩하는 시간과 거의 차이가 나지 않습니다. 따라서 매번 토큰 1개씩만 전송하면 HBM 대역폭이 대량 낭비된다는 것이 DSpark의 출발점입니다.DSpark의 핵심은 경량 초안 모델(Draft Model)로 여러 개의 후보 토큰을 빠르게 예측한 뒤, 대형 타깃 모델(Target Model)이 이를 일괄 검증(Batch Verification)하는 방식입니다. 검증을 통과한 토큰은 그대로 수용하고, 실패한 지점에서는 재샘플링(Resampling)을 수행합니다. 이 과정은 수학적으로 출력 품질의 완전 무손실(Mathematically Lossless)을 보장합니다.DSpark는 반자기회귀(Semi-Autoregressive) 아키텍처를 채택하여 병렬 백본(Parallel Backbone)과 경량 직렬 모듈(Lightweight Serial Module)을 결합함으로써 초안 품질을 확보하였습니다. 여기에 신뢰도 스케줄링(Confidence Scheduling) 검증 메커니즘을 도입하여 시스템 부하에 따라 검증 길이를 동적으로 조정합니다.실측 데이터는 충격적입니다. DeepSeek-V4-Flash 엔진의 단일 사용자 생성 속도가 60%~85% 향상되었고, 120 tokens/s SLA(Service Level Agreement)의 고부하 환경에서는 유효 처리량(Effective Throughput)이 661% 폭증하였습니다. DeepSeek-V4-Pro 엔진의 경우 50 tokens/s 표준에서 406%의 향상이 확인되었습니다. 더욱 중요한 것은 이 스케줄링 로직이 전적으로 GPU 내부에서 실행되며 CPU 개입이 전혀 필요 없다는 점입니다.DSpark와 함께 오픈소스화된 딥스펙(DeepSpec) 은 추측 디코딩 초안 모델을 훈련하고 평가하기 위한 풀스택 코드 라이브러리입니다. 이는 이미 깃허브에서 1,400개 스타를 돌파하였으며, Qwen3 등 외부 모델을 전면 지원합니다. 딥시크는 알고리즘, 스케줄링, 하드웨어 적응을 하나로 묶은 종단간(End-to-End) 엔지니어링 완결체를 오픈소스로 내놓은 것입니다.양쯔메모리(YMTC·长江存储)와 창신메모리(CXMT·长鑫存储): 생산능력 확대와 IPO를 통한 자금 확보DSpark가 '소프트웨어 기병'이라면, 양쯔메모리와 창신메모리는 점차 완성형에 접근하는 '하드웨어 군대'입니다.양쯔메모리(YMTC) 는 2026년 5월 19일 상하이 과학기술혁신판(STAR Market, 科创板) 상장을 위한 지도 감사를 정식으로 개시하였으며, 2026 연말 혹은 내년 상반기 상장 예정입니다. 시장은 IPO 기업 가치를 약 3000억 위안(약 68조 4000억 원)으로 전망하고 있습니다. 2026년 1분기 양쯔메모리의 글로벌 낸드플래시(NAND Flash) 시장 점유율은 13%~16% 에 달하여 세계 4위 생산업체로 도약하였습니다. AI 데이터센터의 폭발적 수요에 힘입어 2026년 1분기 매출은 200억 위안(약 4조 5천억원)을 돌파하였습니다.창신메모리(CXMT) 역시 2026년 상하이 과학기술혁신판 상장을 추진 중이며, 약 295억 위안(약 6조 6000억원)을 조달할 계획입니다. 창신메모리의 DRAM(Dynamic Random Access Memory) 글로벌 시장 점유율은 2026년 1분기 7.7% 로 세계 4위에 올라섰습니다. 더욱 주목할 점은 창신메모리가 텐센트와 5년간 4.5조 원 규모의 D램 장기 공급 계약을 체결하였으며, 알리바바 클라우드, 바이트댄스, 레노버, 샤오미 등 중국 주요 테크 기업들을 고객으로 확보하였다는 사실입니다.HBM 분야에서 창신메모리는 2026년 말까지 12인치 웨이퍼 기준 월 30만~35만 장 규모의 HBM 생산능력을 확보할 계획이며, HBM3 칩의 대량 생산을 목표로 하고 있습니다. 업계는 중국과 한국의 HBM 기술 격차가 수년 전의 큰 차이에서 현재 약 3년 수준으로 좁혀진 것으로 평가합니다.셋의 만남: 대체가 아닌 소프트웨어적 우회기존 내러티브에서 중국 저장 반도체가 삼성전자와 SK하이닉스를 따라잡기 위해서는 수천억 원을 투자하여 팹을 짓고, 미세 공정을 정복하며, 장비 봉쇄를 돌파해야 합니다. 이 길은 적어도 2~3년이 걸립니다.DSpark는 완전히 다른 경로를 제시합니다. DSpark는 HBM의 용량이나 첨단 공정의 집적도와 겨루지 않습니다. 대신 소프트웨어 스케줄링을 통해 기존 하드웨어의 효율을 극한까지 끌어올립니다. 딥시크 V4라는 1.6조 개의 파라미터를 가진 초거대 모델이 100만 토큰 컨텍스트 환경에서 단 5.48GB의 HBM 메모리만으로 구동될 수 있다는 사실은 이를 단적으로 보여줍니다. 이는 동급 모델 대비 HBM 수요를 90% 이상 압축한 수치입니다.글로벌 투자은행(IB) 업계 일각에서는 딥시크의 아키텍처가 "고성능 대비 비용(Performance-per-Cost)이 우수한 D램으로 희소한 HBM 자원을 대체한다"는 분석을 내놓고 있습니다. 이는 차세대 AI의 승부처가 더 큰 GPU 클러스터를 단순히 쌓는 것이 아니라 더 스마트한 혼합 아키텍처로 희소한 HBM 자원을 효율적으로 활용하는 데 있음을 시사합니다.이는 무엇을 의미할까요 같은 HBM 한 장으로 딥시크의 소프트웨어는 3배의 일을 해낸다는 뜻입니다. HBM 생산 능력이 제한되고 가격이 폭등하는 상황에서 중국 기업들은 더 적은 하드웨어로 더 많은 일을 할 수 있게 되었다는 뜻입니다. 중국 저장 반도체 업체들이 HBM의 모든 기술 지표에서 한국을 따라잡을 필요는 없습니다. 소프트웨어 효율이 충분하다면 '충분한' 하드웨어로 '훌륭한' 성과를 낼 수 있기 때문입니다.이는 대체가 아닙니다. 이는 소프트웨어에 의한 하드웨어 해자의 우회입니다.글로벌 시장 점유율 확대: D램, 낸드플래시, HBM의 전방위 추격2026년 1분기 D램 계약 가격은 분기 대비 93%~98% 폭등하였으며, 2분기에는 58~63% 추가 상승이 예상됩니다. HBM3E 가격 역시 2026년 1분기 15%~20% 인상되었습니다. 이 슈퍼사이클에서 중국 업체들은 위치 선점을 가속화하고 있습니다.카운터포인트(Counterpoint) 데이터에 따르면 2026년 1분기 삼성전자의 D램 점유율은 38%로 여전히 1위를 지키고 있습니다. 그러나 창신메모리의 7.7% 점유율은 이미 무시할 수 없는 수준이며 그 성장 속도는 매우 가파릅니다. 낸드 시장에서 양쯔메모리의 성장은 더욱 폭발적입니다. 점유율이 2025년 1분기 8%에서 2026년 1분기 13%로 급증하며 마이크론 및 샌디스크와 동등한 수준에 도달하였습니다.DSpark의 효과는 이 추세를 더욱 가속화할 것입니다. 추론 비용이 DSpark로 인해 급감하면 토큰 소비량과 KV 캐시는 기하급수적으로 증가합니다. 고가의 HBM으로는 이처럼 방대한 캐시 데이터를 모두 담을 수 없기에 데이터를 기업용 솔리드 스테이트 드라이브(En
원문 보기 ↗