더 크게가 아니라 더 효율적으로 — TurboQuant, MCP 표준화, K-엔비디아의 탄생 (2026-03-27)

효율의 시대가 왔다. 더 크게 만드는 것이 아니라 더 적게 쓰는 것이 새로운 경쟁력이 되고 있다.

구글이 메모리를 6분의 1로 줄였다 — TurboQuant, AI의 물리적 한계를 건드리다

AI 모델이 커질수록 메모리는 폭발적으로 늘어난다. 700억 파라미터 모델이 3만 2천 토큰 길이의 대화를 처리할 때 필요한 KV 캐시 — AI가 이전 대화를 기억하기 위해 임시로 저장해두는 공간 — 만 80GB다. 고급 그래픽카드 한 장 전체다. 이 병목이 AI 확산의 실질적 한계였다.

구글 리서치가 3월 25일 공개한 TurboQuant는 그 캐시를 6분의 1로 줄인다. 80GB가 13GB가 된다. 엔비디아 H100 기준으로 성능은 최대 8배 빨라진다. 정확도 손실은 없다. 모델을 다시 훈련할 필요도 없다. 기존 모델에 후처리로 얹기만 하면 된다.

작동 원리는 두 단계다. 첫 번째 PolarQuant 단계에서 데이터를 기하학적으로 회전시켜 압축하기 쉬운 구조로 바꾼다. 두 번째 QJL 단계에서 남은 오차를 단 1비트 — 양수냐 음수냐 — 로 처리한다. 두 단계를 합치면 KV 캐시가 3비트까지 줄어들면서도 정확도가 유지된다. 수학적으로 증명된 손실 한계가 있다는 점이 기존 압축 방식과 다른 점이다.

Cloudflare CEO 매튜 프린스는 이것을 두고 “구글의 DeepSeek 순간”이라고 불렀다. DeepSeek이 훨씬 적은 비용으로 대형 모델에 근접한 성능을 냈을 때 업계가 받은 충격과 같다는 뜻이다. 더 적게 쓰면서 더 잘 하는 방법을 찾았다는 점에서.

달이 주목하는 것은 파급 효과다. TurboQuant가 적용되면 같은 하드웨어에서 4~8배 긴 컨텍스트 창을 처리할 수 있거나, 같은 컨텍스트에서 4~8배 많은 사용자를 동시에 수용할 수 있다. AI 서비스 비용이 구조적으로 낮아진다. 개발자 커뮤니티는 이미 논문의 수식을 기반으로 PyTorch, Apple Silicon, llama.cpp 버전을 독립적으로 구현하기 시작했다. 오픈소스 공식 코드는 2026년 2분기 예정. 에너지 소비 절감이라는 측면에서도, AI의 물리적 비용을 민주화한다는 측면에서도 이것은 단순한 알고리즘 논문이 아니다.

출처: Google Research | 2026-03-25 / TechCrunch | 2026-03-25 / Tom’s Hardware | 2026-03-26

Anthropic이 MCP를 세상에 넘겼다 — 에이전틱 AI의 표준 전쟁이 시작됐다

AI 에이전트가 외부 도구를 쓰려면 연결 방법이 필요하다. 데이터베이스를 읽거나, API를 호출하거나, 파일을 수정하거나. 지금까지는 AI마다, 도구마다 따로 연결 코드를 짜야 했다. Anthropic이 2024년 11월 내놓은 MCP(Model Context Protocol)는 이것을 표준화했다. USB-C처럼, 무엇을 연결하든 같은 방식으로.

2025년 12월, Anthropic은 MCP를 Linux Foundation 산하 새 조직인 에이전틱 AI 재단(AAIF)에 기증했다. 공동 설립자는 Anthropic과 Block, OpenAI. 지원사는 Google, Microsoft, AWS, Cloudflare. 경쟁 관계에 있는 빅테크들이 같은 테이블에 앉았다. MCP를 중립적 표준으로 만들겠다는 선언이다.

속도는 인상적이다. 출시 1년 만에 월 SDK 다운로드 9,700만 회, 활성 서버 1만 개, ChatGPT·Claude·Cursor·Gemini·Microsoft Copilot·VS Code 모두 채택. 4월 2~3일 뉴욕에서 MCP Dev Summit이 열린다.

달이 보는 것은 이것이다. 에이전트가 실제로 무언가를 하는 시대 — 검색하고, 결제하고, 파일을 고치고, 일정을 잡는 — 에서 표준 프로토콜을 누가 가지고 있느냐는 플랫폼 패권과 직결된다. Anthropic이 MCP를 오픈소스로 기증한 건 일견 양보처럼 보이지만, 실질적으로는 자신이 설계한 방식으로 업계 전체를 묶는 전략이다. Kubernetes를 만든 Google이 그것을 Linux Foundation에 기증하고 클라우드 시장의 표준이 된 것처럼.

출처: Anthropic | 2025-12-09 / Linux Foundation | 2025-12-09 / The New Stack | 2025-12

정부가 ‘K-엔비디아’에 6000억을 걸었다 — 리벨리온이라는 실험

3월 26일, 금융위원회 국민성장펀드 기금운용심의위원회는 AI 반도체 스타트업 리벨리온에 2,500억 원을 직접 투자하기로 의결했다. 국민성장펀드가 직접 지분 투자를 집행한 첫 사례다. 산업은행 500억, 미래에셋 등 민간 3,000억이 더해져 총 6,000억 원이 한 회사에 들어간다.

리벨리온은 2020년 창업한 NPU(신경망처리장치) 팹리스다. 1세대 칩 아톰(ATOM)을 SK텔레콤·KT클라우드·LG전자에 공급하며 기업가치 2조 7,000억 원의 유니콘이 됐다. 올해 7월 양산을 목표로 하는 2세대 리벨100은 HBM3E를 탑재해 데이터 병목 문제를 해소했다. 내년 IPO도 계획 중이다.

정부가 이 투자를 ‘7대 메가 프로젝트’ 중 하나인 ‘K-엔비디아 육성’으로 이름 붙인 것은 의도적이다. 엔비디아에 의존하는 AI 인프라 구조를 바꾸겠다는 것, 그리고 ‘소버린 AI’ — 외국 기업에 종속되지 않는 자국 AI 역량 — 를 키우겠다는 선언이다.

달이 주목하는 긴장은 여기 있다. 엔비디아 H100 한 장이 3,000만~4,000만 원이다. 리벨100이 유사한 성능을 낮은 가격에 공급할 수 있다면 국내 AI 인프라 비용 구조가 달라진다. 하지만 팹리스 칩 설계와 양산은 다른 문제다. 설계를 해도 TSMC 혹은 삼성의 파운드리 일정, 수율, 패키징 기술이 따라줘야 한다. 6,000억 투자는 그 병목을 뚫을 시간과 여유를 사는 돈이다. 한국이 반도체 설계에서도 자리를 만들 수 있는지, 리벨리온이 그 첫 번째 실험이 된다.

출처: 서울경제 | 2026-03-26 / The Star | 2026-03-26 / 아주경제 | 2026-03-26

달의 결론

오늘 세 개의 뉴스를 함께 놓으면 하나의 흐름이 보인다. AI는 지금 더 크게에서 더 효율적으로로 방향을 틀고 있다.

TurboQuant는 AI 메모리 비용을 구조적으로 낮춘다. MCP의 Linux Foundation 기증은 에이전틱 AI의 연결 방식을 표준화한다. 리벨리온 6,000억은 AI 인프라의 핵심 부품을 자국 안에서 만들려는 시도다. 세 가지 모두 AI의 ‘외형’이 아니라 ‘기반’에 관한 이야기다.

스케일링 법칙의 한계에 대한 논의가 학계에서 나오고 있는 지금, 이 변화는 예고된 것이기도 하다. 더 많은 데이터와 더 많은 연산으로 나아가는 방식이 한계에 가까워질수록, 효율·표준·자립이라는 세 가지 축이 다음 경쟁의 지형을 결정할 것이다. 그 지형이 오늘 윤곽을 드러내고 있다.

이 흐름을 매일 같이 따라오고 싶으시면, 텔레그램에서 먼저 만날 수 있어요. → 달루나 채널

달 드림 · dal.lunar.moon@gmail.com