AI 인프라 혁명 TurboQuant HBM4 EmTech | 기술·AI

기술·AI — 2026년 4월 21일

달의 뉴스레터

AI는 지금 두 개의 전선에서 동시에 진화하고 있다 — 모델은 더 강해지고, 인프라는 더 싸진다. 그리고 그 틈에서 메모리를 누가 쥐느냐가 판도를 가른다.

구글이 만든 “Pied Piper” — AI 메모리를 6배 줄이는 TurboQuant

3월 25일, 구글 리서치가 TurboQuant를 공개했다. KV 캐시(Key-Value cache) — LLM이 대화를 이어가기 위해 이전 내용을 저장하는 메모리 — 를 6배 압축하는 알고리즘이다. NVIDIA H100 GPU에서 실측했을 때, 같은 하드웨어로 처리할 수 있는 사용자 수가 2명에서 11명으로 늘어난다. 서버 비용이 5분의 1 이하로 떨어진다는 뜻이다.

기술적으로는 두 단계로 작동한다. 먼저 PolarQuant가 데이터를 극좌표계로 회전시켜 압축하기 쉬운 구조로 바꾸고, 이어 QJL(Quantized Johnson-Lindenstrauss)이 나머지 오차를 수학적으로 교정한다. 결과물은 3비트 압축인데, 16비트 원본과 품질 차이를 거의 감지할 수 없다. 이 기술은 ICLR 2026에 논문으로 채택됐고, 4월 25일 리우데자네이루에서 공식 발표된다.

왜 지금인가. 3월 25일 발표 이후 약 4주가 지났는데, 왜 오늘 이 뉴스레터에서 다루는가. 이유는 오늘(4월 21일) MIT EmTech AI 2026 콘퍼런스가 개막하기 때문이다. AI 업계의 방향 설정이 이루어지는 이 무대에서, TurboQuant가 대표하는 “효율화 AI” 패러다임이 올해 가장 중요한 화두로 부상하고 있다. 모델 성능의 한계(Intelligence Index 57.18 고원)가 명확해진 지금, 다음 경쟁은 “더 싸게, 더 많이”다. TurboQuant는 그 경쟁의 첫 포문이다.

실제로 무슨 말인가. 표면적으로는 메모리 압축 기술 논문이다. 그런데 실제 의미는 다르다. AI 추론 비용의 지형이 바뀐다. 지금까지 AI 서비스 규모를 결정하는 변수는 GPU 개수였다. TurboQuant가 도입되면, 같은 GPU로 더 긴 컨텍스트를 더 많은 사람에게 제공할 수 있다. 한 문장으로: GPU 공급이 제약 변수에서 밀려나기 시작한다. 이건 NVIDIA에게 양날의 칼이다 — AI 수요는 늘어나지만, 수요 당 GPU 소모량이 줄어들 수 있다.

달의 의심. “훈련 불필요, 데이터 독립적” 알고리즘이라는 주장이 너무 완벽하다. 현실 배포에서 어떤 모델 아키텍처와 토큰 길이 조합에서 성능 저하가 나타나는지 아직 충분한 검증이 없다. 또한 구글이 이 기술을 논문으로 먼저 공개한 배경을 생각해야 한다 — 구글의 TPU 생태계와 Gemini 시리즈에 먼저 통합되면, 다른 클라우드 플레이어 대비 추론 비용 우위를 선점하는 구조가 된다. 오픈 논문이지만, 이익은 구글에게 먼저 돌아간다.

어디로 가는가. TurboQuant가 실제 운영 환경에 통합되기까지는 2~3분기가 더 필요하다 (Q2 2026 공식 구현체 예정). 그러나 방향은 이미 정해졌다: AI 인프라 경쟁의 다음 전선은 모델 크기가 아니라 추론 효율이다. 내가 틀린다면 — 실제 배포에서 긴 컨텍스트(128K+) 구간에서 예상치 못한 품질 저하가 발생하거나, NVIDIA가 Blackwell 세대에서 하드웨어 레벨 KV 캐시 압축을 통합해버릴 때다.

출처: TechCrunch | 2026-03-25 / Google Research Blog | 2026-03-25

오늘 MIT가 말하는 “AI에서 지금 중요한 10가지”

오늘(4월 21일), MIT 캠퍼스에서 EmTech AI 2026 콘퍼런스가 개막했다. 400명의 최고 경영진·연구자가 모인 이 자리에서 MIT Technology Review가 새로운 연간 리스트를 처음으로 공개했다: “10 Things That Matter in AI Right Now”. 매년 발표하던 “10 Breakthrough Technologies”에서 AI 후보가 너무 많아 별도 리스트를 만들었다. AI가 기술 목록 하나를 통째로 장악했다는 선언이다.

리스트의 구체적 항목들은 콘퍼런스 현장에서 처음 공개되고 있다. 그러나 MIT의 AI 리포팅 팀이 올해 가장 주목하는 것들 — 에이전틱 AI 인프라(MCP 9,700만 설치), 추론 효율화(TurboQuant류 기술), AI 에이전트 자기검증, 오픈소스 vs. 클로즈드 모델 분화 — 이 기준이 될 것임은 이미 시사됐다. 벤치마크 정체(Intelligence Index 고원)가 확인된 지금, “더 나은 모델”이 아닌 “더 쓸 수 있는 AI”가 업계의 새 화두임을 MIT가 공식 확인하는 날이다.

왜 지금인가. 오늘 실시간으로 발표되고 있다. AI 업계의 방향 설정 이벤트가 오늘이라는 것 자체가 뉴스다. EmTech AI는 기술 언론과 업계 리더가 “무엇이 진짜 중요한가”를 합의하는 자리다. Microsoft, OpenAI, Snowflake, ServiceNow, Walmart가 무대에 올라 AI 통합의 실상을 발표하는 이 자리는, AI 투자의 다음 방향을 읽을 수 있는 나침반이다.

실제로 무슨 말인가. 별도 AI 리스트가 탄생했다는 것은 AI가 “기술의 일부”에서 “기술 그 자체”로 격상됐다는 선언이다. 2023~2024년에 AI는 Breakthrough Technologies 목록 안의 항목이었다. 2026년에 AI는 목록을 독차지해 별도 카테고리를 만들었다. 동시에 이 리스트가 모델 성능보다 적용·효율·거버넌스에 무게를 둔다면, 업계가 “AI 무엇을 만드느냐”에서 “AI를 어떻게 운영하느냐”로 이동했다는 신호다. 더 자세한 산업 영향은 경제·금융 섹션을 참고하시기 바랍니다.

달의 의심. MIT의 리스트가 영향력 있는 자기실현적 예언이 될 수 있다. 리스트에 들어간 기술에 VC와 대기업 투자가 몰리고, 그 투자가 리스트의 예측을 현실로 만드는 피드백 루프. 이는 리스트의 정확성만큼이나 리스트의 권위 자체가 산업 방향을 왜곡할 수 있다는 뜻이다. 또한 미국 중심 AI 생태계(OpenAI, Microsoft, Google)의 관점이 어디까지 한국·중국·유럽의 현실을 반영하는지 의문이다.

어디로 가는가. 오늘 공개된 리스트는 향후 6~12개월 AI 투자의 지도가 된다. 에이전틱 AI, 추론 효율화, AI 거버넌스가 키워드로 부상할 가능성이 높다. 내가 틀린다면 — 리스트가 예상과 달리 새로운 모델 성능 도약(Claude Mythos, Grok 5 같은 차세대 모델)에 집중한다면, 효율화보다 규모 경쟁이 다시 불붙는 시나리오다.

출처: MIT Technology Review | 2026-04-14 / PR Newswire | 2026-04-21

삼성 HBM4 양산 확정, 엔비디아 Vera Rubin의 메모리를 누가 쥐나

삼성전자가 세계 최초로 HBM4(6세대 고대역폭 메모리) 양산에 돌입했다. 목적지는 NVIDIA의 차세대 AI 가속기 Vera Rubin. 삼성은 2월부터 첫 출하를 시작했으며, GTC 2026에서 젠슨 황 CEO가 삼성 부스의 HBM4 쇼케이스에 직접 서명했다. 공급 배분은 SK하이닉스 약 70%, 삼성 약 30%로 알려졌다. Vera Rubin에는 HBM4 스택이 16개, 총 576GB 메모리가 탑재된다.

삼성의 HBM4는 핀당 11.7Gbps(최대 13Gbps)를 지원하고, GTC 2026에서 공개한 HBM4E는 16Gbps에 4.0TB/s 대역폭을 구현한다. 그리고 삼성은 경쟁사인 SK하이닉스·마이크론이 TSMC의 4nm 로직 다이를 쓰는 것과 달리, 자사 파운드리로 로직 다이를 생산하는 수직 통합 전략을 택했다. 공급망 자체를 내재화한 것이다.

왜 지금인가. HBM3E 시대에 삼성은 품질 인증 실패로 NVIDIA 공급망에서 사실상 배제됐었다. HBM4는 그 수모의 역전이다. 30% 점유율이 작아 보여도, 이것은 공급망 복귀의 교두보다. 동시에 Vera Rubin 하반기 본격 양산 시점이 다가오면서, HBM4 공급 지형이 확정되는 국면이다. 한국 반도체의 AI 수혜 구조가 구체화되는 시점이다. (기업·산업 섹션의 삼성·TSMC 실적 이슈와 달리, 여기서는 공급망 인프라와 기술 주도권의 각도로 바라본다.)

실제로 무슨 말인가. HBM 시장의 단순한 공급자 교체가 아니다. 삼성이 자사 파운드리로 로직 다이를 생산하는 전략은 TSMC 의존도를 줄이는 시도다. AI 인프라의 핵심 부품을 독자 공급망으로 생산한다는 것은, 향후 NVIDIA가 관세·지정학 리스크에 노출될 때 삼성이 대안 공급자로서 가치가 높아진다는 뜻이다. 반면 SK하이닉스의 70% 점유율은 HBM3E 독주의 연장이지만, 용인 클러스터가 2027년에야 가동되기 때문에 공급 병목은 지속된다.

달의 의심. 삼성의 30% 점유율이 “복귀”인지, “실패 이후의 소량 위탁”인지를 구분해야 한다. NVIDIA가 HBM4 리스크를 분산하기 위해 삼성에 최소한의 물량을 배정했을 가능성도 있다. 또한 SK하이닉스의 HBM4 양산 지연이 삼성의 반사이익으로 이어진 측면이 있는데, SK하이닉스가 생산 속도를 끌어올리면 이 구조는 다시 바뀔 수 있다. 수직 통합 전략도 자사 파운드리의 수율이 안정화됐을 때만 강점이 된다.

어디로 가는가. Vera Rubin 하반기 양산 본격화 → 삼성·SK하이닉스 HBM4 공급 경쟁 → HBM4E 세대로 이동하면서 삼성의 16Gbps 기술이 차별화 요소가 될 수 있다. 달이 무게를 두는 방향은: HBM4E 스펙 경쟁에서 삼성이 기술적 우위를 입증하면, 차기 Vera Rubin Ultra 혹은 Feynman 플랫폼에서 점유율이 역전될 가능성이 있다. 내가 틀린다면 — 삼성 파운드리 수율이 예상을 밑돌거나, SK하이닉스가 용인 클러스터 가동 전에 증설로 공급 병목을 해소한다면, 삼성의 교두보 전략은 시간 안에 실적으로 이어지지 않는다.

출처: KED Global | 2026-03-08 / Sammy Fans | 2026-03-16 / TrendForce | 2026-03-09

달의 결론

오늘 기술·AI 세계를 관통하는 흐름은 하나다: AI의 중심이 “얼마나 강한가”에서 “얼마나 싸게, 오래, 많이”로 이동하고 있다. 구글 TurboQuant는 추론 비용의 재편을 예고하고, MIT가 오늘 공개하는 AI 리스트는 그 방향을 업계의 공식 의제로 올린다. 그리고 삼성 HBM4는 그 AI 인프라의 물리적 기반 — 메모리 — 을 한국이 쥐고 있다는 사실을 재확인한다.

세 뉴스를 연결하면 하나의 지형도가 보인다: AI 모델 성능의 고원(Intelligence Index 정체) → 인프라 효율화 경쟁 가속 → 메모리와 에너지를 가진 플레이어의 지속적 우위. “에너지와 AI는 시간축에서 순차적으로 지배한다”(신호 120)는 기존 인식에 이제 “메모리 효율화가 그 사이 빈 공간을 채운다”는 새로운 레이어가 추가됐다.

내가 틀린다면: ① Claude Mythos, Grok 5 같은 차세대 모델이 Q2에 실제로 출시돼 Intelligence Index 고원을 돌파하면 — 모델 성능 경쟁이 재점화되고 효율화는 후순위로 밀린다. ② 삼성 HBM4 수율 문제가 반복되면 — 한국 메모리 독점 구조에 균열이 생기고 Micron이 어부지리를 얻는다. ③ 트럼프 행정부의 반도체 수출 규제가 한국에도 확대 적용되면 — 삼성·SK하이닉스의 NVIDIA 공급 계약 자체가 흔들린다.

이 뉴스레터는 특정 금융상품의 매수·매도를 권유하지 않습니다. 모든 투자 판단과 그에 따른 결과는 전적으로 독자 본인에게 있습니다.

달의 뉴스레터 | 기술·AI

이 흐름을 매일 같이 따라오고 싶으시면, 텔레그램에서 먼저 만날 수 있어요. → 달루나 채널

달 드림 · dal.lunar.moon@gmail.com