AI 제로데이 자동 발견·Groq 3 LPU·TurboQuant | 기술·AI

기술·AI — 2026년 4월 22일

달의 뉴스레터

AI가 제 손으로 자신의 보안 구멍을 찾기 시작했다. 그 손을 누가 쥐고 있는가 — 그것이 오늘의 질문이다.

AI가 모든 운영체제에서 제로데이를 찾아냈다 — Anthropic의 선택

2026년 4월 20일, Anthropic이 조용하고 무거운 발표를 했다. 새 모델 “Claude Mythos Preview”가 주요 운영체제와 웹 브라우저 전반에서 수천 개의 고위험 취약점을 자동으로 발견했다는 것이다. 이 취약점들은 이전에 아무도 몰랐던 “제로데이” — 패치가 존재하지 않는 보안 구멍들이다. Anthropic은 이 모델을 일반에 공개하지 않기로 했다. 대신 “Project Glasswing”을 통해 AWS, Apple, Google, JPMorgan Chase, Microsoft, Nvidia 등 수십 개 기관에만 선별 제공한다. Mozilla는 이미 이 모델을 통해 Firefox 150에서 271개 취약점을 패치했다고 밝혔다. OpenAI는 4월 14일 “GPT-5.4-Cyber”로 맞불을 놨다 — 단, 훨씬 더 많은 방어자에게 열어주겠다는 정반대 전략으로.

왜 지금인가. Mythos 발표가 4월 20일 나온 것은 우연이 아니다. Anthropic은 이달 초 Claude Opus 4.7(4월 16일)을 GPQA 94.2%, SWE-bench 87.6%로 조용히 출시한 뒤, 닷새 뒤 사이버보안 특화 능력을 전략적으로 공개했다. 같은 시기 OpenAI의 GPT-5.5 “Spud” 출시가 임박(4월 말~5월 초 예상)한 상황에서, Anthropic은 모델 성능 경쟁이 아닌 “책임감 있는 선점”이라는 프레임으로 먼저 치고 나온 것이다. 기술이 아닌 서사(narrative)를 선점하는 경쟁이다.

실제로 무슨 말인가. 표면적으로는 “AI로 더 안전한 인터넷을 만들겠다”는 이야기다. 실제로는 두 가지가 동시에 일어나고 있다. 첫째, AI가 인간 전문가보다 빠르고 광범위하게 취약점을 찾는 수준에 도달했다는 것 — 이는 사이버 방어의 패러다임을 바꾼다. 둘째, 이 능력을 누가 통제하느냐가 곧 인터넷 인프라 전체에 대한 권력이라는 것. Anthropic은 40개 기관에게 선별 제공하며 그 권력을 중앙 집중식으로 관리하기로 했다. 반면 OpenAI는 “분산 방어”를 명분으로 수천 명의 보안 전문가에게 동시에 열었다. 두 전략의 차이는 기술이 아니라 철학이다.

달의 의심. Anthropic이 선택한 40개 기관 목록이 흥미롭다 — AWS, Apple, Google, Microsoft, Nvidia. 이들은 동시에 Anthropic의 최대 투자자이자 클라우드 파트너다. “책임감 있는 제한 공개”가 실제로는 “전략적 파트너 우선 공개”일 수 있다. 만약 Mythos가 진짜로 모든 OS에서 제로데이를 자동으로 찾는다면, 이 모델이 방어가 아닌 공격에 쓰일 경우 어떻게 막을 것인가 — Anthropic의 대답은 아직 “신뢰”다. 국가 행위자가 같은 수준의 모델을 이미 개발 중이라는 점도 간과할 수 없다.

어디로 가는가. 사이버보안 AI의 주도권 경쟁은 이제 모델 성능이 아니라 “누가 방어자 네트워크를 더 빠르게 구축하느냐”로 이동할 가능성이 높다. Anthropic의 폐쇄형 전략이 책임감을 담보하지만 속도가 느리고, OpenAI의 개방형 전략이 빠르지만 남용 위험이 크다. 내가 틀린다면: 실제로 이 모델들이 공격자가 아닌 방어자에게만 유용하고, 두 전략 모두 인터넷 전반의 보안 수준을 실질적으로 높인다면 — 이 경쟁은 기우가 된다. 하지만 역사적으로 방어보다 공격이 먼저 이익을 본 것이 사이버보안의 패턴이었다.

출처: Foreign Policy | 2026-04-20 | Orange Cyberdefense | 2026-04-15

엔비디아가 추론 전쟁을 열었다 — 삼성이 이겼고, TSMC가 빼앗으러 온다

AI 칩의 전선이 다시 이동했다. GPU(그래픽처리장치) 시대에는 학습이 전장이었다. 이제는 추론(inference) — AI 모델이 실시간으로 답을 생성하는 단계 — 이 새로운 핵심이다. 엔비디아는 GTC 2026에서 Groq 3 LPU(언어처리장치)를 발표하며 이 추론 전쟁을 공식화했다. 이 칩은 삼성전자 4나노 공정에서 생산된다 — 엔비디아가 TSMC 외 파운드리에 서버 칩을 맡긴 첫 사례다. 젠슨 황은 발표장에서 삼성을 직접 언급하며 “기대를 초과한 생산”에 감사를 표했다. 한편 TSMC는 4월 16일 실적 발표에서 이례적으로 LPU 차세대 개발에 “적극 참여해 관련 비즈니스를 확보하겠다”고 공식 선언했다. 삼성의 현재 주문이 불안해졌다는 신호다.

왜 지금인가. TSMC가 실적 발표 콜에서 경쟁사의 고객 물량을 직접 겨냥한 것은 매우 이례적이다. 이유가 있다. Groq 3 LPU가 삼성 4나노에서 생산되는 것은 엔비디아 인수 전 계약의 연장선이다 — 즉, 엔비디아의 선택이 아니었다. 이제 엔비디아가 설계 방향을 쥔 차세대 LPU는 다른 파운드리로 갈 수 있다. TSMC는 그 창문이 열린 지금을 놓치지 않겠다는 것이다. 또한 TSMC의 2·3나노 연간 5~10% 가격 인상이 4월 21일 보도로 공식화되면서, 고객들은 처음으로 “다른 선택지”를 진지하게 고민하기 시작했다. 이 두 흐름이 동시에 터진 것이 이번 주다.

실제로 무슨 말인가. 겉으로는 파운드리 수주 경쟁이다. 실제로는 AI 추론 시대의 기술 인프라 패권을 둘러싼 지각 변동이다. 엔비디아 Groq 3 LPU의 성능 수치가 이를 말해준다: 풀 LPX 랙에서 150TB/s의 대역폭, 기존 Blackwell NVL72 대비 35배 높은 추론 처리량(와트당). 이 성능이 삼성 파운드리에서 나온다면 — 삼성 파운드리는 단순한 위탁 생산자가 아니라 AI 인프라 공급망의 핵심으로 격상된다. 반대로 차세대 물량이 TSMC로 넘어간다면, 삼성의 이 기회는 ‘일회성 수주’로 그친다. 더 자세한 실적·사업 의미는 기업·산업 섹션을 참조하세요.

달의 의심. 젠슨 황의 삼성 감사 발언이 진심인지 혹은 TSMC에 대한 협상 카드인지 구분하기 어렵다. 엔비디아는 공급망 레버리지를 극대화하기 위해 경쟁을 유지하는 것이 전략적으로 유리하다 — 삼성을 완전히 버리지 않으면서도 TSMC를 옵션으로 유지하는 것. 그렇다면 삼성의 “파운드리 반전”은 구조적 전환이 아니라 협상 도구로서의 지위일 수 있다. 수율 안정화와 차세대 공정(2나노 GAA) 기술 격차가 해소되지 않는 한, 이 불안감은 계속된다.

어디로 가는가. 추론 칩 전쟁에서 중요한 것은 GPU가 아니라 “메모리 대역폭”과 “전력 효율”이다. Groq LPU가 SRAM 기반으로 이 두 문제를 동시에 해결했다면, 다음 세대 AI 인프라는 GPU+LPU 이중 구조로 표준화될 가능성이 높다. 한국에는 이 구조에서 삼성(파운드리+HBM4)과 SK하이닉스(HBM4) 모두 핵심 자리가 있다 — 그러나 그 자리는 기술력으로 지켜야 하는 것이지 자동으로 주어지는 것이 아니다.

출처: Tom’s Hardware | 2026-03-17 | DigiTimes | 2026-04-16 | 글로벌이코노믹 | 2026-04-21

Google이 AI의 워킹 메모리를 6배 압축했다 — 추론 비용 방정식이 달라진다

AI 모델이 긴 대화를 유지하거나 복잡한 문서를 처리할 때, 모델은 이전에 읽은 정보를 임시로 저장한다. 이것을 “KV 캐시(Key-Value Cache)”라고 한다. 문제는 이 캐시가 어마어마한 메모리를 잡아먹는다는 것이다 — 긴 맥락(128K 토큰 이상)을 처리할 때 KV 캐시만으로 40GB 이상이 필요하다. 젠슨 황이 GTC 2026에서 “KV 캐시가 AI 추론의 최대 병목”이라 지목할 정도였다. 3월 24일 Google Research가 이 문제의 해법을 공개했다: TurboQuant. KV 캐시를 3비트로 압축하면서도 모델 정확도를 거의 손상시키지 않는 알고리즘이다. 핵심 수치: 메모리 6배 압축, H100 GPU에서 주의(attention) 연산 8배 가속. ICLR 2026 학술 발표(4월 25일 포스터 세션)를 앞두고 이미 오픈소스 구현이 12개 이상 나왔고, vLLM 통합 PR도 제출됐다.

왜 지금인가. TurboQuant 자체는 3월 24일 발표됐다. 그런데 왜 4월 22일 이 뉴스레터에서 다루는가. 두 가지 이유다. 첫째, 이 주가 ICLR 2026 컨퍼런스 주간(4월 22~26일, 싱가포르)이다 — 수십 개의 KV 캐시 압축 방법이 경쟁적으로 발표되고, TurboQuant가 벤치마크 기준이 될 순간이다. 둘째, Claude Mythos, Groq 3 LPU, GPT-5.5 Spud가 동시에 등장하는 이 시점에 “추론 비용”이 급격히 CFO들의 의제가 되고 있다 — 에이전트 플릿 10K 동시 세션이 현실이 되면서 메모리 효율이 채산성을 결정하는 변수가 됐다. TurboQuant는 그 비용 방정식을 바꾸는 도구다.

실제로 무슨 말인가. 표면적으로는 학술 알고리즘 발표다. 실제로는 AI 인프라 비용 구조의 변화 신호다. 40GB KV 캐시가 6.7GB로 줄어든다는 것은 GPU 한 장으로 처리할 수 있는 동시 요청 수가 6배 늘어난다는 뜻이다. 클라우드 AI 서비스 기업들의 관점에서는 같은 하드웨어로 6배의 수익을 낼 수 있는 알고리즘이다. 오픈소스로 풀린 만큼, 이 혜택은 Google만이 아니라 경쟁사 전체에게도 돌아간다 — 이것이 Google이 이 알고리즘을 오픈소스로 공개한 이유이기도 하다(표준을 선점하면 생태계를 주도한다).

달의 의심. 논문은 “3비트에서 정확도 손상 없음”이라고 주장하지만, 실제 구현 커뮤니티는 다르게 얘기한다. 독립 테스트 8건 이상에서 3비트는 8B 이하 소형 모델에서 품질 저하가 발견됐고, “4비트가 현실적 스위트 스폿”이라는 합의가 형성 중이다 — 이 경우 6배가 아닌 4~5배 압축이 실제 수치다. 또한 TurboQuant와 GPU 가중치 양자화(AWQ, GPTQ)는 서로 다른 메모리 풀을 다루는 보완적 기술이라 중복 적용 시 이점이 배가되지만, 복잡도도 배가된다. 실제 엔터프라이즈 배포에서의 안정성은 아직 미지수다.

어디로 가는가. AI 모델 성능 향상이 정체(Intelligence Index 57.18 천장)에 가까워지는 동안, 경쟁의 축이 “얼마나 똑똑한가”에서 “얼마나 싸게 배포하는가”로 이동하고 있다. TurboQuant는 그 방향의 선두에 있다. ICLR 2026에서 더 강력한 압축 방법들이 나올 수 있다. 그렇다면 추론 비용이 더 빠르게 하락하고, AI 서비스의 채산점이 낮아지며, AI 에이전트 대중화 속도가 빨라진다. 내가 틀린다면: 실제 배포 환경에서 압축 손실이 예상보다 크거나 구현 복잡도가 확산을 막는다면, TurboQuant는 학술 성과로만 남을 수 있다.

출처: Google Research Blog | 2026-03-24 | TechCrunch | 2026-03-25

달의 결론

오늘 기술·AI 세계의 세 흐름은 하나의 축으로 수렴한다: AI의 힘이 모델 성능에서 인프라 통제로 이동하고 있다. Claude Mythos는 AI가 스스로 보안 구멍을 찾는 수준에 도달했음을 보여줬고, Anthropic은 그 능력을 특정 기관에만 쥐어줬다. 엔비디아 Groq 3 LPU는 추론 칩이 새로운 전장임을 확인했고, 삼성과 TSMC는 다음 계약을 둘러싼 물밑 경쟁에 돌입했다. Google TurboQuant는 추론 비용 방정식을 바꿀 알고리즘을 오픈소스로 내놓으며 생태계 표준 선점에 나섰다.

이 세 흐름의 교차점에서 달이 무게를 두는 방향은 하나다: AI 인프라의 권력 집중이 가속되고 있다. 누가 모델을 만드는가보다, 누가 추론 인프라를 통제하고 취약점 정보를 쥐고 있으며 메모리 표준을 설계하는가가 더 중요해지는 시대가 열리고 있다.

내가 틀린다면: AI 오픈소스 운동(TurboQuant 구현들, 중국 모델들, 소형 언어 모델들)이 이 집중화를 상쇄할 만큼 빠르게 성숙한다면 — 그리고 EU AI Act(8월 2일 시행)와 각국 규제가 실질적 분산화를 강제한다면, 오늘 내가 본 집중화 시나리오는 과도한 우려일 수 있다.

이 뉴스레터는 특정 금융상품의 매수·매도를 권유하지 않습니다. 모든 투자 판단과 그에 따른 결과는 전적으로 독자 본인에게 있습니다.

달의 뉴스레터 | 기술·AI

이 흐름을 매일 같이 따라오고 싶으시면, 텔레그램에서 먼저 만날 수 있어요. → 달루나 채널

달 드림 · dal.lunar.moon@gmail.com