[달의 뉴스레터] 기술·AI — 측정 기준을 가진 자가 AI 시장을 가진다 (2026-04-04)

Gemma 4·MAI·AN Score — 세 발표 모두 자기 손으로 측정 기준을 설계했다. 2026년 4월 AI 뉴스를 읽는 규칙: 누가 측정 기준을 설계했는지 먼저 보라.

측정 기준을 가진 자가 AI 시장을 가진다.

2026년 4월 첫 주말 아침, AI 업계는 세 가지 숫자를 내놨다. 구글의 Gemma 4는 Arena 리더보드 3위를, 마이크로소프트의 MAI-Transcribe-1은 FLEURS 벤치마크 1위를, Rhumb의 AN Score는 Anthropic 8.4점·OpenAI 6.3점을 발표했다. 세 숫자 모두 자기 손으로 만든 기준으로 자기가 이겼다고 말한다. 이게 이번 주 기술 뉴스의 진짜 풍경이다.


구글이 오픈소스를 집어삼키는 방법

4월 2일, 구글이 Gemma 4를 공개했다. 2B, 4B, 26B, 31B — 네 가지 크기의 모델이며, 모두 Apache 2.0 라이선스로 무료 배포된다. 이전 Gemma 전용 라이선스에는 상업적 제약이 있었는데, 그게 사라진 것이다.

숫자부터 정리하자. 31B 모델은 수학 추론 시험 AIME 2026에서 89.2%를 기록했다. 같은 시험에서 이전 세대 Gemma 3 27B는 20.8%였다. 4배가 넘는 도약이다. Arena AI의 인간 선호도 기반 리더보드에서 오픈소스 3위에 올랐다. E2B 모델은 2비트로 압축하면 1.5GB — 스마트폰에 들어가는 크기다. 라즈베리파이에서 초당 3,700토큰을 처리한다.

인상적인 수치다. 그런데 한 가지를 조용히 지나쳐선 안 된다. 경쟁 테이블 위에 Meta Llama 4의 10M 토큰 컨텍스트가 있고, Qwen 3.6-Plus의 1M 토큰이 있다. Gemma 4의 최대는 256K다. 에이전트가 긴 코드베이스를 읽고 장문의 대화를 기억하면서 작업할 때, 컨텍스트 창의 크기는 단순한 스펙이 아니라 병목이 된다. “벤치마크 1위”와 “에이전트 실제 작업 1위”는 다른 이야기다.

그리고 Apache 2.0의 의미를 오해하지 말 것. 이건 순수한 증여가 아니다. 개발자가 Gemma 4로 제품을 만들면, 배포는 Google Cloud나 Vertex AI에서 가장 자연스럽게 이루어진다. 지난 4월 3일 달루나 기술 뉴스레터에서 다룬 MCP Dev Summit도 이 맥락이다 — 표준을 장악하는 자가 생태계를 장악한다. Gemma 4는 그 공식의 오픈소스 버전이다. 모델은 공짜지만, 깔때기의 끝은 구글이다.

그래도 실용적 의미는 있다. 2026년 말 안드로이드 기기에 Gemini Nano 4로 탑재될 예정이다. 그때부터 AI 어시스턴트는 서버가 아닌 손 안의 칩에서 돌아간다. 지금의 Gemma 4는 씨앗이고, 진짜 수확은 그때다.

출처: Google Blog | 2026-04-02 / Engadget | 2026-04-03


마이크로소프트가 오픈AI에게 보내는 편지

같은 날 마이크로소프트도 발표를 했다. MAI-Transcribe-1(음성인식), MAI-Voice-1(음성생성), MAI-Image-2(이미지생성) — 세 가지 자체 개발 모델이다. 이름 앞에 붙은 ‘MAI’는 Microsoft AI Superintelligence 팀의 약자다. Mustafa Suleyman이 이끄는 팀으로, 2025년 11월에 출범했다.

MAI-Transcribe-1은 25개 언어에서 평균 오류율 3.8%를 기록했다고 한다. 100단어 중 약 4단어를 틀리는 수준이다. FLEURS 벤치마크에서 OpenAI의 Whisper-large-v3를 이겼다고 주장한다. GPU 비용은 “leading alternatives 대비 50% 절감”이라고 한다.

여기서 회의론자의 목소리를 빌릴 필요가 있다. FLEURS는 Google Research가 만든 기준이다. 비교 대상 중 하나가 OpenAI의 GPT-Transcribe인데, 마이크로소프트가 자기 기존 제품과 비교해서 이겼다. “leading alternatives” 역시 구체적으로 특정되지 않았고, 독립 검증이 없다. The Decoder는 오픈소스 동등 경쟁자들의 존재를 지적했다. WPP의 “진정한 게임체인저”라는 발언은 — WPP가 마이크로소프트 광고 생태계의 최대 수혜자 중 하나라는 점을 감안해야 한다.

그럼에도 이 발표의 진짜 의미를 놓치면 안 된다. 마이크로소프트는 OpenAI에 $135억을 투자했고, 2032년까지 계약이 있다. 그런데 지금 정확히 OpenAI의 Whisper·TTS·DALL-E와 겹치는 영역의 자체 모델을 내놨다. 비유하자면 건물주가 세입자의 가게와 똑같은 가게를 1층에 차린 것이다. 이건 기술 독립이 아니라 협상력 확보다. “우리도 만들 수 있다”는 증거를 쌓고 있는 것이고, 2032년 계약 이후의 협상 테이블에서 쓸 카드다.

마이크로소프트 주가가 1분기에 25% 빠졌다는 맥락도 함께 봐야 한다. Copilot 일간 활성 유저 600만, ChatGPT 4억 4천만. 이 격차는 모델 문제가 아니라 UX와 브랜드의 문제다. MAI 3종이 아무리 좋아져도, 진입점인 Copilot의 일상 사용성이 바뀌지 않으면 숫자는 그대로다.

출처: TechCrunch | 2026-04-02 / The Register | 2026-04-02


벤치마크를 누가 설계했는지 물어라

세 번째 뉴스는 좀 다른 성격이다. Rhumb라는 독립 분석 기관이 AI 에이전트 API를 평가한 AN Score를 발표했다. Anthropic 8.4점, Google 7.9점, OpenAI 6.3점. 에이전트 API로서의 안정성과 사용성을 측정한 수치다.

먼저 이 수치가 무엇을 재는지 이해해야 한다. AN Score는 IQ 테스트가 아니다. 모델이 얼마나 똑똑한지가 아니라 — 이 API를 내 시스템에 연결해서 믿고 맡길 수 있는가를 잰다. OpenAI가 6.3점으로 낮은 이유가 모델이 멍청해서가 아니다. 신규 사용자에게 낮은 레이트 리밋을 부여하고 지출에 따라 올려주는 온보딩 구조, 실패했을 때 왜 실패했는지 알기 어려운 에러 메시지 — 이런 것들이 에이전트 개발자에게 마찰을 만들고 점수를 깎는다. Anthropic이 높은 건 Claude 3 시절부터 “도구 호출 신뢰성”에 집착해온 설계 철학의 결과다.

그러나 이 수치를 곧이곧대로 믿기 전에 회의론자의 관찰을 들어야 한다. Anthropic 점수의 신뢰도는 64%, OpenAI는 98%다. 높은 점수에 낮은 신뢰도는 측정 조건에 따라 결과가 크게 달라진다는 뜻이다. AN Score가 스타트업 개발자 관점에서 설계됐다면, Fortune 500 IT 구매팀의 기준과는 다를 수 있다. Ramp Velocity Index 역시 스타트업·테크 기업 기반 데이터라 전통 산업 대기업의 AI 지출 현실을 온전히 담지 못한다.

그럼에도 이 뉴스가 중요한 이유는 수치 때문이 아니다. 질문 자체다. “에이전트로서 얼마나 신뢰할 수 있는가”라는 새로운 평가 기준이 시장에 등장했다는 것. 기존 벤치마크가 “이 모델이 얼마나 똑똑한가”를 쟀다면, AN Score는 “이 모델을 자동화 파이프라인에 연결했을 때 믿고 잘 수 있는가”를 묻는다. 모델이 점점 범용재(commodity)가 되는 세상에서, 에이전트 신뢰성이 마지막 차별점이 될 수 있다.

기업 AI 지출 데이터도 함께 봐야 한다. Ramp 지수에 따르면 기업 AI 지출에서 Anthropic 비중은 40%, OpenAI는 27%다. 1년 전만 해도 OpenAI가 50%였다. 이 역전은 AN Score가 포착하는 이야기의 시장 버전이다.

출처: DEV Community (AN Score) | 2026-04-04 / Axios | 2026-03-11


달의 결론

세 뉴스를 관통하는 하나의 패턴이 있다. 구글의 Gemma 4, 마이크로소프트의 FLEURS 1위, Rhumb의 AN Score — 셋 모두 측정 기준을 자기 손으로 설계했다. 2026년 4월 AI 뉴스를 읽는 첫 번째 규칙은 이것이다. 누가 측정 기준을 설계했는가를 먼저 보라.

그렇다고 이 뉴스들이 의미 없는 건 아니다. 각각의 방향성은 읽을 만하다. Gemma 4의 온디바이스 E2B/E4B 라인은 AI 비용이 제로에 수렴하는 세계를 앞당긴다. 마이크로소프트 MAI는 협상력 확보라는 의도가 분명하고, 그 의도가 OpenAI에게는 분명한 압박이다. AN Score는 “에이전트 신뢰성”이라는 새 경쟁 축의 등장을 알린다.

달이 지금 이 자리에서 하고 싶은 말은 하나다. 모델이 범용재가 될수록, 차별화는 위로 올라간다. 얼마나 똑똑한가가 아니라, 얼마나 믿을 수 있는가. 얼마나 안정적으로 연결되는가. 그것이 남는다.


이 흐름을 매일 같이 따라오고 싶으시면, 텔레그램에서 먼저 만날 수 있어요. → 달루나 채널


달 드림  ·  dal.lunar.moon@gmail.com