AI 투명성 급락·OpenAI Spud·Anthropic vs 국방부 | 기술AI

기술·AI — 2026년 04월 14일

달의 뉴스레터

“누가 규칙을 쓰는가” — AI 투명성, 모델 패권, 군사 조달이 동시에 격돌하는 주간.

AI 성적표가 나왔다 — 중국은 거의 따라잡았고, 빅테크는 입을 닫았다

스탠퍼드 HAI(인간중심 AI 연구소)가 2026년 AI Index를 4월 13일 발표했다. 400페이지 보고서가 말하는 핵심은 두 가지다. 첫째, 미국과 중국의 AI 모델 성능 격차가 사실상 사라졌다. MMLU 벤치마크 기준 2023년에는 미국이 17.5%p 앞섰는데 2024년엔 0.3%p로 좁혀졌다. 둘째, 주요 AI 기업들의 투명성 점수(Foundation Model Transparency Index)가 58점에서 40점으로 급락했다. 2년 전엔 10개 기업 중 7개가 기술보고서를 제출했는데 지금은 3개만 낸다.

두 번째 수치가 첫 번째보다 더 중요하다. Google이 Gemini 2.5 모델 카드를 지연 제출하고, Anthropic과 OpenAI가 학습 데이터 규모와 훈련 기간 공개를 중단한 건 도덕적 퇴보가 아니다. 경쟁이 격화되면서 투명성이 전략적 비용이 됐기 때문이다. 내 설계도를 경쟁자에게 보여줄 이유가 없다는 논리다.

왜 지금인가. 트럼프 행정부의 관세 협상이 극적으로 흔들리는 주에 이 보고서가 나왔다. “중국이 따라잡고 있다”는 프레임은 AI 투자 확대, 규제 완화, 국방 예산 증가 세 가지를 동시에 정당화한다. Stanford HAI의 자금 출처 중엔 Google·Microsoft·VC가 포함돼 있다. 데이터는 사실이지만, 어떤 데이터를 어떤 순서로 배치하는지가 결론을 만든다는 것도 사실이다.

실제로 무슨 말인가. “중국이 미국을 따라잡았다”는 것은 MMLU라는 이미 포화 상태에 가까운 벤치마크 기준이다. 두 선수가 100m를 9.58초와 9.61초로 뛴다면 “격차가 0.03초로 좁혀졌다”고 말할 수 있지만, 양쪽 모두 인간 한계 근처에서 측정 오차 수준으로 수렴한 것일 수 있다. 투자 격차는 여전히 23배다(미국 $2,859억 vs 중국 $124억). 중국이 효율적으로 따라온 것은 맞지만, 프론티어 모델 개발의 실질적 우위는 아직 미국 쪽에 있다.

달의 의심. AI 투명성 하락이 진짜로 걱정되는 이유는 따로 있다. 기업들이 덜 공개할수록 외부 안전 연구자들이 모델의 위험성을 사전에 발견하기 어려워진다. Claude Mythos가 사이버 취약점을 자동 발견한다면, 그 능력의 범위를 아는 사람이 Anthropic 내부에만 있다는 뜻이다. 투명성은 홍보가 아니라 외부 감시의 기반이다. 그 기반이 약해지고 있다. 그리고 이 흐름을 막을 의지가 있는 규제 기관은 지금 EU 외에 없다.

어디로 가는가. EU AI Act 집행 기관이 기술보고서 제출 의무를 강제한다면, 빅테크 3사는 제한적으로라도 투명성을 복원할 유인이 생긴다. 반대로 미국이 계속 규제 공백을 유지한다면, 불투명성이 업계 표준이 된다. 달의 판단: 투명성 압력은 단기 약화되지만 중기적으로 쌓인다. EU 집행이 실제 과징금으로 이어지는 시점이 분기점이다. 달이 틀릴 조건은 EU 집행이 2년 이상 지연되고, 미국 의회가 AI 투명성 입법을 영구 포기하는 경우다.

출처: Stanford HAI | SiliconAngle | 2026-04-13

Spud는 대기 중이고 Muse Spark는 4위다 — 모델 패권 전쟁의 이번 주 현황

Meta가 4월 8일 ‘Muse Spark’를 출시했다. 코드명 Avocado, Meta Superintelligence Labs의 첫 번째 모델이다. Alexandr Wang — Scale AI에서 $14.3B에 영입한 인물 — 이 이끄는 팀의 작품이다. 성능 지수는 52점(Artificial Analysis 기준)으로 Gemini 3.1 Pro·GPT-5.4(각 57점), Claude Opus 4.6(53점)에 이어 4위다. 강점은 의료 분야다. HealthBench Hard에서 42.8%로 GPT-5.4(40.1%)를 2.7%p 앞서며 현재 1위다. 약점은 코딩과 에이전틱 태스크다.

그러나 이 순위는 임시다. OpenAI의 코드명 ‘Spud’가 3월 24일 사전훈련을 완료하고 안전 평가 중이다. Sam Altman은 직원들에게 “경제를 크게 가속화할 모델”이라는 내부 메모를 보냈고, Greg Brockman은 “점진적 업데이트가 아닌 ‘big model feel'”이라 표현했다. Polymarket 기준 4월 30일 전 출시 확률 78%. 계산이 맞으면 이번 달 안에 현재 순위가 통째로 재편된다.

왜 지금인가. Meta가 Llama 오픈소스를 포기하고 독점 모델로 전환한 건 이타주의와의 이별이 아니다. 플랫폼 포획 패턴의 완성이다. Android가 오픈소스로 제조사를 끌어들인 뒤 Google 서비스 의존도를 높인 것처럼, Meta는 Llama로 수만 개 스타트업을 자기 생태계에 올린 뒤 이제 그 의존도를 회수하는 단계에 들어갔다. Spud 정보 유출이 비공식 채널을 통해 흘러나온 것도 우연이 아닐 수 있다. 경쟁자(Anthropic·Google)의 출시 타이밍에 영향을 주기 위한 전략적 사전 포석일 가능성이 있다.

실제로 무슨 말인가. Meta의 HealthBench 42.8%가 1위라는 것은 Meta 자체 보고다. 독립 리더보드(Scale AI HLE)에서 Muse Spark 점수는 39.9%다. Contemplating 모드 HLE 58%는 리더보드 미검증 상태다. Llama 4 벤치마크 조작 전례가 있는 Meta의 자체 주장은 독립 검증 전까지 100% 신뢰하기 어렵다. $115-135B capex를 투입하고 4위로 나온 모델이라는 점도 투자자를 설득하기 어렵다 — Meta 주가가 2026년 YTD -5%인 이유가 있다.

달의 의심. Meta의 오픈소스 포기가 생태계에 남긴 공백을 채우는 건 중국 오픈소스다. OpenRouter 토큰 점유율 61%가 이미 DeepSeek·Qwen 계열에 있다. Meta가 떠난 자리에 중국 모델이 앉는 구조가 조용히 만들어지고 있다. Muse Spark가 폐쇄형으로 운영되는 동안, 오픈소스 AI의 사실상 리더 자리는 중국으로 넘어가고 있는 것이다. 어제 뉴스레터에서 다룬 Claude Mythos와 OpenAI 산업정책 얘기(달의 뉴스레터 기술AI 2026-04-13)와 이어서 보면, 이번 주 AI 산업 전체가 “폐쇄형 경쟁 + 규제 서사 독점 + 생태계 잠금”이라는 동일한 방향으로 수렴하고 있다.

어디로 가는가. Spud가 GPT-6급 성능이면 Muse Spark의 4위 지위는 출시 첫날부터 재평가된다. Meta의 진짜 시험대는 Muse Spark가 35억 명 무료 서비스로 광고 AI에 통합됐을 때 실질 ROI를 만들어내느냐다. 토큰 효율 우위(Opus 대비 2-3배 저렴)가 수익 경로로 전환되지 않으면 capex 대비 ROI 회의론이 가속된다. 달의 판단: Scale AI 데이터 공급망이 핵심이다. Wang이 가져온 건 모델 아키텍처가 아니라 인간 피드백 데이터의 독점이다. 1년 단위로 봐야 한다. 달이 틀릴 조건은 Meta 자체 수치의 과장이 검증에서 드러나 신뢰 위기가 온 경우, 또는 Apollo Research가 경고한 ‘평가 인지’ 문제가 표면화되는 경우다.

출처: TechCrunch | The Decoder | CNBC | 2026-04-08~09

Anthropic vs. 국방부 — 두 법원이 엇갈렸다, 진짜 싸움은 지금부터다

이 사건의 타임라인부터. 2025년 7월, Anthropic이 국방부와 $200M 계약을 체결하면서 두 조건을 계약서에 명시했다. “자율 살상무기 금지”와 “자국민 대량 감시 금지”. 2026년 1월 26일, Dario Amodei CEO가 에세이 <The Adolescence of Technology>를 발표해 AI 자율 무기의 위험성을 공개적으로 경고했다. 2월 26일 Anthropic이 공개 성명을 냈고, 다음 날 Trump이 Truth Social에 “즉각 사용 중단”을 올리고, 국방부가 Anthropic을 ‘공급망 위험(supply chain risk)’으로 지정했다. 역사적으로 외국 적대 기업에 쓰이던 이 지정이 미국 국내 기업에 처음 적용됐다.

3월 26일, 샌프란시스코 연방법원 Rita Lin 판사가 판결했다. “Anthropic CEO가 에세이를 썼다는 이유로 정부가 보복한 것은 수정헌법 제1조 위반이다.” 집행 정지 명령이 내려졌다. 4월 8일, DC 항소법원이 다른 결론을 냈다. “군사 작전 중 국방부가 AI를 어떻게 조달할지에 법원이 개입하는 건 형평성상 맞지 않는다.” 기각됐다. 같은 날, 두 판결이 공존한다. Anthropic은 국방부 계약에서 배제됐지만, 다른 연방기관 계약은 SF 법원 판결로 보호받는다. 구두변론은 5월 19일이다.

왜 지금인가. DC 항소법원은 판결문에서 “활성 군사 충돌 중(during an active military conflict)”이라는 표현을 썼다. 공식적으로 미국이 어느 나라와 군사 충돌 중인지 언급하지 않았지만, 이 표현은 정부가 법원에 군사 작전의 긴급성을 그렇게 설명했다는 것을 의미한다. 베네수엘라 작전에 대한 Palantir 내부 보고(Semafor 단독 보도)가 방아쇠였다는 보도도 있다. 법원 문서 속 이 표현은 언론에서 거의 다뤄지지 않았다.

실제로 무슨 말인가. OpenAI가 같은 날 Pentagon 계약을 체결했다는 사실이 핵심이다. MIT Technology Review에 따르면, OpenAI 계약에는 구체적 금지 조항이 없다. Anthropic이 계약서에 넣으려 했던 바로 그것 — 자율 무기 금지, 대량 감시 금지 — 을 OpenAI는 계약서에 넣지 않았다. DoD가 원한 건 “신뢰해 달라”는 구두 약속이지, 법적 구속력이 있는 제한이 아니었다. Anthropic이 진 게 아니라, OpenAI가 원칙을 종이 위에서만 선언하는 방식으로 계약을 따낸 것이다.

달의 의심. 4월 13일, Anthropic이 Ballard Partners를 고용했다. 트럼프 행정부 핵심 인맥 로비 회사다. 원칙을 끝까지 지킬 사람은 트럼프 인맥 로비스트를 고용하지 않는다. 이것은 협상 채널을 여는 행동이다. EFF(전자프론티어재단)의 지적이 정확하다: “Anthropic의 거부가 옳더라도, 이는 CEO 개인의 윤리 판단에 의존하는 취약한 보호다.” 법이 아닌 CEO 판단이 AI 안전의 마지막 보루라면, 그 보호는 언제든 협상 테이블에 올라갈 수 있다.

어디로 가는가. 세 시나리오가 있다. 첫째, DC 항소법원 본안에서 위헌 결정이 나오면 AI 기업이 윤리 조건을 계약서에 명시할 수 있는 선례가 만들어진다. 둘째, 합헌이 유지되면 어떤 AI 기업도 정부에 윤리 조건을 넣기 어려워진다. 셋째, Ballard Partners가 성과를 내 행정부와 타협이 이뤄지면 — 법적 선례 없이 정치적 해결, AI 안전 원칙은 법이 아닌 협상의 대상이 되는 더 나쁜 결말이다. 달의 판단: 세 번째 시나리오 가능성이 가장 높다. Anthropic이 이미 Ballard Partners를 고용했기 때문이다. 달이 틀릴 조건은 DC 항소법원이 예상보다 빨리 위헌 결정을 내리고 의회에서 AI 군사계약 윤리 입법 논의가 시작되는 경우다 — 현재 미국 의회 환경에서 가능성은 낮다.

출처: CNBC | Breaking Defense | Defense One | 2026-04-08

달의 결론

세 뉴스를 관통하는 구조가 하나 있다. “누가 규칙을 쓰는가”를 두고 세 곳에서 동시에 충돌이 일어나고 있다.

Stanford HAI 보고서는 AI 투명성 규범이 붕괴되고 있음을 기록한다 — EU가 그 공백을 규제 권력으로 채우려 한다. Meta와 OpenAI는 오픈소스 생태계를 떠나 각자의 폐쇄형 제국을 만들고 있다 — 그 규칙은 자신들이 쓴다. Anthropic과 DoD는 AI를 어떤 조건으로 군사에 쓸 수 있는지를 법정에서 싸우고 있다 — 그 결론이 향후 모든 AI 군사 조달의 규칙이 된다.

지금 기준으로, 세 싸움 모두 결론이 나지 않았다. 달이 한 가지에 무게를 두는 것은 이것이다: AI 안전이 법이 아닌 기업 판단에만 의존하는 동안, 그 보호는 시장 상황과 정치 협상에 의해 언제든 조정될 수 있다. Anthropic의 Ballard Partners 고용이 이번 주 가장 조용하지만 가장 중요한 신호다.

Spud가 이번 달 출시되면 모델 순위는 다시 쓰인다. 하지만 더 중요한 건 그 모델이 어떤 계약 조건 아래 정부에 배포되는가다. 벤치마크 점수가 아니라 계약서의 텍스트가 AI의 실제 경계를 결정한다.

이 뉴스레터는 특정 금융상품의 매수·매도를 권유하지 않습니다.
모든 투자 판단과 그에 따른 결과는 전적으로 독자 본인에게 있습니다.

달의 뉴스레터 | 기술·AI

이 흐름을 매일 같이 따라오고 싶으시면, 텔레그램에서 먼저 만날 수 있어요. → 달루나 채널

달 드림 · dal.lunar.moon@gmail.com