🧠 arxiv cs.AI 주간 리포트
기간: 2026년 5월 3일(토) ~ 5월 9일(금)
총 논문 수: 약 871편 (cs.AI 기준, cross-list 포함)
생성일: 2026-05-11 (5월 9일자 분석)
📊 이번 주 트렌드 요약
이번 주는 세 개의 서로 다른 층위에서 "AI의 현실 한계"가 동시에 드러난 주였다. 수학: AI Co-Mathematician(DeepMind)이 FrontierMath 최고 난이도에서 48%를 달성했지만, 그것이 동시에 현재의 천장임을 드러냈다. 코딩: ProgramBench에서 전체 소프트웨어를 처음부터 재구현하는 과제의 완전 해결율이 0%였다. 언어 모델 아키텍처: Cola DLM이 자기회귀(autoregressive) 패러다임을 대체할 수 있는 연속 잠재 확산 언어 모델의 가능성을 스케일링 증거와 함께 보였다. 해석 가능성 측면에서는 신경망 내부 기하학이 행동과 직결된다는 것을 '다양체 조향(manifold steering)'으로 실증했고, 로봇 분야에서는 RLDX-1(RLWRLD·KAIST)과 MolmoAct2(Allen AI)가 실세계 배포 가능한 VLA의 새 기준을 세웠다.
주제별 논문 분포 (내용 기반, 추정)
| 주제 | 논문 수(추정) | 비중 |
|---|---|---|
| Agent & Planning | ~220 | 25% |
| Robotics & Embodied AI | ~130 | 15% |
| Reasoning & Logic | ~110 | 13% |
| Foundation Model | ~100 | 11% |
| Benchmark & Evaluation | ~90 | 10% |
| Interpretability | ~80 | 9% |
| Safety & Alignment | ~60 | 7% |
| Efficiency & Compression | ~50 | 6% |
| Science & Domain Application | ~31 | 4% |
주목할 트렌드
-
수학·코딩 에이전트의 현실 천장: AI Co-Mathematician이 미해결 수학 문제 해결을 지원하고 FrontierMath Tier 4에서 48%를 달성한 반면, ProgramBench는 전체 소프트웨어 재구현 과제에서 완전 해결율 0%를 기록했다. AI가 '동반자'로는 강력하지만 '독립적 구현자'로는 여전히 취약하다는 대조가 선명하다.
-
자기회귀의 대안: 연속 잠재 확산 언어 모델: Cola DLM이 토큰 수준 확산이 아닌 연속 잠재 공간에서의 전역 의미 모델링으로 스케일링 곡선을 보였다. 자기회귀와 확산 언어 모델 두 기준선을 동시에 압도하며, 통합 멀티모달 생성 모델로의 확장 가능성을 제시했다.
-
표현 기하학이 행동을 결정한다: Manifold Steering(Stanford·Goodfire)이 신경망이 개념을 비선형 곡면 다양체로 인코딩하며, 이 기하학이 행동과 직접 결합되어 있음을 보였다. 기존 선형 조향보다 2.8배 자연스러운 행동 변화를 달성하면서, 해석 가능성 연구와 모델 제어가 통합되는 방향을 제시했다.
🔬 주요 논문 심층 분석
[1] AI Co-Mathematician: Accelerating Mathematicians with Agentic AI
arXiv ID: 2605.06651
저자: Daniel Zheng, Ingrid von Glehn, Yori Zwols 외 17인 (Google DeepMind)
분류: cs.AI / Agent & Planning
중요도: 14/15점
핵심 기여
수학자가 열린 연구 과제를 AI 에이전트와 상호작용하며 수행할 수 있는 상태 보존(stateful) 비동기 워크벤치를 제시했다. 단순 정답 생성기가 아니라, 인간 수학자의 실제 작업 흐름을 지원하는 '공동 연구자' 패러다임이다.
방법론
아이디어 생성, 문헌 탐색, 계산 탐구, 정리 증명, 이론 구축을 통합하는 비동기 상태 보존 워크스페이스를 구현했다. 불확실성 관리, 사용자 의도 정제, 실패 가설 추적, 수학적 아티팩트 출력을 지원한다.
실험 결과
FrontierMath Tier 4(최고 난이도)에서 48% 달성—기존 최고 기록 갱신. 전문 수학자들이 미해결 문제 해결과 새로운 연구 방향 발굴에 시스템을 활용하는 데 성공했다. 간과된 문헌 참조 발굴에서도 효과를 확인했다.
한계 및 향후 연구
알파X 논문 요약에서는 23/48 문제 해결(48%)로 표기되지만, 논문 본문 기준으로는 FrontierMath Tier 4의 새로운 최고점이다. 완전 자율 수학 연구가 아니라 인간-AI 협업 패러다임이므로, 자율성보다 협업 질(quality)이 핵심 지표다.
왜 중요한가
지난 수주간 "AI가 결과는 내지만 추론하지 않는다"는 비판(2604.18805)의 맥락에서, AI Co-Mathematician은 반대 방향의 시도다. 성과 지표가 아닌 인식론적 과정—실패 추적, 가설 정제, 불확실성 관리—을 설계의 중심에 놓는다. 수학이라는 가장 엄격한 영역에서의 인간-AI 협업 워크플로의 실용적 기준점이 된다.
[2] ProgramBench: Can Language Models Rebuild Programs From Scratch?
arXiv ID: 2605.03546
저자: John Yang, Kilian Lieret, Jeffrey Ma 외 (Facebook Research)
분류: cs.AI / Benchmark & Evaluation
중요도: 13/15점
alphaXiv 78 북마크
핵심 기여
컴파일된 실행 파일과 문서만 주어졌을 때, AI가 소프트웨어 전체를 처음부터 재구현할 수 있는지를 평가하는 새로운 벤치마크. 현존 최고 수준 모델들의 완전 해결율은 0.0%였다.
방법론
바이너리 실행 파일과 공개 문서만 입력으로 제공하고, 에이전트가 고수준 아키텍처 설계부터 시스템 분해, 전체 구현까지 수행해야 한다. 단위 과제 완수가 아닌 전체 프로그램 재현을 목표로 한다.
실험 결과
선도 모델들 모두 완전 해결율 0.0%. 실패 원인은 고수준 아키텍처 설계와 시스템 분해. 개별 함수 작성이 아닌 전체 시스템 설계라는 능력이 여전히 근본적 한계임을 드러냈다.
왜 중요한가
SWE-bench로 대표되는 기존 코딩 벤치마크들은 주어진 코드베이스에서 버그를 고치거나 기능을 추가하는 능력을 측정한다. ProgramBench는 그보다 한 층 높은 '아키텍처 설계 능력'을 묻는다. 0%라는 결과는 현재 AI 코딩 에이전트의 성숙도를 냉정하게 재조정한다.
[3] Continuous Latent Diffusion Language Model (Cola DLM)
arXiv ID: 2605.06548
저자: Hongcan Guo, Qinyu Zhao, Yian Zhao 외 (ByteDance Seed·홍콩대 등)
분류: cs.CL / Foundation Model
중요도: 13/15점
alphaXiv 63 북마크
핵심 기여
텍스트 생성을 토큰 수준 예측이 아닌 연속 잠재 공간의 위계적 정보 분해로 재정의했다. 전역 의미 구조(global semantic)는 연속 잠재 공간에서 모델링하고, 지역 텍스트 실현(local textual realization)은 조건부 디코딩으로 분리했다.
방법론
3단계 파이프라인: (1) Text VAE로 텍스트→잠재 사상 학습, (2) block-causal DiT로 연속 잠재 공간에서 전역 의미 사전 모델링, (3) 조건부 디코딩으로 텍스트 생성. Markov 경로 관점에서 확산 과정이 토큰 수준 관찰 복원이 아닌 잠재 사전 전송을 수행한다. 약 2B 파라미터 자기회귀 및 LLaDA 기준선 대비 8개 벤치마크에서 평가, 2000 EFLOPs까지 스케일링 곡선 검증.
실험 결과
자기회귀 기준선과 LLaDA를 동시에 압도하는 스케일링 성능. 추론 집약적 과제에서 특히 강한 스케일링 거동을 보임. 연속 모달리티로의 자연스러운 확장 가능성 제시.
왜 중요한가
자기회귀가 언어 모델의 유일한 패러다임이 아닐 수 있다는 가능성을 스케일링 증거와 함께 제시한 가장 강력한 논문 중 하나다. 특히 "생성 품질과 스케일링 거동이 우도(likelihood)보다 모델 능력을 더 잘 반영할 수 있다"는 주장은 기존 평가 패러다임에 도전한다.
[4] Manifold Steering Reveals the Shared Geometry of Neural Network Representation and Behavior
arXiv ID: 2605.05115
저자: Daniel Wurgaft, Can Rager, Matthew Kowal 외 (Stanford·Goodfire AI)
분류: cs.LG / Interpretability
중요도: 12/15점
alphaXiv 49 북마크
핵심 기여
신경망이 개념을 비선형 곡면 다양체(curved manifolds)로 인코딩하며, 이 기하학이 모델 행동과 직접 결합되어 있음을 보였다. 기존 선형 조향(linear steering)을 다양체 인식 개입(manifold-aware intervention)으로 대체했다.
방법론
신경망 표현의 내재적 기하학을 다양체 구조로 분석하고, 이 구조를 따라 개입하는 '다양체 조향'을 제안했다. 언어·비전 과제 전반에 걸쳐 자연스러움 평균 2.8배 향상을 달성했으며, 다차원 개념 제어로 일반화되었다.
왜 중요한가
해석 가능성 연구(interpretability)와 모델 제어(steering)가 통합되는 방향이다. 개념이 선형이 아닌 곡면 다양체 위에 있다면, 기존의 선형 활성화 조향은 근본적으로 부정확하다. 이 연구는 그 대안을 구체적으로 제시한다.
[5] RLDX-1: A Unified VLA System for Dexterous Robotic Manipulation
arXiv ID: 2605.03269
저자: Dongyoung Kim, Huiwon Jang, Myungkyu Koo 외 (RLWRLD·KAIST)
분류: cs.AI / Robotics
중요도: 12/15점
alphaXiv 76 북마크
핵심 기여
움직임 인식, 장기 메모리, 물리 감지를 통합한 완전 오픈소스 Vision-Language-Action 시스템. 다양한 시뮬레이션 벤치마크와 실세계 과제에서 기존 프론티어 VLA 모델을 압도한다.
실험 결과
LIBERO 벤치마크 97.8% 성공률. 복잡한 휴머노이드 작동과 접촉 집약적 시나리오에서 강력한 성능. 실세계 DROID 과제(미확인 물체 포함)에서 87.1%(MolmoAct2 기준) 수준의 성능.
왜 중요한가
한국(RLWRLD·KAIST) 기반 연구팀이 글로벌 프론티어 VLA 경쟁에 본격 합류했다는 점도 주목할 만하다. 완전 오픈소스라는 점에서 연구 커뮤니티 접근성이 높다.
📂 주요 논문 목록 (주제별 선별)
Agent & Planning
| # | 제목 | arXiv ID | 한줄 요약 |
|---|---|---|---|
| 1 | AI Co-Mathematician (DeepMind) | 2605.06651 | FrontierMath Tier 4 48%, 수학자 미해결 문제 공동 해결 |
| 2 | SkillOS (UIUC·Google Cloud) | 2605.06614 | 경험 기반 RL로 재사용 스킬 자동 큐레이션, 자기 진화 |
| 3 | Skill1 | 2605.06130 | 단일 과제 결과 신호로 스킬 선택·활용·증류 동시 최적화 |
| 4 | Recursive Agent Optimization (RAO) | 2605.06639 | 재귀 위임으로 컨텍스트 한계 극복, 95% 성공률 |
| 5 | OpenSearch-VL | 2605.05185 | 멀티모달 딥 서치 에이전트 오픈소스 레시피, +13.8점 |
| 6 | Storage Is Not Memory | 2605.04897 | 에이전트 기억을 저장이 아닌 검색 중심 아키텍처로 재설계 |
Benchmark & Evaluation
| # | 제목 | arXiv ID | 한줄 요약 |
|---|---|---|---|
| 1 | ProgramBench (Facebook Research) | 2605.03546 | 전체 소프트웨어 재구현 벤치마크, 최고 모델 완전 해결율 0% |
| 2 | SCALELOGIC | 2605.06638 | RL 훈련 연산이 추론 깊이와 멱법칙 관계, 표현력이 핵심 |
| 3 | ARMOR 2025 | 2605.00245 | 군사 맥락 LLM 안전성 평가 벤치마크 |
Foundation Model
| # | 제목 | arXiv ID | 한줄 요약 |
|---|---|---|---|
| 1 | Cola DLM (ByteDance Seed) | 2605.06548 | 연속 잠재 확산 언어 모델, 자기회귀·LLaDA 동시 압도 |
| 2 | On-Policy Distillation (Thinking Machines) | on-policy-distillation | RL 온정책 증류, AIME'24 70%, 오프정책 대비 30배 비용 절감 |
| 3 | ZAYA1-8B | 2605.05365 | 8B MoE(700M 활성), Markovian RSA 테스트타임 연산으로 프론티어 격차 축소 |
Interpretability & Mechanistic
| # | 제목 | arXiv ID | 한줄 요약 |
|---|---|---|---|
| 1 | Manifold Steering (Stanford·Goodfire) | 2605.05115 | 표현 기하학=행동, 다양체 조향으로 2.8배 자연스러움 향상 |
| 2 | Lecture Notes: Statistical Physics & Neural Networks | 2605.06394 | 볼츠만-깁스·상전이·재규범화군과 DL 이론 연결 강의록 |
Robotics & Embodied AI
| # | 제목 | arXiv ID | 한줄 요약 |
|---|---|---|---|
| 1 | RLDX-1 (RLWRLD·KAIST) | 2605.03269 | 통합 VLA, LIBERO 97.8%, 실세계 휴머노이드 완전 오픈소스 |
| 2 | MolmoAct2 (Allen AI·UW) | 2605.02881 | 실세계 DROID 87.1%, 2.42배 제어 속도 향상, 완전 오픈소스 |
| 3 | FFDC-WAM | 2605.06222 | 세계 모델 예측을 실제 감각과 지속 검증하는 적응 실행 |
| 4 | Semantic Latents for Robotic World Models | 2605.06388 | 의미 정렬 잠재 공간이 재구성 정렬보다 VLA 성능 9.8%p 향상 |
| 5 | ReActor (Disney Research) | 2605.06593 | 인간 운동의 로봇 형태 적응 RL, 침투 0%, RL 성공률 15.22%p 향상 |
| 6 | Adaptive Q-Chunking | 2605.05544 | 오프라인→온라인 RL에서 액션 청크 크기 동적 조절, 조작 벤치 100% |
📁 arxiv 서브카테고리별 분포 (이번 주, 추정)
| 서브카테고리 | 논문 수(추정) |
|---|---|
| cs.AI (primary) | ~280 |
| cs.LG (cross-list) | ~200 |
| cs.CL (cross-list) | ~150 |
| cs.CV (cross-list) | ~80 |
| cs.RO (cross-list) | ~70 |
| cs.MA (cross-list) | ~40 |
| 기타 | ~51 |
📝 분석 메모
이번 주는 능력의 상한과 하한을 동시에 측정한 주였다. AI Co-Mathematician의 FrontierMath 48%는 상한이고, ProgramBench의 0%는 하한이다. 이 두 숫자를 나란히 놓으면 현재 AI의 구조가 보인다. '주어진 맥락 안에서 깊이 탐구하는 능력'은 놀라운 수준에 달했지만, '아무것도 없는 상태에서 전체 시스템을 설계하는 능력'은 여전히 부재하다. AI Co-Mathematician이 인간 수학자와 협업하는 구조를 선택한 것은 우연이 아니다.
Cola DLM(2605.06548)은 조용하지만 중요한 도전이다. 자기회귀가 언어 모델의 기본값이 된 것은 성능 때문이지 원리 때문이 아니었다. Cola DLM은 스케일링 증거와 함께 대안이 가능하다는 것을 보인다. 특히 "생성 품질이 우도보다 능력을 더 잘 반영할 수 있다"는 주장은 평가 방법론 자체를 건드린다.
Manifold Steering(2605.05115)은 해석 가능성 연구의 방향 전환을 보여준다. 선형 활성화 조향은 모델 내부가 선형이라는 가정 위에 서 있었다. 그 가정이 틀렸다면—그리고 이 연구는 그렇다고 주장한다—해석 가능성과 모델 제어의 방법론 전체를 재설계해야 한다.
로봇 분야에서 RLDX-1(KAIST)과 MolmoAct2(Allen AI) 두 완전 오픈소스 VLA가 이번 주 동시에 등장했다. 프론티어 로봇 VLA가 비공개 연구소의 전유물이 아니게 되는 흐름이 가속화되고 있다.
다음 주 주목 포인트: Gemini 3.5 발표 예고와 함께 멀티모달 에이전트 관련 논문들이 대거 등록될 것으로 예상된다. RL과 추론 깊이의 관계를 다룬 SCALELOGIC 후속 연구들도 주목할 만하다.
본 리포트는 arxiv cs.AI 카테고리 주간 분석 스킬로 생성되었습니다.
심층 분석 논문: 5편 / 분석 기간: 2026-05-03 ~ 2026-05-09