🧠 arxiv cs.AI 주간 리포트
기간: 2026년 5월 17일(토) ~ 5월 23일(금)
총 논문 수: 약 2,600편 이상 (cs.AI 기준, cross-list 포함)
생성일: 2026-05-26
📊 이번 주 트렌드 요약
이번 주는 수학과 AI의 경계가 다시 한번 무너진 주였다. Google DeepMind의 AlphaProof Nexus가 수십 년간 미해결이던 에르되시(Erdős) 문제 9개와 OEIS 추측 44개를 자율적으로 증명했다—문제당 비용 수백 달러로. 동시에 AI가 과학적 진보 자체를 예측하는 능력은 우연 수준에 불과하다는 CUSP 벤치마크가 나왔다. '이미 알려진 수학을 증명하는 AI'와 '새로운 과학을 예측하는 AI'는 전혀 다른 문제라는 대조가 이번 주의 핵심이다. 아키텍처 측면에서는 잠재 공간 반복 추론의 두 번째 물결이 밀려왔다—GRAM(KAIST·Yoshua Bengio), EqR(CMU), Gated DeltaNet-2(NVIDIA)가 동시에 등장했다. 에이전트 분야에서는 코드를 에이전트의 기반 기질(substrate)로 재정의하는 관점이 정리됐다.
주제별 논문 분포 (내용 기반, 추정)
| 주제 | 논문 수(추정) | 비중 |
|---|---|---|
| Agent & Planning | ~650 | 25% |
| Foundation Model / Architecture | ~520 | 20% |
| Reasoning & Logic | ~390 | 15% |
| Multimodal & Generation | ~310 | 12% |
| Robotics & Embodied AI | ~260 | 10% |
| Safety & Alignment | ~200 | 8% |
| Benchmark & Evaluation | ~160 | 6% |
| Interpretability | ~110 | 4% |
주목할 트렌드
-
수학 증명 AI의 질적 도약: AlphaProof Nexus는 IMO 수준 풀이기에서 연구 수준 미해결 문제 자율 해결기로 도약했다. 56년간 미해결 문제를 포함해 Lean 형식 검증을 통과한 기계 확인 가능한 증명을 자율 생성한다. 자연어 AI의 한계를 형식 검증 루프로 보완한 아키텍처가 핵심이다.
-
잠재 공간 반복 추론의 두 번째 물결: 지난 주 어트랙터 모델에 이어 이번 주 GRAM(확률적 다중 궤적), EqR(평형점 수렴), Gated DeltaNet-2(삭제·쓰기 분리)가 동시에 등장했다. 자기회귀적 텍스트 확장이 아닌 잠재 공간 반복 정제라는 방향이 독자적인 연구 흐름으로 굳어지고 있다.
-
VPO: 다양성을 훈련 목표로: 스칼라 보상이 아닌 벡터 보상으로 LLM을 훈련하여 테스트 타임 탐색에 쓸 수 있는 다양한 해를 생성하는 Vector Policy Optimization이 등장했다. best@k 점수와 보상 공간 다양성 모두에서 스칼라 RL을 압도했다. "다양성이 곧 성능"이라는 테스트 타임 컴퓨팅 패러다임에 훈련 단계를 정렬하는 시도다.
🔬 주요 논문 심층 분석
[1] AlphaProof Nexus: AI-Driven Formal Proof Search
arXiv ID: 2605.22763
저자: George Tsoukalas, Anton Kovsharov, Sergey Shirobokov 외 (Google DeepMind·Aarhus University·Google)
분류: cs.AI / Reasoning & Logic
중요도: 15/15점
이번 주 최대 파장 논문
핵심 기여
LLM과 Lean 형식 증명 보조기를 통합한 에이전트 루프로, 수십 년간 미해결이던 연구 수준 수학 문제를 자율적으로 해결했다. Gemini 3.1 Pro 기반으로 작동하며, AI가 증명 단계를 생성하면 Lean 컴파일러가 각 단계를 검증하고 오류 메시지를 다음 시도에 피드백한다.
실험 결과
- 353개 열린 에르되시(Erdős) 문제 중 9개 자율 해결 (56년간 미해결 2개 포함)
- 492개 OEIS 열린 추측 중 44개 증명
- 대수기하학 15년 미해결 문제, 민-맥스 최적화 7년 미해결 문제 해결
- 문제당 추론 비용: 수백 달러 수준
- 모든 형식 증명은 GitHub에 공개, 기계 검증 가능
방법론
복잡도에 따라 4개 에이전트 변형: 가장 단순한 Agent(A)는 Gemini 3.1 Pro로 독립 서브에이전트를 루프로 운영한다. 에이전트는 Lean 코드로 증명 단계를 생성 → 컴파일러 검증 → 오류 피드백 → 재시도. 통과하거나 더 이상 진전이 없을 때까지 반복한다.
한계
353개 에르되시 문제 중 9개(약 2.5%). 전체 미해결 문제의 대다수는 여전히 AI의 범위 밖이다. 지금까지 가장 성공적인 사례는 조합론·그래프 이론 분야에 집중된다.
왜 중요한가
수학 AI 연구의 패러다임이 다시 한번 이동했다. AlphaProof가 IMO 은메달 수준을 보인 게 2024년이었다. 올림피아드 문제는 설계 자체가 수시간 내 풀리도록 되어 있지만, 에르되시 문제는 수십 년간 인류 수학자들이 풀지 못한 것들이다. LLM의 생성 능력과 형식 검증의 신뢰성을 통합한 아키텍처가 열쇠였다. "자연어 AI는 환각이 있지만, 형식 검증 루프가 그것을 교정한다"는 구조다. 이 논문은 동시에 AI가 수학 연구의 동반자가 될 수 있다는 가능성의 현재 최대치를 보여준다.
[2] GRAM: Generative Recursive Reasoning
arXiv ID: 2605.19376
저자: Junyeob Baek, Mingyu Jo, Minsu Kim, Mengye Ren, Yoshua Bengio, Sungjin Ahn (KAIST·Mila·NYU·Université de Montréal)
분류: cs.AI / Reasoning & Logic
중요도: 13/15점
alphaXiv 182 북마크 — 이번 주 최다
핵심 기여
기존 재귀 추론 모델(RRM)이 단일 결정론적 잠재 궤적에 수렴하는 한계를 확률적 다중 궤적 계산으로 돌파했다. GRAM은 추론을 확률적 잠재 궤적으로 모델링하여 여러 가설과 대안 전략을 동시에 탐색하고, 재귀 깊이와 병렬 궤적 샘플링 두 축 모두로 테스트 타임 스케일링을 가능하게 한다.
방법론
분할 변분 추론(amortized variational inference)으로 훈련. 조건부 추론 p(y|x)와 무조건부 생성 p(x) 두 가지 모드를 모두 지원한다. N-Queens, Sudoku 등 다중 해 제약 만족 문제에서 결정론적 기준선과 비교했다.
왜 중요한가
Yoshua Bengio의 참여가 이 방향의 이론적 정당성을 높인다. 지난 주 어트랙터 모델이 고정점 수렴으로 반복 정제를 안정화했다면, GRAM은 그 반복에 확률적 다양성을 주입한다. "한 가지 답이 아닌 여러 가능한 답을 탐색하는 추론"은 과학적 문제 해결, 창의적 과제, 불확실성이 큰 의사결정에서 인간 전문가의 추론 방식에 더 가깝다. KAIST 팀이 세계 최고 수준 연구진과 함께 이 분야의 핵심 논문을 낸 것도 주목할 만하다.
[3] Equilibrium Reasoners (EqR)
arXiv ID: 2605.21488
저자: Benhao Huang, Zhengyang Geng, Zico Kolter (Carnegie Mellon University)
분류: cs.LG / Reasoning & Logic
중요도: 12/15점
alphaXiv 38 북마크
핵심 기여
잠재 공간에서 과제 조건부 어트랙터를 학습하여, 적응적으로 연산 깊이와 너비를 스케일링하는 반복 모델 프레임워크. 문제 난이도에 따라 테스트 타임 연산을 동적으로 할당한다.
실험 결과
Sudoku-Extreme에서 99% 이상 정확도 달성. 어트랙터 수렴 관점이 신경망의 테스트 타임 연산을 과제 난이도에 따라 적응적으로 할당하게 한다.
왜 중요한가
이번 주에만 GRAM, EqR, 어트랙터 모델(지난 주), Gated DeltaNet-2가 모두 잠재 반복 정제 방향을 향하고 있다. Zico Kolter(CMU) 그룹의 참여는 이 방향이 단발성 시도가 아님을 보여준다. "어렵다고 판단되면 더 오래 생각하는" 적응적 연산 할당이 핵심이다.
[4] Vector Policy Optimization (VPO)
arXiv ID: 2605.22817
저자: Ryan Bahlous-Boldi, Isha Puri, Idan Shenfeld
분류: cs.AI / Foundation Model
중요도: 12/15점
alphaXiv 46 북마크
핵심 기여
LLM을 스칼라 보상이 아닌 벡터 값 보상 구조와 확률적 스칼라화(stochastic scalarization)로 훈련하여, 테스트 타임 탐색에 활용할 수 있는 다양한 후보 해를 생성하도록 한다.
실험 결과
다수 도메인에서 스칼라 RL 기준선 대비 일관되게 높은 best@k 점수와 보상 공간 다양성. 테스트 타임 탐색 응용에서 성능이 크게 향상됐다.
왜 중요한가
스칼라 보상으로 훈련된 LLM은 하나의 "최선" 응답으로 수렴하도록 압력을 받는다. VPO는 그 대신 다양한 트레이드오프를 탐색하도록 훈련한다. 테스트 타임 컴퓨팅(Best-of-N, beam search)이 주목받는 지금, 그 탐색 공간의 품질을 훈련 단계에서 미리 높이는 방향이다.
[5] CUSP: Forecasting Scientific Progress with AI
arXiv ID: 2605.22681
저자: Sean Wu, Pan Lu, Yupeng Chen 외
분류: cs.AI / Benchmark & Evaluation
중요도: 12/15점
핵심 기여
시간적 지식 제약(knowledge cutoff) 하에서 AI가 과학적 진보를 예측하는 능력을 평가하는 첫 체계적 벤치마크. 4,760개 과학 사건에 걸쳐 타당성 평가, 메커니즘 추론, 생성적 해법 설계, 시간 예측 4가지 과제로 구성됐다.
실험 결과
프론티어 모델들이 경쟁하는 연구 방향 중 타당한 것을 식별하는 능력은 어느 정도 있지만, 과학적 진보가 실현될지 여부를 예측하는 데는 우연 수준에 가까운 성능을 보였다. 언제 실현될지 시간 예측은 체계적으로 틀렸다.
왜 중요한가
AlphaProof Nexus가 "이미 참인 것을 증명"하는 데 강하다면, CUSP는 "아직 알려지지 않은 것이 참일지 예측"하는 능력을 측정한다. 이 두 능력은 근본적으로 다르다. AI가 과학 연구의 동반자가 되려면 증명 능력뿐 아니라 어느 방향이 유망한지를 예측하는 능력도 필요하다—그리고 그 능력은 아직 우연 수준이다.
📂 주요 논문 목록 (주제별 선별)
Reasoning & Math
| # | 제목 | arXiv ID | 한줄 요약 |
|---|---|---|---|
| 1 | AlphaProof Nexus (DeepMind) | 2605.22763 | Erdős 9개·OEIS 44개 자율 증명, 56년 미해결 포함, 건당 수백 달러 |
| 2 | GRAM (KAIST·Bengio) | 2605.19376 | 확률적 다중 궤적 재귀 추론, 다중 해 탐색·병렬 스케일링 |
| 3 | Equilibrium Reasoners (CMU) | 2605.21488 | 잠재 어트랙터로 적응적 연산 할당, Sudoku-Extreme 99%+ |
| 4 | CUSP | 2605.22681 | AI의 과학적 진보 예측 능력 = 우연 수준, 4,760 사건 벤치마크 |
Foundation Model / Architecture
| # | 제목 | arXiv ID | 한줄 요약 |
|---|---|---|---|
| 1 | Vector Policy Optimization (VPO) | 2605.22817 | 벡터 보상으로 다양성 훈련, 테스트 타임 best@k 압도 |
| 2 | Gated DeltaNet-2 (NVIDIA) | 2605.22791 | 선형 어텐션 삭제·쓰기 분리 게이트, 장문 간섭 제어 개선 |
| 3 | ConvexTok (ETH Zurich·Kensho) | 2605.22821 | 정수 프로그램→선형 완화로 이론 최적에 1% 이내 토크나이저 |
| 4 | Self-Policy Distillation (SPD) | 2605.22675 | 외부 신호 없는 자기 증류, 기존 자기 증류 대비 최대 13% 향상 |
Agent & Planning
| # | 제목 | arXiv ID | 한줄 요약 |
|---|---|---|---|
| 1 | Code as Agent Harness (UIUC·Meta·Stanford) | 2605.18747 | 코드=LLM 출력물이 아닌 에이전트 지능의 작동 기질로 재정의 |
| 2 | LIFE-HARNESS (PKU) | 2605.22166 | 동결 LLM 에이전트 런타임 인터페이스 적응, 평균 88.5% 향상 |
| 3 | Memory-R2 | 2605.21768 | 장기 멀티세션 에이전트 메모리 형성·진화 공동 최적화 |
| 4 | WorldKV (KAIST) | 2605.22718 | 영상 세계 모델 KV 캐시 선택적 검색·압축, 처리량 2배·실시간 |
Robotics
| # | 제목 | arXiv ID | 한줄 요약 |
|---|---|---|---|
| 1 | SOMA | 2605.22283 | VLA에 공간 메모리 통합, 시야 밖 물체 조작 목표 위치 탐색 40~59% 단축 |
| 2 | Action with Visual Primitives (AVP) | 2605.22183 | VLA 내부 시각 기본요소 생성으로 공간 목표 명시, 27.61% 성공률 향상 |
| 3 | Sensor2Sensor (Waymo) | 2605.22809 | 단안 영상→360° 카메라·LiDAR 멀티모달 자율주행 로그 자동 변환 |
📁 arxiv 서브카테고리별 분포 (이번 주, 추정)
| 서브카테고리 | 논문 수(추정) |
|---|---|
| cs.AI (primary) | ~700 |
| cs.LG (cross-list) | ~600 |
| cs.CL (cross-list) | ~500 |
| cs.CV (cross-list) | ~400 |
| cs.RO (cross-list) | ~200 |
| cs.MA (cross-list) | ~100 |
| 기타 | ~100 |
📝 분석 메모
이번 주는 AlphaProof Nexus(2605.22763) 하나로 요약될 수 있다. 9개의 에르되시 문제, 44개의 OEIS 추측, 15년 대수기하학 문제, 7년 민-맥스 최적화 문제. 건당 비용 수백 달러. 이것이 이번 주 수요일 공개된 논문 하나의 결과다.
중요한 것은 어떻게 풀었느냐다. Gemini 3.1 Pro가 증명 단계를 Lean 코드로 생성하고, 컴파일러가 매 단계를 검증하고, 오류 메시지가 바로 다음 시도의 입력이 된다. 자연어 AI의 환각은 형식 검증 루프가 걸러낸다. 이 구조는 LLM의 창의적 생성 능력과 형식 시스템의 신뢰성을 결합한다. 지난 주 AI Co-Mathematician이 "인간과 협업하는 동반자"였다면, AlphaProof Nexus는 "인간 없이 자율적으로 증명하는 에이전트"다.
GRAM(2605.19376)은 Yoshua Bengio의 이름이 붙은 논문이라는 점에서 주목된다. 그의 최근 연구 방향인 "System 2 추론"—빠른 직관적 System 1을 넘어 느리고 의식적인 System 2 방식의 추론—의 맥락에서 읽힌다. 확률적 다중 궤적 탐색이 그 방향의 구체적 구현이다. KAIST·Mila·NYU의 공동 연구라는 점도 주목할 만하다.
CUSP(2605.22681)는 AlphaProof Nexus의 훌륭한 대위법이다. AI가 기존 수학을 증명하는 능력은 이번 주 입증됐다. 그런데 새로운 과학이 어느 방향으로 전개될지 예측하는 능력은—4,760개 사건을 분석한 결과—우연 수준이다. 이 두 숫자를 함께 기억해야 한다.
잠재 반복 추론 흐름—GRAM, EqR, 어트랙터 모델(지난 주), Gated DeltaNet-2—이 이제 하나의 연구 흐름으로 굳어지고 있다. 공통점: 자기회귀 토큰 확장 대신 잠재 공간에서의 반복 정제, 어렵거나 복잡한 문제에 더 많은 연산을 자동 할당. 이것이 다음 아키텍처 패러다임의 전조인지는 아직 알 수 없지만, 매주 새 논문이 쌓이고 있다.
본 리포트는 arxiv cs.AI 카테고리 주간 분석 스킬로 생성되었습니다.
심층 분석 논문: 5편 / 분석 기간: 2026-05-17 ~ 2026-05-23