Дата: 2026-01-25
Автор исследования: Claude + niquola
RLM — это термин с двумя значениями в современном AI:
- Recursive Language Models (Alex Zhang, MIT) — inference-time стратегия, где LLM рекурсивно вызывает себя для обработки сколь угодно длинного контекста
- Reasoning Language Models (o1, DeepSeek-R1, QwQ) — модели с расширенными reasoning capabilities через RL training
Оба направления критически важны для построения мощных AI agents.
- Paper: arXiv:2512.24601
- Blog: alexzhang13.github.io/blog/2025/rlm
- Code: github.com/alexzhang13/rlm
- Prime Intellect: primeintellect.ai/blog/rlm
Alex L. Zhang (MIT CSAIL), Tim Kraska, Omar Khattab
RLM позволяет LLM обрабатывать неограниченно длинный контекст через рекурсивную самовызовную архитектуру:
┌─────────────────────────────────────────────────────────┐
│ User Query │
│ ↓ │
│ ┌─────────────┐ │
│ │ Root LM │ ← Видит ТОЛЬКО query, НЕ весь контекст │
│ │ (depth=0) │ │
│ └──────┬──────┘ │
│ │ Пишет Python код │
│ ↓ │
│ ┌─────────────────────────────────────┐ │
│ │ Python REPL Environment │ │
│ │ ┌─────────────────────────────────┐ │ │
│ │ │ context = "... 10M+ tokens ..." │ │ │
│ │ └─────────────────────────────────┘ │ │
│ │ │ │
│ │ # Root LM пишет: │ │
│ │ chunks = split(context, 1000) │ │
│ │ results = [] │ │
│ │ for chunk in chunks: │ │
│ │ r = llm(query, chunk) # ←──────┼── Sub-LM call │
│ │ results.append(r) │ (depth=1) │
│ │ FINAL(aggregate(results)) │ │
│ └─────────────────────────────────────┘ │
└─────────────────────────────────────────────────────────┘
- Root LM (depth=0) получает только query
- Контекст хранится как переменная в Python REPL
- Root LM пишет код для исследования/нарезки контекста
- Рекурсивные вызовы
llm(sub_query, chunk)обрабатывают части - Результаты агрегируются, возвращаются через
FINAL(answer)
| Стратегия | Описание |
|---|---|
| Peeking | Сначала смотрит начало контекста, понимает структуру |
| Grepping | Regex/keyword поиск вместо семантического retrieval |
| Partition + Map | Режет на куски, параллельные sub-calls |
| Summarization | Суммирует части для решения наверху |
| Programmatic | One-shot через код (diff tracking и т.п.) |
| Benchmark | Задача | RLM vs Baseline |
|---|---|---|
| OOLONG (132k tokens) | Semantic mapping | RLM(GPT-5-mini) +34 pts vs GPT-5 (+114%) |
| OOLONG (263k tokens) | Long context | RLM(GPT-5-mini) +15 pts vs GPT-5 |
| BrowseComp+ (10M+ tokens) | Multi-hop QA, 1000 docs | RLM(GPT-5) 100% accuracy vs degradation |
- ✅ Обрабатывает контекст на 2 порядка больше context window
- ✅ Drop-in replacement для стандартного LM API
- ✅ Модель сама решает как декомпозировать (не hardcoded workflow)
- ✅ Сравнимая или меньшая стоимость API calls
- ❌ Синхронные вызовы (нет async параллелизма)
- ❌ Нет prefix caching
- ❌ Непредсказуемая стоимость/время выполнения
- ❌ Хуже работает на counting tasks
| Подход | Фокус | RLM отличие |
|---|---|---|
| Agents (ReAct) | Problem decomposition, human-designed workflows | Context decomposition, LM decides strategy |
| RAG/Retrieval | Индексация, semantic search | Программный доступ, no index needed |
| Summarization | Фиксированные правила сжатия | Динамическая адаптивная стратегия |
| Long-context LLMs | Архитектурные изменения | Inference-time, works with any LLM |
Авторы предлагают RL-training для RLM — учить модель оптимальным стратегиям декомпозиции контекста как trainable skill.
- Blueprint paper: arXiv:2501.11223 (Besta et al.)
- DeepSeek-R1: arXiv:2501.12948
Reasoning Language Models — модели с расширенными reasoning capabilities, обученные через RL:
- OpenAI o1, o3 — proprietary
- DeepSeek-R1 — open-source, comparable to o1
- Alibaba QwQ — open-source reasoning model
┌────────────────────────────────────────────────────────┐
│ DeepSeek-R1 Training Pipeline │
├────────────────────────────────────────────────────────┤
│ │
│ DeepSeek-V3-Base │
│ │ │
│ ↓ │
│ ┌──────────────────────────────────────┐ │
│ │ Pure RL Training (GRPO) │ │
│ │ • NO supervised fine-tuning │ │
│ │ • Reward = correctness only │ │
│ │ • No constraints on reasoning process │ │
│ └──────────────────────────────────────┘ │
│ │ │
│ ↓ │
│ DeepSeek-R1-Zero │
│ (emergent reasoning patterns) │
│ │ │
│ ↓ │
│ Cold-start data + Multi-stage training │
│ │ │
│ ↓ │
│ DeepSeek-R1 (production) │
│ │
└────────────────────────────────────────────────────────┘
Революционный результат:
- AIME 2024: 15.6% → 71.0% (pass@1) после RL training
- С majority voting: 86.7% — на уровне OpenAI o1
Emergent capabilities через pure RL:
- Self-reflection
- Verification
- Dynamic strategy adaptation
- Extended chain-of-thought
┌─────────────────────────────────────────────────────────┐
│ Reasoning Language Models │
├─────────────────────────────────────────────────────────┤
│ │
│ Reasoning Structures: │
│ • Chains (CoT) │
│ • Trees (ToT) │
│ • Graphs (GoT) │
│ • Nested forms │
│ │
│ Search Strategies: │
│ • Monte Carlo Tree Search (MCTS) │
│ • Beam Search │
│ • Best-First Search │
│ │
│ RL Components: │
│ • Policy models │
│ • Value models │
│ • Reward models │
│ │
│ Supervision Schemes: │
│ • Outcome-Based Supervision (OBS) │
│ • Process-Based Supervision (PBS) │
│ │
└─────────────────────────────────────────────────────────┘
Paper: arXiv:2511.14460
Модульный фреймворк для training LLM agents через RL:
┌─────────────────────────────────────────────────────────┐
│ Agent-R1 Architecture │
├─────────────────────────────────────────────────────────┤
│ │
│ MDP Extensions for Agents: │
│ │
│ State Space: │
│ • История multi-turn interactions │
│ • Environmental feedback │
│ │
│ Action Space: │
│ • Token generation │
│ • Tool invocation commands │
│ │
│ Transitions: │
│ • Deterministic (token gen) │
│ • Stochastic (tool responses) │
│ │
│ Rewards: │
│ • Dense process rewards (intermediate steps) │
│ • Final outcome reward │
│ │
├─────────────────────────────────────────────────────────┤
│ Key Modules: │
│ │
│ Tool: Atomic actions (API calls, code exec) │
│ ToolEnv: State transitions + reward calculation │
│ │
├─────────────────────────────────────────────────────────┤
│ Training Innovations: │
│ │
│ • Action Mask — gradient только на agent tokens │
│ • Advantage Alignment — credit assignment │
│ • Process Rewards — промежуточные награды │
│ │
└─────────────────────────────────────────────────────────┘
Результаты:
- Naive RAG: 13.28% → RL methods: 33-38% exact match
- GRPO лучший overall (38.77%)
- PPO лучше на out-of-domain
Paper: arXiv:2510.04206
- Asynchronous multi-task framework
- Cross-policy sampling для exploration
- Превосходит GPT-5 и Claude-Sonnet-4 на agentic tasks
Paper: arXiv:2508.19828
Два агента с RL training:
- Memory Manager — structured memory operations
- Answer Agent — Memory Distillation policy
Training: PPO/GRPO с всего 152 QA pairs
Human Preferences → Reward Model → Policy Optimization
- Требует human annotation
- Subjective rewards
- Alignment-focused
Verifiable Task → Automatic Reward → Policy Optimization
- Unit tests, proofs, correctness checks
- Objective rewards
- Reasoning/coding focused
Тренд 2025-2026: Shift от RLHF к RLVR для reasoning tasks (DeepSeek-R1, o1).
| Тип | Фокус | Примеры |
|---|---|---|
| Recursive LM | Infinite context через self-calls | RLM (Zhang et al.) |
| Reasoning LM | Extended thinking, RL-trained | o1, DeepSeek-R1, QwQ |
| Agentic RL | Tool use, multi-turn RL | Agent-R1, AGENTRL |
| Memory RL | Long-term memory management | Memory-R1 |
- Recursive LM — решает проблему длинного контекста без архитектурных изменений
- Reasoning LM — даёт emergent reasoning через pure RL (no SFT needed!)
- Agentic RL — учит tool use и multi-turn interactions end-to-end
- RLVR > RLHF — для задач с verifiable outcomes
- Pure RL без SFT может давать emergent reasoning (DeepSeek-R1)
- Context management можно делегировать самой модели (Recursive LM)
- Dense process rewards критичны для agent training
- Action masking — важен для правильного credit assignment
- Recursive Language Models — Zhang et al.
- Reasoning Language Models: A Blueprint — Besta et al.
- DeepSeek-R1 — DeepSeek AI
- Agent-R1 — End-to-end RL for agents
- AGENTRL — Scaling agentic RL
- Memory-R1 — Memory + RL
Research compiled: 2026-01-25