Дата: 2026-01-25
Автор: Research by Claude
RLM — это НЕ один термин, а два разных концепта:
- Recursive Language Model — архитектура управления контекстом через делегирование (Prime Intellect, 2025)
- Reasoning Language Model — модели типа o1/DeepSeek-R1, обученные рассуждать через RL
Общий тренд: Reinforcement Learning стал ключевой технологией для создания reasoning и agentic capabilities в LLM.
Источник: Prime Intellect Blog, arXiv:2512.24601
Ключевая идея: Модель активно управляет своим контекстом вместо пассивного потребления.
┌─────────────────────────────────────────────────────────┐
│ Main LLM │
│ - Никогда не видит сырые данные напрямую │
│ - Имеет доступ к Python REPL │
│ - Делегирует работу sub-LLMs │
└─────────────────────────────────────────────────────────┘
│ │
▼ ▼
┌───────────┐ ┌───────────┐
│ Python │ │ Sub-LLM │
│ REPL │ │ (tools) │
└───────────┘ └───────────┘
Отличие от summarization:
- AgentFold и другие → сжимают контекст → теряют информацию
- RLM → делегирует обработку → сохраняет информацию
Преимущества:
- Работа с огромными датасетами (PDF, databases)
- Token efficiency — main LLM остаётся "lean"
- Масштабируется на long-horizon tasks (недели → месяцы)
- Можно обучать через RL
Источник: arXiv:2501.11223 — Survey paper
Определение: LLM с продвинутыми reasoning capabilities, полученными через RL-training.
Примеры:
- OpenAI o1, o3
- DeepSeek-R1
- Alibaba QwQ
- LLaMA-Berry
Ключевые компоненты:
- Chain-of-Thought reasoning
- Self-verification
- Dynamic strategy adaptation
- Test-time compute scaling
2022-2023: RLHF (alignment)
│
▼
2024: DPO (упрощение)
│
▼
2025: RLVR + GRPO (reasoning)
│
▼
2025-2026: Agentic RL (autonomous agents)
Источник: DeepSeek-R1, arXiv:2506.14245
Прорыв DeepSeek-R1:
"Reasoning abilities can be incentivized through pure RL, without human-labeled reasoning trajectories"
Как работает:
- Модель генерирует multiple reasoning paths
- Verifiable reward (math: правильный ответ, code: тесты проходят)
- Контрастивное обучение: правильные пути усиливаются
Emergent behaviors:
- Self-reflection
- Verification
- Dynamic strategy adaptation
- НЕ запрограммированы — возникают из RL
GRPO (Group Relative Policy Optimization):
# Вместо PPO с value network:
# - Sample K completions per prompt
# - Compute relative advantage within group
# - No critic model needed
advantage[i] = (reward[i] - mean(rewards)) / std(rewards)Преимущества GRPO:
- Нет value network → меньше памяти
- Проще PPO (4 LLM → 2 LLM)
- Эффективен для verifiable tasks
| Метод | Reward Model | Value Model | Use Case |
|---|---|---|---|
| PPO | ✅ | ✅ | Production LLMs (ChatGPT, Claude) |
| DPO | ❌ | ❌ | Academic benchmarks, simple alignment |
| GRPO | ✅ (verifiable) | ❌ | Reasoning tasks |
Вердикт исследований:
"PPO outperforms DPO across varied datasets... PPO is able to surpass other alignment methods in all cases" — arXiv:2404.10719
Источник: arXiv:2511.14460
Проблема: RL для LLM agents — nascent stage, много challenges.
Решение: Modular framework для RL-based LLM agents:
- Расширенный MDP framework для агентов
- Поддержка diverse task scenarios
- Validated на Multihop QA
Источник: arXiv:2502.01600
Результат:
"32B agent trained with LOOP outperforms OpenAI o1 by 9 percentage points (15% relative)"
Особенности:
- Memory-efficient PPO variant
- NO value network
- Single LLM copy in memory
- Trains directly in target environment
Emergent behaviors:
- Consult API documentation
- Avoid unfounded assumptions
- Minimize confabulation
- Recover from setbacks
Источник: arXiv:2402.19446
Архитектура:
┌─────────────────────────────────────────┐
│ High-Level RL │
│ (Off-policy, reward aggregation) │
└─────────────────────────────────────────┘
│
▼
┌─────────────────────────────────────────┐
│ Low-Level RL │
│ (Token policy within each turn) │
└─────────────────────────────────────────┘
Результат: 100x sample efficiency vs existing methods
Источник: arXiv:2503.09501
Идея: Два агента — meta-thinking + execution:
- High-level: strategic oversight, planning
- Low-level: detailed reasoning execution
"Think about thinking" — метакогнитивный подход
Источник: arXiv:2509.08755
Проблема: Нет unified RL framework для agents from scratch (без SFT).
Решение: ScalingInter-RL:
- Начало: exploitation (ограничен # interactions)
- Постепенно: exploration (увеличиваем horizon)
Результат: Matches или exceeds commercial models на 27 tasks
Источник: arXiv:2408.03314, arXiv:2506.12928
Ключевое открытие:
"Performance consistently improves with more RL (train-time) AND more thinking (test-time compute)"
Стратегии test-time scaling:
- Parallel sampling (generate N solutions)
- Sequential revision
- Verifiers + merging
- Rollout diversification
Результаты:
- RL^V: +20% на MATH с parallel sampling
- 8-32x efficient test-time compute scaling
OpenAI o3 insight:
"Sophisticated test-time techniques emerged during training — generating brute-force solutions to verify outputs"
Источник: arXiv:2509.02547
Paradigm shift:
Classic LLM-RL: Single-step MDP
│
▼
Agentic RL: POMDP (Partially Observable)
+ Multi-turn
+ Tool use
+ Memory
Core capabilities (enabled by RL):
- Planning — long-horizon reasoning
- Tool utilization — API calls, code execution
- Memory systems — episodic, semantic
- Reasoning — CoT, self-correction
- Self-improvement — learning from mistakes
- Perception — multimodal understanding
| Framework | Focus | Key Feature |
|---|---|---|
| Agent-R1 | General agents | Modular MDP |
| LOOP | Long-horizon | Memory-efficient PPO |
| ArCHer | Multi-turn | Hierarchical RL |
| AgentGym-RL | From scratch | ScalingInter-RL |
| Memory-R1 | Memory-augmented | RAG + PPO/GRPO |
- RLVR + GRPO — основной подход (DeepSeek-R1)
- Emergent behaviors — возникают из RL, не программируются
- Test-time compute — scaling law работает
- Multi-turn RL — ключевой challenge
- Hierarchical approaches — ArCHer, ReMA
- Environment training — LOOP показывает превосходство
- Context management через RL (Recursive LM)
- Long-horizon agents (weeks → months)
- Unified frameworks (AgentGym-RL)
- DeepSeek-R1 — RLVR для reasoning
- Agent-R1 — RL framework для agents
- LOOP — long-horizon agents
- ArCHer — hierarchical multi-turn RL
- GRPO original — DeepSeekMath