RLM для Agents: Recursive & Reasoning Language Models

Дата: 2026-01-25
Автор исследования: Claude + niquola

TL;DR

RLM — это термин с двумя значениями в современном AI:

Recursive Language Models (Alex Zhang, MIT) — inference-time стратегия, где LLM рекурсивно вызывает себя для обработки сколь угодно длинного контекста
Reasoning Language Models (o1, DeepSeek-R1, QwQ) — модели с расширенными reasoning capabilities через RL training

Оба направления критически важны для построения мощных AI agents.

1. Recursive Language Models (RLM)

Источники

Paper: arXiv:2512.24601
Blog: alexzhang13.github.io/blog/2025/rlm
Code: github.com/alexzhang13/rlm
Prime Intellect: primeintellect.ai/blog/rlm

Авторы

Alex L. Zhang (MIT CSAIL), Tim Kraska, Omar Khattab

Ключевая идея

RLM позволяет LLM обрабатывать неограниченно длинный контекст через рекурсивную самовызовную архитектуру:

┌─────────────────────────────────────────────────────────┐
│  User Query                                              │
│       ↓                                                  │
│  ┌─────────────┐                                        │
│  │ Root LM     │ ← Видит ТОЛЬКО query, НЕ весь контекст │
│  │ (depth=0)   │                                        │
│  └──────┬──────┘                                        │
│         │ Пишет Python код                              │
│         ↓                                                │
│  ┌─────────────────────────────────────┐                │
│  │ Python REPL Environment             │                │
│  │ ┌─────────────────────────────────┐ │                │
│  │ │ context = "... 10M+ tokens ..." │ │                │
│  │ └─────────────────────────────────┘ │                │
│  │                                     │                │
│  │ # Root LM пишет:                    │                │
│  │ chunks = split(context, 1000)       │                │
│  │ results = []                        │                │
│  │ for chunk in chunks:                │                │
│  │     r = llm(query, chunk)  # ←──────┼── Sub-LM call  │
│  │     results.append(r)               │    (depth=1)   │
│  │ FINAL(aggregate(results))           │                │
│  └─────────────────────────────────────┘                │
└─────────────────────────────────────────────────────────┘

Как это работает

Root LM (depth=0) получает только query
Контекст хранится как переменная в Python REPL
Root LM пишет код для исследования/нарезки контекста
Рекурсивные вызовы llm(sub_query, chunk) обрабатывают части
Результаты агрегируются, возвращаются через FINAL(answer)

Emergent Strategies (паттерны поведения)

Стратегия	Описание
Peeking	Сначала смотрит начало контекста, понимает структуру
Grepping	Regex/keyword поиск вместо семантического retrieval
Partition + Map	Режет на куски, параллельные sub-calls
Summarization	Суммирует части для решения наверху
Programmatic	One-shot через код (diff tracking и т.п.)

Результаты экспериментов

Benchmark	Задача	RLM vs Baseline
OOLONG (132k tokens)	Semantic mapping	RLM(GPT-5-mini) +34 pts vs GPT-5 (+114%)
OOLONG (263k tokens)	Long context	RLM(GPT-5-mini) +15 pts vs GPT-5
BrowseComp+ (10M+ tokens)	Multi-hop QA, 1000 docs	RLM(GPT-5) 100% accuracy vs degradation

Преимущества

✅ Обрабатывает контекст на 2 порядка больше context window
✅ Drop-in replacement для стандартного LM API
✅ Модель сама решает как декомпозировать (не hardcoded workflow)
✅ Сравнимая или меньшая стоимость API calls

Ограничения

❌ Синхронные вызовы (нет async параллелизма)
❌ Нет prefix caching
❌ Непредсказуемая стоимость/время выполнения
❌ Хуже работает на counting tasks

Отличие от других подходов

Подход	Фокус	RLM отличие
Agents (ReAct)	Problem decomposition, human-designed workflows	Context decomposition, LM decides strategy
RAG/Retrieval	Индексация, semantic search	Программный доступ, no index needed
Summarization	Фиксированные правила сжатия	Динамическая адаптивная стратегия
Long-context LLMs	Архитектурные изменения	Inference-time, works with any LLM

Будущее направление

Авторы предлагают RL-training для RLM — учить модель оптимальным стратегиям декомпозиции контекста как trainable skill.

2. Reasoning Language Models (RLMs / LRMs)

Источники

Blueprint paper: arXiv:2501.11223 (Besta et al.)
DeepSeek-R1: arXiv:2501.12948

Что это

Reasoning Language Models — модели с расширенными reasoning capabilities, обученные через RL:

OpenAI o1, o3 — proprietary
DeepSeek-R1 — open-source, comparable to o1
Alibaba QwQ — open-source reasoning model

DeepSeek-R1: Ключевые инновации

┌────────────────────────────────────────────────────────┐
│ DeepSeek-R1 Training Pipeline                          │
├────────────────────────────────────────────────────────┤
│                                                        │
│  DeepSeek-V3-Base                                      │
│        │                                               │
│        ↓                                               │
│  ┌──────────────────────────────────────┐              │
│  │ Pure RL Training (GRPO)              │              │
│  │ • NO supervised fine-tuning          │              │
│  │ • Reward = correctness only          │              │
│  │ • No constraints on reasoning process │              │
│  └──────────────────────────────────────┘              │
│        │                                               │
│        ↓                                               │
│  DeepSeek-R1-Zero                                      │
│  (emergent reasoning patterns)                         │
│        │                                               │
│        ↓                                               │
│  Cold-start data + Multi-stage training               │
│        │                                               │
│        ↓                                               │
│  DeepSeek-R1 (production)                              │
│                                                        │
└────────────────────────────────────────────────────────┘

Революционный результат:

AIME 2024: 15.6% → 71.0% (pass@1) после RL training
С majority voting: 86.7% — на уровне OpenAI o1

Emergent capabilities через pure RL:

Self-reflection
Verification
Dynamic strategy adaptation
Extended chain-of-thought

RLM Blueprint: Таксономия компонентов

┌─────────────────────────────────────────────────────────┐
│                 Reasoning Language Models               │
├─────────────────────────────────────────────────────────┤
│                                                         │
│  Reasoning Structures:                                  │
│  • Chains (CoT)                                         │
│  • Trees (ToT)                                          │
│  • Graphs (GoT)                                         │
│  • Nested forms                                         │
│                                                         │
│  Search Strategies:                                     │
│  • Monte Carlo Tree Search (MCTS)                       │
│  • Beam Search                                          │
│  • Best-First Search                                    │
│                                                         │
│  RL Components:                                         │
│  • Policy models                                        │
│  • Value models                                         │
│  • Reward models                                        │
│                                                         │
│  Supervision Schemes:                                   │
│  • Outcome-Based Supervision (OBS)                      │
│  • Process-Based Supervision (PBS)                      │
│                                                         │
└─────────────────────────────────────────────────────────┘

3. RL Training для Agents

Agent-R1: End-to-End RL для LLM Agents

Paper: arXiv:2511.14460

Модульный фреймворк для training LLM agents через RL:

┌─────────────────────────────────────────────────────────┐
│  Agent-R1 Architecture                                  │
├─────────────────────────────────────────────────────────┤
│                                                         │
│  MDP Extensions for Agents:                             │
│                                                         │
│  State Space:                                           │
│  • История multi-turn interactions                      │
│  • Environmental feedback                               │
│                                                         │
│  Action Space:                                          │
│  • Token generation                                     │
│  • Tool invocation commands                             │
│                                                         │
│  Transitions:                                           │
│  • Deterministic (token gen)                            │
│  • Stochastic (tool responses)                          │
│                                                         │
│  Rewards:                                               │
│  • Dense process rewards (intermediate steps)           │
│  • Final outcome reward                                 │
│                                                         │
├─────────────────────────────────────────────────────────┤
│  Key Modules:                                           │
│                                                         │
│  Tool: Atomic actions (API calls, code exec)            │
│  ToolEnv: State transitions + reward calculation        │
│                                                         │
├─────────────────────────────────────────────────────────┤
│  Training Innovations:                                  │
│                                                         │
│  • Action Mask — gradient только на agent tokens        │
│  • Advantage Alignment — credit assignment              │
│  • Process Rewards — промежуточные награды              │
│                                                         │
└─────────────────────────────────────────────────────────┘

Результаты:

Naive RAG: 13.28% → RL methods: 33-38% exact match
GRPO лучший overall (38.77%)
PPO лучше на out-of-domain

AGENTRL: Scaling Agentic RL

Paper: arXiv:2510.04206

Asynchronous multi-task framework
Cross-policy sampling для exploration
Превосходит GPT-5 и Claude-Sonnet-4 на agentic tasks

Memory-R1: RL для Agent Memory

Paper: arXiv:2508.19828

Два агента с RL training:

Memory Manager — structured memory operations
Answer Agent — Memory Distillation policy

Training: PPO/GRPO с всего 152 QA pairs

4. RLHF vs RLVR: Эволюция подходов

RLHF (Reinforcement Learning from Human Feedback)

Human Preferences → Reward Model → Policy Optimization

Требует human annotation
Subjective rewards
Alignment-focused

RLVR (Reinforcement Learning with Verifiable Rewards)

Verifiable Task → Automatic Reward → Policy Optimization

Unit tests, proofs, correctness checks
Objective rewards
Reasoning/coding focused

Тренд 2025-2026: Shift от RLHF к RLVR для reasoning tasks (DeepSeek-R1, o1).

5. Taxonomy: Типы RLM для Agents

Тип	Фокус	Примеры
Recursive LM	Infinite context через self-calls	RLM (Zhang et al.)
Reasoning LM	Extended thinking, RL-trained	o1, DeepSeek-R1, QwQ
Agentic RL	Tool use, multi-turn RL	Agent-R1, AGENTRL
Memory RL	Long-term memory management	Memory-R1

6. Практические выводы

Для построения agents:

Recursive LM — решает проблему длинного контекста без архитектурных изменений
Reasoning LM — даёт emergent reasoning через pure RL (no SFT needed!)
Agentic RL — учит tool use и multi-turn interactions end-to-end
RLVR > RLHF — для задач с verifiable outcomes

Key insights:

Pure RL без SFT может давать emergent reasoning (DeepSeek-R1)
Context management можно делегировать самой модели (Recursive LM)
Dense process rewards критичны для agent training
Action masking — важен для правильного credit assignment

7. Ссылки

Papers

Recursive Language Models — Zhang et al.
Reasoning Language Models: A Blueprint — Besta et al.
DeepSeek-R1 — DeepSeek AI
Agent-R1 — End-to-end RL for agents
AGENTRL — Scaling agentic RL
Memory-R1 — Memory + RL

Code

Blogs

Research compiled: 2026-01-25

niquola/research-rlm-agents-2026-01-25.md

Select an option

No results found

Select an option

No results found

RLM для Agents: Recursive & Reasoning Language Models

TL;DR

1. Recursive Language Models (RLM)

Источники

Авторы

Ключевая идея

Как это работает

Emergent Strategies (паттерны поведения)

Результаты экспериментов

Преимущества

Ограничения

Отличие от других подходов

Будущее направление

2. Reasoning Language Models (RLMs / LRMs)

Источники

Что это

DeepSeek-R1: Ключевые инновации

RLM Blueprint: Таксономия компонентов

3. RL Training для Agents

Agent-R1: End-to-End RL для LLM Agents

AGENTRL: Scaling Agentic RL

Memory-R1: RL для Agent Memory

4. RLHF vs RLVR: Эволюция подходов

RLHF (Reinforcement Learning from Human Feedback)

RLVR (Reinforcement Learning with Verifiable Rewards)

5. Taxonomy: Типы RLM для Agents

6. Практические выводы

Для построения agents:

Key insights:

7. Ссылки

Papers

Code

Blogs