Skip to content

Instantly share code, notes, and snippets.

@niquola
Created January 25, 2026 00:15
Show Gist options
  • Select an option

  • Save niquola/5cb9fa3853177a3e275cbef50b435375 to your computer and use it in GitHub Desktop.

Select an option

Save niquola/5cb9fa3853177a3e275cbef50b435375 to your computer and use it in GitHub Desktop.
RLM (Recursive/Reasoning Language Models) - Deep Research Report

RLM для Agents: Recursive & Reasoning Language Models

Дата: 2026-01-25
Автор исследования: Claude + niquola


TL;DR

RLM — это термин с двумя значениями в современном AI:

  1. Recursive Language Models (Alex Zhang, MIT) — inference-time стратегия, где LLM рекурсивно вызывает себя для обработки сколь угодно длинного контекста
  2. Reasoning Language Models (o1, DeepSeek-R1, QwQ) — модели с расширенными reasoning capabilities через RL training

Оба направления критически важны для построения мощных AI agents.


1. Recursive Language Models (RLM)

Источники

Авторы

Alex L. Zhang (MIT CSAIL), Tim Kraska, Omar Khattab

Ключевая идея

RLM позволяет LLM обрабатывать неограниченно длинный контекст через рекурсивную самовызовную архитектуру:

┌─────────────────────────────────────────────────────────┐
│  User Query                                              │
│       ↓                                                  │
│  ┌─────────────┐                                        │
│  │ Root LM     │ ← Видит ТОЛЬКО query, НЕ весь контекст │
│  │ (depth=0)   │                                        │
│  └──────┬──────┘                                        │
│         │ Пишет Python код                              │
│         ↓                                                │
│  ┌─────────────────────────────────────┐                │
│  │ Python REPL Environment             │                │
│  │ ┌─────────────────────────────────┐ │                │
│  │ │ context = "... 10M+ tokens ..." │ │                │
│  │ └─────────────────────────────────┘ │                │
│  │                                     │                │
│  │ # Root LM пишет:                    │                │
│  │ chunks = split(context, 1000)       │                │
│  │ results = []                        │                │
│  │ for chunk in chunks:                │                │
│  │     r = llm(query, chunk)  # ←──────┼── Sub-LM call  │
│  │     results.append(r)               │    (depth=1)   │
│  │ FINAL(aggregate(results))           │                │
│  └─────────────────────────────────────┘                │
└─────────────────────────────────────────────────────────┘

Как это работает

  1. Root LM (depth=0) получает только query
  2. Контекст хранится как переменная в Python REPL
  3. Root LM пишет код для исследования/нарезки контекста
  4. Рекурсивные вызовы llm(sub_query, chunk) обрабатывают части
  5. Результаты агрегируются, возвращаются через FINAL(answer)

Emergent Strategies (паттерны поведения)

Стратегия Описание
Peeking Сначала смотрит начало контекста, понимает структуру
Grepping Regex/keyword поиск вместо семантического retrieval
Partition + Map Режет на куски, параллельные sub-calls
Summarization Суммирует части для решения наверху
Programmatic One-shot через код (diff tracking и т.п.)

Результаты экспериментов

Benchmark Задача RLM vs Baseline
OOLONG (132k tokens) Semantic mapping RLM(GPT-5-mini) +34 pts vs GPT-5 (+114%)
OOLONG (263k tokens) Long context RLM(GPT-5-mini) +15 pts vs GPT-5
BrowseComp+ (10M+ tokens) Multi-hop QA, 1000 docs RLM(GPT-5) 100% accuracy vs degradation

Преимущества

  • ✅ Обрабатывает контекст на 2 порядка больше context window
  • Drop-in replacement для стандартного LM API
  • ✅ Модель сама решает как декомпозировать (не hardcoded workflow)
  • ✅ Сравнимая или меньшая стоимость API calls

Ограничения

  • ❌ Синхронные вызовы (нет async параллелизма)
  • ❌ Нет prefix caching
  • ❌ Непредсказуемая стоимость/время выполнения
  • ❌ Хуже работает на counting tasks

Отличие от других подходов

Подход Фокус RLM отличие
Agents (ReAct) Problem decomposition, human-designed workflows Context decomposition, LM decides strategy
RAG/Retrieval Индексация, semantic search Программный доступ, no index needed
Summarization Фиксированные правила сжатия Динамическая адаптивная стратегия
Long-context LLMs Архитектурные изменения Inference-time, works with any LLM

Будущее направление

Авторы предлагают RL-training для RLM — учить модель оптимальным стратегиям декомпозиции контекста как trainable skill.


2. Reasoning Language Models (RLMs / LRMs)

Источники

Что это

Reasoning Language Models — модели с расширенными reasoning capabilities, обученные через RL:

  • OpenAI o1, o3 — proprietary
  • DeepSeek-R1 — open-source, comparable to o1
  • Alibaba QwQ — open-source reasoning model

DeepSeek-R1: Ключевые инновации

┌────────────────────────────────────────────────────────┐
│ DeepSeek-R1 Training Pipeline                          │
├────────────────────────────────────────────────────────┤
│                                                        │
│  DeepSeek-V3-Base                                      │
│        │                                               │
│        ↓                                               │
│  ┌──────────────────────────────────────┐              │
│  │ Pure RL Training (GRPO)              │              │
│  │ • NO supervised fine-tuning          │              │
│  │ • Reward = correctness only          │              │
│  │ • No constraints on reasoning process │              │
│  └──────────────────────────────────────┘              │
│        │                                               │
│        ↓                                               │
│  DeepSeek-R1-Zero                                      │
│  (emergent reasoning patterns)                         │
│        │                                               │
│        ↓                                               │
│  Cold-start data + Multi-stage training               │
│        │                                               │
│        ↓                                               │
│  DeepSeek-R1 (production)                              │
│                                                        │
└────────────────────────────────────────────────────────┘

Революционный результат:

  • AIME 2024: 15.6% → 71.0% (pass@1) после RL training
  • С majority voting: 86.7% — на уровне OpenAI o1

Emergent capabilities через pure RL:

  • Self-reflection
  • Verification
  • Dynamic strategy adaptation
  • Extended chain-of-thought

RLM Blueprint: Таксономия компонентов

┌─────────────────────────────────────────────────────────┐
│                 Reasoning Language Models               │
├─────────────────────────────────────────────────────────┤
│                                                         │
│  Reasoning Structures:                                  │
│  • Chains (CoT)                                         │
│  • Trees (ToT)                                          │
│  • Graphs (GoT)                                         │
│  • Nested forms                                         │
│                                                         │
│  Search Strategies:                                     │
│  • Monte Carlo Tree Search (MCTS)                       │
│  • Beam Search                                          │
│  • Best-First Search                                    │
│                                                         │
│  RL Components:                                         │
│  • Policy models                                        │
│  • Value models                                         │
│  • Reward models                                        │
│                                                         │
│  Supervision Schemes:                                   │
│  • Outcome-Based Supervision (OBS)                      │
│  • Process-Based Supervision (PBS)                      │
│                                                         │
└─────────────────────────────────────────────────────────┘

3. RL Training для Agents

Agent-R1: End-to-End RL для LLM Agents

Paper: arXiv:2511.14460

Модульный фреймворк для training LLM agents через RL:

┌─────────────────────────────────────────────────────────┐
│  Agent-R1 Architecture                                  │
├─────────────────────────────────────────────────────────┤
│                                                         │
│  MDP Extensions for Agents:                             │
│                                                         │
│  State Space:                                           │
│  • История multi-turn interactions                      │
│  • Environmental feedback                               │
│                                                         │
│  Action Space:                                          │
│  • Token generation                                     │
│  • Tool invocation commands                             │
│                                                         │
│  Transitions:                                           │
│  • Deterministic (token gen)                            │
│  • Stochastic (tool responses)                          │
│                                                         │
│  Rewards:                                               │
│  • Dense process rewards (intermediate steps)           │
│  • Final outcome reward                                 │
│                                                         │
├─────────────────────────────────────────────────────────┤
│  Key Modules:                                           │
│                                                         │
│  Tool: Atomic actions (API calls, code exec)            │
│  ToolEnv: State transitions + reward calculation        │
│                                                         │
├─────────────────────────────────────────────────────────┤
│  Training Innovations:                                  │
│                                                         │
│  • Action Mask — gradient только на agent tokens        │
│  • Advantage Alignment — credit assignment              │
│  • Process Rewards — промежуточные награды              │
│                                                         │
└─────────────────────────────────────────────────────────┘

Результаты:

  • Naive RAG: 13.28% → RL methods: 33-38% exact match
  • GRPO лучший overall (38.77%)
  • PPO лучше на out-of-domain

AGENTRL: Scaling Agentic RL

Paper: arXiv:2510.04206

  • Asynchronous multi-task framework
  • Cross-policy sampling для exploration
  • Превосходит GPT-5 и Claude-Sonnet-4 на agentic tasks

Memory-R1: RL для Agent Memory

Paper: arXiv:2508.19828

Два агента с RL training:

  1. Memory Manager — structured memory operations
  2. Answer Agent — Memory Distillation policy

Training: PPO/GRPO с всего 152 QA pairs


4. RLHF vs RLVR: Эволюция подходов

RLHF (Reinforcement Learning from Human Feedback)

Human Preferences → Reward Model → Policy Optimization
  • Требует human annotation
  • Subjective rewards
  • Alignment-focused

RLVR (Reinforcement Learning with Verifiable Rewards)

Verifiable Task → Automatic Reward → Policy Optimization
  • Unit tests, proofs, correctness checks
  • Objective rewards
  • Reasoning/coding focused

Тренд 2025-2026: Shift от RLHF к RLVR для reasoning tasks (DeepSeek-R1, o1).


5. Taxonomy: Типы RLM для Agents

Тип Фокус Примеры
Recursive LM Infinite context через self-calls RLM (Zhang et al.)
Reasoning LM Extended thinking, RL-trained o1, DeepSeek-R1, QwQ
Agentic RL Tool use, multi-turn RL Agent-R1, AGENTRL
Memory RL Long-term memory management Memory-R1

6. Практические выводы

Для построения agents:

  1. Recursive LM — решает проблему длинного контекста без архитектурных изменений
  2. Reasoning LM — даёт emergent reasoning через pure RL (no SFT needed!)
  3. Agentic RL — учит tool use и multi-turn interactions end-to-end
  4. RLVR > RLHF — для задач с verifiable outcomes

Key insights:

  • Pure RL без SFT может давать emergent reasoning (DeepSeek-R1)
  • Context management можно делегировать самой модели (Recursive LM)
  • Dense process rewards критичны для agent training
  • Action masking — важен для правильного credit assignment

7. Ссылки

Papers

Code

Blogs


Research compiled: 2026-01-25

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment