arXiv: https://arxiv.org/abs/2601.15709 Авторы: Asim Biswal, Chuan Lei, Xiao Qin, Aodong Li, Balakrishnan Narayanaswamy, Tim Kraska
Идея: Вместо сырых логов агент сохраняет execution traces как структурированные программы. При новом запросе ищет семантически похожие задачи и переиспользует их логику решения.
Результаты: −25% токенов, −35% шагов, SOTA на Spider 2.0 (44.8%)
Ключевое: "Мышечная память" для агентов — не решай с нуля, опирайся на проверенные паттерны.
arXiv: https://arxiv.org/abs/2601.15778 Авторы: Jiaxin Zhang, Caiming Xiong, Chien-Sheng Wu
Идея: AI-агенты слишком самоуверенны когда ошибаются. HTC (Holistic Trajectory Calibration) анализирует всю траекторию агента, а не отдельные ответы:
- Macro dynamics — паттерны уверенности по всей траектории
- Micro stability — консистентность на уровне шагов
Результаты: Работает на 8 бенчмарках, переносится на новые домены без переобучения (GAC).
Ключевое: Смотри на всю историю работы агента — это даёт честную оценку его уверенности.