Inference-time learning (2026)

Kevin 吴嘉文大约 9 分钟

对部分 test-time compute / inference-time learning / reasoning models 的记录。

OpenAI O1

在 openai 官方open in new window发布中提到：

这里发现，随着强化学习（训练时间计算）和思考时间（测试时间计算）的增加，o1 的性能也在不断提高。这种方法的扩展限制与 LLM 预训练的限制有很大不同，这里正在继续研究。

DeepSeek-R1-Zero

在 DeepSeek-R1 论文中，aha moment 并不是由单个现象证明的，而是由一组证据共同构成的。论文中可以看到几个关键趋势：

首先，模型在 RL 训练过程中 accuracy 明显上升，说明纯 RL 确实提升了模型在复杂推理任务上的表现。
其次，average response length 也随着训练增加。论文将其解释为模型学会使用更多 thinking time，也就是在回答前进行更长的搜索、验证和推导。
第三，论文还统计了 reflective words，例如 “wait”“check”“verify”“mistake”“wrong” 等词的频率。尤其是 “wait” 这个词，在训练后期出现了明显 spike。再结合论文中的具体样例，模型在中途说出 “Wait, wait…” 并重新评估自己的解题步骤，作者将这种行为称为 aha moment。

因此，DeepSeek-R1 论文中的 aha moment 更像是一种训练后期出现的推理行为变化：

短回答 / 普通推理
→ 更长 reasoning
→ 自我检查
→ 发现可能的问题
→ 重新评估
→ 修正推理路径

也就是说，论文中的 aha moment 不是简单地说模型出现了某个词，而是模型在 RL 过程中学会了更长、更反思式的推理策略。

Aha Moment 复现结果

1. 总结：这里到底有没有观察到 “Aha Moment”？

用 3B 和 7B 模型分别在 countdown 任务上进行 GRPO/PPO，尝试观察 aha moment

分析了训练过程中部分保存下来的 595 条 response，覆盖 step 1 到 step 139。统计了正确率、response 长度和反思词频率，也进一步观察了不同训练阶段的具体样例，尝试区分“表面反思”和“真正有效的自我修正”。

最终，结论是：

:::

2. countdown 实验观察到了什么？

实验也观察到了明显的能力提升。从整体趋势看，模型正确率随着训练上升：

step 1–30:   8.6%
step 31–70:  53.7%
step 71–110: 64.1%
step 111–139: 68.0%

这说明 RL 训练确实让模型更会做 countdown 任务。

但是， 和 DeepSeek-R1 论文不同的是， response length 并没有随着训练增加，反而呈下降趋势。 早期模型经常输出很长的思维过程，但这些长 reasoning 大多是无效试错；后期模型的输出更短，却更容易正确。

更有意思的是，“wait” 这类反思词在实验中并不是后期出现，而是早期更多。早期模型经常说 “let me check”“try another approach”“this doesn’t work”， 但最后仍然得不到正确答案 。到了后期，这些反思语言反而减少，模型更多时候直接给出简洁的表达式。

这说明：

3. 从具体 response 中看到的阶段变化

通过每个阶段挑选代表性 response，这里可以更清楚地看到模型策略的变化。

在早期阶段，模型虽然会尝试很多方法，也会使用 “check”“try again” 之类的语言，但它经常违反任务规则，例如引入没有给定的数字，或者最后表达式并不等于 target。这个阶段的模型看起来“想了很多”，但实际上缺少有效约束。

到了中期，模型开始出现更有序的枚举行为。它会尝试多个候选表达式，并检查它们是否等于 target。虽然这种方式仍然比较笨拙，但已经比早期的随机试错稳定很多。

再往后，模型的枚举过程变得更加规范。它开始更频繁地明确比较候选表达式和目标值，比如 “this does not equal 29”。这说明模型学会了一个重要模式：

生成候选表达式
→ 计算结果
→ 和 target 对比
→ 不对就继续搜索

到了最后阶段，模型经常能直接找到短表达式。例如：

45 + 97 - 90 = 52

这类 response 很短，但正确、合法、格式稳定。

因此，四个阶段整体呈现出这样一条路径：

长篇混乱试错
→ 有序枚举
→ target check
→ 短表达式直接搜索

这是一种清晰的策略进步，但它并不是 DeepSeek-R1 论文中那种典型的长链反思式 aha moment。

4. 为什么结果和 DeepSeek-R1 不一样？

最重要的原因可能是： 任务不同，最优策略也不同。

DeepSeek-R1 面对的是复杂数学、代码等高难度 reasoning tasks。这类任务往往需要多步推导、条件检查、反向思考和错误修正。对于这样的任务，写更长的 reasoning、进行更多 self-reflection，可能真的能提高 reward。

但 countdown 任务不一样。它本质上是一个小型表达式搜索问题。很多题可以通过较短的结构解决，例如：

a + b - c
a - b + c
a * b - c
(a + b) / c

在这种任务中，过长的 reasoning 不一定有帮助，反而可能导致模型陷入错误循环、重复数字、引入非法数字，或者格式失败。

所以，RL 在实验中没有鼓励模型“想得更长”，而是鼓励模型“搜得更准、更快、更短”。

这也解释了为什么实验中会出现：

accuracy 上升
response length 下降
wait 频率下降
direct solve / enumerative search 上升

这并不是训练失败，而是说明模型学到了一种更适合 countdown 任务的策略。

5. 一个统一解释：奖励诱导的推理策略迁移

为了同时解释 DeepSeek-R1 论文和实验结果，这里提出一个更大的理解框架：

Reward-Induced Reasoning Policy Shift 奖励诱导的推理策略迁移。

这个框架认为，RL 并不会固定地产生某一种推理行为。它不会必然让模型输出更长，也不会必然让模型说 “wait”。RL 真正做的是：在给定任务、reward 设计、base model prior 和训练约束下，推动模型寻找更容易获得 reward 的推理策略。

换句话说，模型在 RL 中学习的是：

面对这个任务，我应该如何分配我的 token？

对于复杂数学任务，最优策略可能是：

多推导
多检查
多反思
必要时重新开始

于是这里看到 DeepSeek-R1 中的 response length 增加和 wait spike。

而对于 countdown 任务，最优策略可能是：

快速生成合法表达式
检查是否等于 target
找到答案后立即停止
减少无效解释

于是这里看到本次实验中的 response length 下降和搜索效率提升。

因此，DeepSeek-R1 的 aha moment 和这里实验中的搜索效率提升并不是矛盾的。它们可以被看作同一个机制在不同任务环境下的两种表现。

6. 这里对 “aha moment” 的重新理解

经过这次实验，我认为不能把 aha moment 简单理解为：

模型说了 wait
模型输出变长
模型用了反思词

这些只是表面信号，更合理的定义应该是：

Aha moment 是 RL 训练过程中，模型解题策略发生可观察的阶段性重组。

在 DeepSeek-R1 中，这种重组表现为：

更长 reasoning
更多 self-reflection
更多重新评估

而在 countdown 实验中，这种重组表现为：

更少无效反思
更稳定的候选搜索
更明确的 target check
更短、更直接的正确表达式

因此，aha moment 不一定总是“想得更长”。在某些任务中，它也可能表现为“想得更短、更准”。

这次实验最重要的发现不是“这里复现了 DeepSeek-R1 的 aha moment”，而是：

这里观察到了另一种 RL 诱导的推理策略迁移。

DeepSeek-R1 论文中的 aha moment 表现为模型在复杂任务中扩展 thinking time，学会更长的反思式推理。

而 countdown 实验则显示，在较简单、可验证、搜索空间有限的任务中，RL 可能会推动模型压缩无效 reasoning，形成更短、更稳定、更高效的表达式搜索策略。

Minimax-M1

RL 训练时候的一些指标。该结论与 DeepSeek-R1-Zero 类似，仅用 RL 就把 “inference-time thinking length” 提高了。

这三类都属于更偏 可验证任务 的 benchmark，所以它们反映出来的增长， 很大程度上确实是在观察 rule-based / verifiable reasoning 能力的提升 。但从论文上下文看，图片本身不太像是在严格声明“这里只分析 rule-based RL 阶段”，可能有包括了 GenRL。

后续的 M2，M2.7 相关模型都针对 RL 部分进行了更多的处理，让 Minimax 模型在 agent coding 任务上表现更佳。

Trading Inference-Time Compute for Adversarial Robustness

待续

Inference-time learning (2026)

# OpenAI O1

# DeepSeek-R1-Zero

# Aha Moment 复现结果

# 1. 总结：这里到底有没有观察到 “Aha Moment”？

# :::

# 2. countdown 实验观察到了什么？

# 3. 从具体 response 中看到的阶段变化

# 4. 为什么结果和 DeepSeek-R1 不一样？

# 5. 一个统一解释：奖励诱导的推理策略迁移

# 6. 这里对 “aha moment” 的重新理解

# Minimax-M1

# Trading Inference-Time Compute for Adversarial Robustness