Transformer 架构本质上是一个并行上下文处理器,但推理是一个顺序的、迭代的过程。 为了解决复杂问题,模型不仅需要在输出的CoT中,而且需要在内部状态中提供一个“草稿本”。这需要一种可微分的方式,让模型能够循环、分支和回溯,直到找到有效的解决方案。