如果这个问题很蠢,请见谅,但是实验室是否也在对原生摘要/压缩形式进行强化学习模型? 比如,我们不再像以前那样只进行一次推理,在得出答案之前使用大量的思考标记,而是进行多次推理,让下一次推理可以访问前一次推理生成的摘要? 所以,与其说是“思考思考思考→回答”,不如说是“思考思考思考→总结→思考思考思考→总结→思考思考思考→回答”,然后我们就以此为基础进行RL(实时学习)? 我的意思是,人类确实就是这样解决问题的。我们不会把所有的推理过程都记在脑子里,我们会有一些顿悟/灵感,让我们能够过滤掉干扰信息,并在真正解决问题之前逐步构建出更完善的问题心智模型(即问题概括)。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。