为了初步了解模型的性能,我不会用任何特定的“能力”来测试它。我只是重复使用一个大约 6 万字的、未经训练但我很熟悉且理解透彻的上下文,然后进行反复测试。我观察自己能学到多少东西,以及模型究竟是如何失效或彻底崩溃的。 你需要自己的语境。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 1 条推文 · 2025年12月12日 00:32
为了初步了解模型的性能,我不会用任何特定的“能力”来测试它。我只是重复使用一个大约 6 万字的、未经训练但我很熟悉且理解透彻的上下文,然后进行反复测试。我观察自己能学到多少东西,以及模型究竟是如何失效或彻底崩溃的。 你需要自己的语境。