V3.2 版本似乎也印证了这一点,虽然方式略逊一筹,但本质上却很相似。LLM 普遍给它打 9 分(满分 10 分),而人工测试的结果则为 10 分。Gemini 的测试结果只有 4 分。Gemini 的 API 版本给我带来了一些瑕疵。
我们需要服用陶鲸药丸。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 2 条推文 · 2025年12月3日 00:13
V3.2 版本似乎也印证了这一点,虽然方式略逊一筹,但本质上却很相似。LLM 普遍给它打 9 分(满分 10 分),而人工测试的结果则为 10 分。Gemini 的测试结果只有 4 分。Gemini 的 API 版本给我带来了一些瑕疵。
我们需要服用陶鲸药丸。