开启时会模糊预览图,关闭后正常显示

It's remarkable that Opus, Gemini and DeepSeek all conclude that Proof C (DeepSeek) is either human-written or indeed from DeepSeek. GPT 5.1 labels it "human" and then assigns both its own output (rating it 2/10!) and actual human proof to itself. of note, Opus on DS-Math V2:

![[论文解读] 从代码基础模型到智能体与应用:代码智能实践指南
论文总结了当前最前沿的技术,还手把手地展示了如何从零开始构建和应用代码智能——从基础模型训练一直讲到能够独立写代码的 AI Agents。
核心主题:代码智能的“全生命周期”百科全书
好比一本 “AI 程序员养成手册”。没有局限于某一个具体算法,而是系统性地梳理了代码大模型从诞生到落地的完整流程:
· 数据准备:AI读什么书(如何清洗和筛选高质量代码数据)
· 预训练:打基础(如何让模型理解编程语言的语法和逻辑)
· 微调:学技能(如何教模型回答编程问题、修 Bug)
· 强化学习:精进(如何通过反馈让模型写出的代码质量更高)
· 自主智能体:最终形态(如何让 AI 像真正的工程师一样,自主规划、写码、调试、部署)
关键看点与对比
论文对市面上的两大类“选手”进行了深入的对比评测:
· 通用全能型选手:如 GPT-4, Claude, LLaMA。它们什么都懂,写代码也不错。
· 代码专用型选手:如 StarCoder, Code LLaMA, DeepSeek-Coder, QwenCoder。它们专攻编程,往往在特定编程任务上性价比更高。
结论是:虽然通用模型很强,但经过专门优化的代码模型在处理复杂工程问题时,往往能提供更精准、更符合开发者习惯的帮助。
痛点剖析:学术界 vs 工业界的“代沟”
这是这篇论文最接地气的地方,直接指出了“刷榜分高”不等于“好用”:
· 学术界喜欢看 HumanEval 这种简单的算法题跑分(比如“写一个斐波那契数列”)。
· 工业界(真实开发)面对的是:庞大的代码库、复杂的依赖关系、代码安全性、以及如何与现有的开发流集成。
· 论文详细探讨了如何填补这个鸿沟,让AI不仅仅是“做题家”,而是能真正干活的“工程师”。
未来趋势:从 “Copilot” 到 “Agent”
· 过去/现在:Copilot 模式。你需要一步步告诉 AI “写个函数”、“解释这段代码”,它被动响应。
· 未来:Agent 模式。你只需要说“帮我给登录页面加个验证码功能”,AI 就会自己去阅读现有代码 -> 规划修改方案 -> 写代码 -> 运行测试 -> 修复报错 -> 提交代码。
今年具有代表性的工具,如 Github Copilot, Cursor, Trae, Claude Code, OpenAI CodeX 等正在引领这种从“辅助”到“智能体”的转变。
论文地址 [论文解读] 从代码基础模型到智能体与应用:代码智能实践指南
论文总结了当前最前沿的技术,还手把手地展示了如何从零开始构建和应用代码智能——从基础模型训练一直讲到能够独立写代码的 AI Agents。
核心主题:代码智能的“全生命周期”百科全书
好比一本 “AI 程序员养成手册”。没有局限于某一个具体算法,而是系统性地梳理了代码大模型从诞生到落地的完整流程:
· 数据准备:AI读什么书(如何清洗和筛选高质量代码数据)
· 预训练:打基础(如何让模型理解编程语言的语法和逻辑)
· 微调:学技能(如何教模型回答编程问题、修 Bug)
· 强化学习:精进(如何通过反馈让模型写出的代码质量更高)
· 自主智能体:最终形态(如何让 AI 像真正的工程师一样,自主规划、写码、调试、部署)
关键看点与对比
论文对市面上的两大类“选手”进行了深入的对比评测:
· 通用全能型选手:如 GPT-4, Claude, LLaMA。它们什么都懂,写代码也不错。
· 代码专用型选手:如 StarCoder, Code LLaMA, DeepSeek-Coder, QwenCoder。它们专攻编程,往往在特定编程任务上性价比更高。
结论是:虽然通用模型很强,但经过专门优化的代码模型在处理复杂工程问题时,往往能提供更精准、更符合开发者习惯的帮助。
痛点剖析:学术界 vs 工业界的“代沟”
这是这篇论文最接地气的地方,直接指出了“刷榜分高”不等于“好用”:
· 学术界喜欢看 HumanEval 这种简单的算法题跑分(比如“写一个斐波那契数列”)。
· 工业界(真实开发)面对的是:庞大的代码库、复杂的依赖关系、代码安全性、以及如何与现有的开发流集成。
· 论文详细探讨了如何填补这个鸿沟,让AI不仅仅是“做题家”,而是能真正干活的“工程师”。
未来趋势:从 “Copilot” 到 “Agent”
· 过去/现在:Copilot 模式。你需要一步步告诉 AI “写个函数”、“解释这段代码”,它被动响应。
· 未来:Agent 模式。你只需要说“帮我给登录页面加个验证码功能”,AI 就会自己去阅读现有代码 -> 规划修改方案 -> 写代码 -> 运行测试 -> 修复报错 -> 提交代码。
今年具有代表性的工具,如 Github Copilot, Cursor, Trae, Claude Code, OpenAI CodeX 等正在引领这种从“辅助”到“智能体”的转变。
论文地址](/_next/image?url=https%3A%2F%2Fpbs.twimg.com%2Fmedia%2FG7NF17mbAAAlr6b.jpg&w=3840&q=75)
邵猛,中年失业程序员 😂 专注 - Context Engineering, AI Agents. 分享 - AI papers, apps and OSS. ex Microsoft MVP 合作 - 私信/邮箱:shaomeng@outlook.com 📢 公众号/小红书: AI 启蒙小伙伴


Deeply researched product, growth, and career advice


We're sharing/showcasing best of @github projects/repos. Follow to stay in loop. Promoting Open-Source Contributions. UNOFFICIAL, but followed by github


邵猛,中年失业程序员 😂 专注 - Context Engineering, AI Agents. 分享 - AI papers, apps and OSS. ex Microsoft MVP 合作 - 私信/邮箱:shaomeng@outlook.com 📢 公众号/小红书: AI 启蒙小伙伴


我的AI编程课(https://t.co/HVZn3ItASW) |B站up主 | 分享创造 + 无限迭代ing
