LogoThread Easy
  • 探索
  • 線程創作
LogoThread Easy

Twitter 線程的一站式夥伴

© 2025 Thread Easy All Rights Reserved.

探索

Newest first — browse tweet threads

Keep on to blur preview images; turn off to show them clearly

RT @shaogefenhao: 虽然这钱很心疼,但是其实只要不花自己的钱没必要管,也管不了。

老人、小孩乱花钱其实都是惯的:因为他们知道自己有人兜底,久了不挣钱就对钱没概念。

我小时候一块钱零花钱需要用一周,所以学会了精打细算和讲价。…

RT @shaogefenhao: 虽然这钱很心疼,但是其实只要不花自己的钱没必要管,也管不了。 老人、小孩乱花钱其实都是惯的:因为他们知道自己有人兜底,久了不挣钱就对钱没概念。 我小时候一块钱零花钱需要用一周,所以学会了精打细算和讲价。…

Programmer | Growth Coach|Helping creators build their personal brand on X 公众号:PandaTalk8

avatar for Mr Panda
Mr Panda
Wed Nov 05 04:11:56
DataRater论文解读
这是一篇由Google DeepMind团队发表的关于自动化数据集筛选的重要研究论文。

一、核心问题
传统数据筛选的困境:
>目前大语言模型的训练严重依赖人工设计的启发式规则来筛选数据
>需要手动调整不同数据源的混合比例
>这种方法耗时、低效,且难以扩展
未来挑战: 随着合成数据的大量出现,如何从海量、质量参差不齐的数据中自动识别高价值数据变得更加迫切。

二、DataRater方法
核心思想
DataRater通过元学习来估计每个数据点的训练价值,使用"元梯度"进行优化,目标是提高在留出数据集上的训练效率。

工作原理
>元学习框架:训练一个DataRater模型来给每个数据样本打分
>双层优化:
- 内层:使用加权数据训练语言模型
- 外层:通过元梯度优化DataRater的评分标准
>在线过滤:根据DataRater评分,实时筛选batch中质量最高的数据

三、主要实验结果
计算效率提升显著
>在1B参数模型上,使用DataRater过滤数据后:
>The Pile数据集:净计算收益达46.6%(过滤掉75%数据)
>C4/noclean数据集:净计算收益达39.7%(过滤掉50%数据)
>C4数据集:净计算收益达22.4%(过滤掉10%数据)

跨模型规模泛化
>使用400M参数的内层模型训练的DataRater,能够有效泛化到50M至1B参数的不同规模模型上,且最优数据丢弃比例在不同模型规模间保持一致。

数据质量识别
DataRater学会识别并降低低质量数据的权重,包括:
>错误的文本编码
>OCR错误
>大量空白字符
>无关内容

四、DataRater学到了什么?
分析显示,DataRater评分与以下因素相关:
>正相关:打包子序列数量、文本长度、词数
>负相关:非字母数字字符比例、标点符号比例

对比实验表明,DataRater在21个评估中的16个优于基于困惑度的过滤方法

五、方法优势
>自动化:无需手动设计筛选规则
>细粒度:可以对单个数据样本评分
>高效:使用元梯度比黑盒方法更样本高效
>可扩展:适用于低质量数据集效果尤其显著

六、局限性
论文也坦诚讨论了几个局限:
>元目标敏感性:效果依赖于元目标的选择
>潜在偏见放大:如果元目标数据有偏见,可能被放大
>计算可扩展性:对于超大规模模型,元梯度计算仍有挑战

七、重要意义
这项工作为自动化数据管理提供了新思路,特别是在合成数据时代,这种能够自动学习数据价值的方法将变得越来越重要。它从"手动指定如何筛选"转向"指定想要什么结果,让系统自动学习如何筛选"。

DataRater论文解读 这是一篇由Google DeepMind团队发表的关于自动化数据集筛选的重要研究论文。 一、核心问题 传统数据筛选的困境: >目前大语言模型的训练严重依赖人工设计的启发式规则来筛选数据 >需要手动调整不同数据源的混合比例 >这种方法耗时、低效,且难以扩展 未来挑战: 随着合成数据的大量出现,如何从海量、质量参差不齐的数据中自动识别高价值数据变得更加迫切。 二、DataRater方法 核心思想 DataRater通过元学习来估计每个数据点的训练价值,使用"元梯度"进行优化,目标是提高在留出数据集上的训练效率。 工作原理 >元学习框架:训练一个DataRater模型来给每个数据样本打分 >双层优化: - 内层:使用加权数据训练语言模型 - 外层:通过元梯度优化DataRater的评分标准 >在线过滤:根据DataRater评分,实时筛选batch中质量最高的数据 三、主要实验结果 计算效率提升显著 >在1B参数模型上,使用DataRater过滤数据后: >The Pile数据集:净计算收益达46.6%(过滤掉75%数据) >C4/noclean数据集:净计算收益达39.7%(过滤掉50%数据) >C4数据集:净计算收益达22.4%(过滤掉10%数据) 跨模型规模泛化 >使用400M参数的内层模型训练的DataRater,能够有效泛化到50M至1B参数的不同规模模型上,且最优数据丢弃比例在不同模型规模间保持一致。 数据质量识别 DataRater学会识别并降低低质量数据的权重,包括: >错误的文本编码 >OCR错误 >大量空白字符 >无关内容 四、DataRater学到了什么? 分析显示,DataRater评分与以下因素相关: >正相关:打包子序列数量、文本长度、词数 >负相关:非字母数字字符比例、标点符号比例 对比实验表明,DataRater在21个评估中的16个优于基于困惑度的过滤方法 五、方法优势 >自动化:无需手动设计筛选规则 >细粒度:可以对单个数据样本评分 >高效:使用元梯度比黑盒方法更样本高效 >可扩展:适用于低质量数据集效果尤其显著 六、局限性 论文也坦诚讨论了几个局限: >元目标敏感性:效果依赖于元目标的选择 >潜在偏见放大:如果元目标数据有偏见,可能被放大 >计算可扩展性:对于超大规模模型,元梯度计算仍有挑战 七、重要意义 这项工作为自动化数据管理提供了新思路,特别是在合成数据时代,这种能够自动学习数据价值的方法将变得越来越重要。它从"手动指定如何筛选"转向"指定想要什么结果,让系统自动学习如何筛选"。

Believing is seeing

avatar for Yangyi
Yangyi
Wed Nov 05 04:11:32
前老板从 Google 离职之后开发的独立游戏上架 Steam 了。预告看起来还是偏业余,但单凭勇敢追梦这点我觉得他很牛逼。

https://t.co/iwlTcVTOqz

前老板从 Google 离职之后开发的独立游戏上架 Steam 了。预告看起来还是偏业余,但单凭勇敢追梦这点我觉得他很牛逼。 https://t.co/iwlTcVTOqz

Software engineer, 🎙️《捕蛇者说》播客主播 @pythonhunter__ https://t.co/LGIKFkoQbn - Mac 上最好的划词 AI 搜索 & 翻译 可通过 Telegram/Gmail 找我,ID 同名

avatar for laike9m
laike9m
Wed Nov 05 04:11:09
哈哈 太逗了

哈哈 太逗了

Believing is seeing

avatar for Yangyi
Yangyi
Wed Nov 05 04:10:42
この度、財界研究所様より「経営者賞」をいただき、大変光栄に思います。Sakana AIは、日本の産業を強化するためのAI基盤技術の構築に、チーム一同、引き続き全力を尽くしてまいります。皆様のご支援に心より感謝いたします。

この度、財界研究所様より「経営者賞」をいただき、大変光栄に思います。Sakana AIは、日本の産業を強化するためのAI基盤技術の構築に、チーム一同、引き続き全力を尽くしてまいります。皆様のご支援に心より感謝いたします。

Happy to receive the Management Award from the Zaikai Institute in Japan 🎏✨

avatar for hardmaru
hardmaru
Wed Nov 05 04:09:38
At this rate (≈30% CAGR), China will make around 1 million industrial robots in 2026. Domestic installations are growing at only 5-7%, however, so they'll be exporting like 66% of that. We're well into skull chart territory.
I wonder when (if ever) will they reach SG density.

At this rate (≈30% CAGR), China will make around 1 million industrial robots in 2026. Domestic installations are growing at only 5-7%, however, so they'll be exporting like 66% of that. We're well into skull chart territory. I wonder when (if ever) will they reach SG density.

We're in a race. It's not USA vs China but humans and AGIs vs ape power centralization. @deepseek_ai stan #1, 2023–Deep Time «C’est la guerre.» ®1

avatar for Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
Wed Nov 05 04:08:44
  • Previous
  • 1
  • More pages
  • 928
  • 929
  • 930
  • More pages
  • 2117
  • Next