X (Twitter)

微软反垄断诉讼是互联网泡沫破灭的几个导火索之一。针对 OpenAI/微软/谷歌的具有里程碑意义的版权诉讼，将引发下一场诉讼的震荡。这里存在着巨大的风险：如果这些参与者中的任何一个不再被允许使用受版权保护的作品来训练模型，这将开创一个先例，导致整个行业（包括 LLM、VLM、视频模型、图像模型等）的训练数据经济彻底崩溃……等等。我们需要下一代人工智能，它能够真正地进行推理，并从分布信息中创造新信息，而不是仅仅成为一个重组式的查找引擎。诚然，训练数据始终是必需的，但我们需要能够在较小的数据量基础上利用计算能力，并获得相对于输入数据而言更大的收益。你只需要获得一本小说的版权，就能让人工智能写出 10 本小说，而不是需要购买 100 万本小说的版权才能让它写出一本（而且写的还是从 100 万本小说中重组的词语，而不是一本全新的绝版小说）。利用免版税数据进行预训练可能仍会发挥一定作用，但这无疑改变了模型构建中大规模预训练的范式。未来需要更加关注算法本身。

来自 Damian Tran（@damianvtran）的推文线程

作者信息

线程正文