Common Corpus 的表现也好不到哪里去,这不可能是因为竞争激烈:据我所知,今年几乎没有关于预训练数据的论文。人工智能会议评估是为规模较小的学术实验量身定制的,很遗憾,大型基础设施构建模块并不适合。