如果基线数据存在如此巨大的方差,则应该使用多个随机种子并进行多次实验来处理。mlebench 在处理性能噪声极大的情况方面有很好的先例。 10%以上的差距相当大了,我昨天没费心去核对,我应该核对的。
公平地说——无论从服务提供商、提示还是替补席噪音本身来看,要做好这件事都需要花费大量时间。 但是,如果报告的分数与你报告的分数相差 10% 以上,而你却以此声称自己比别人做得更好,那么这额外努力的责任就由你承担。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。