如果基線數據存在如此巨大的方差,則應該使用多個隨機種子並進行多次實驗來處理。 mlebench 在處理效能雜訊極大的情況方面有很好的先例。 10%以上的差距相當大了,我昨天沒費心去核對,我應該要核對的。
公平地說——無論從服務提供者、提示還是替補席噪音本身來看,要做好這件事都需要花費大量時間。 但是,如果報告的分數與你報告的分數相差 10% 以上,而你卻以此聲稱自己比別人做得更好,那麼這額外努力的責任就由你承擔。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。