ほとんどのベンチマークはダメだが、誤解する人もいる 例えばHLEは、たとえ意図せずとも、簡単に不正行為や訓練が行われてしまう可能性があります。なぜなら、質問はインターネット上に溢れており、回答が非公開であっても、人々が解いて情報が拡散するため、実際には問題にならないからです。そのため、モデルがHLEで高得点を獲得したとしても、ほとんどの場合、「AIが回答を見た」というだけです。私はこのような固定された質問のベンチマークが好きではなく、人気が出ればすぐに意味をなさなくなると思います。むしろ、これらのベンチマークは、チームがモデルから回答を隠蔽できなかった程度だけを測っているため、高得点は多くの場合、悪い兆候です。 VPCT では、すべての質問の難易度はほぼ同じであるため、モデルの正解率が 10% から 90% になったからといって、それが超人的であるということではなく、単に特定のしきい値を超えたというだけです。ARC-AGI でさえ、この問題に悩まされています。また、ベンチマークがパーセンテージで停滞することもよくあるのはこのためです。通常、これはほとんどの質問が簡単で、いくつかの質問が非常に難しい (または間違っている) ことを意味します。そのため、AI はその時点で進歩を停止します。 (Chase 氏の仕事を悪く言っているわけではありません。素晴らしいアイデアであり、優れたベンチマークですが、完璧な評価を構築するのは非常に困難です。おそらく、適切なスケーリングを備えた V2 では、この特定の欠陥が修正されるでしょう) 私はバイブテストで、各「難易度区分」に個人的な質問を数問だけ用意することで、この問題を回避しています。AIが賢くなったら、より難しい質問を用意するだけです。そうすれば、新しいモデルがリリースされたときに、まず簡単な質問を出し、次に難しい質問を出し、さらに難しい質問を出し、というように繰り返していくだけで済みます。こうすることで、モデルの実際の知能を判断するのが非常に簡単になります。また、質問数が少ないので、AIが答えを見てしまったと疑われる場合でも、その場で小さなバリエーションを作るのも簡単です。 評価する時間があればいいのに
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。