@aidotengineer CODE でのコーディング評価の過去/現在/未来に関する最高の講演。基本的には、地平線ごとに追跡します。 秒: コパイロットアリーナ 分: LiveCodeBench 複数分: RepoChat ~時間: GSO 複数時間:朔望 日数: ??? https://t.co/exTyCakFxe @StringChaos 氏を講演に招いた時、彼が @Cursor_ai にフルタイムで参加していることすら知りまyoutube.com/watch?v=tHN44y…けを期待していたのです。ところが、実際には想像をはるかに超える内容が聞けました。コーディング評価が過去3年間でどのように進化してきたか、そしてコミュニティが学んだことすべて、o3 の報酬ハッキング、そしてレイテンシや現実世界の制約に合わせて調整するための、膨大な量のコードとオンライン評価を移行するためのベンチマークなど、あらゆる側面を包括的に考察してくれたのです。最後に、ご自身でコーディング評価を構築されている方のために、実際に役立つ推奨事項もいくつか紹介されました。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。


