中間トレーニング (やったー *シンセ パイプライン*) と長いコンテキストに関するセクションは気に入りましたが、これは焦点の変更を正当化できたのではないかと思います。6T ベースの事前トレーニングを減らし、100~200 B の推論/拡張コンテキスト能力を大幅に増やします。
付録を掘り下げる価値はあります。ここではコードに焦点を当てていますが、一般的な「機能」評価へと移行する必要があることに同意します。「Can you do X」はDjangoのscaffoldingよりもはるかに興味深いです。

