Claude Mythos vs Opus 4.6:流出文書のベンチマーク比較
流出文書に基づくClaude MythosとOpus 4.6の横断比較——確認済み、推測、そしてAI業界への意味。
要点: Claude Mythosは「より良いOpus」ではない。完全に別のティアだ。流出した内部文書はMythosが「すべてのコアベンチマークでOpus 4.6を大幅に上回る」ことを示しており、特にコーディング、推論、サイバーセキュリティで顕著だ。ただし文書は定性的な記述で、ハードな数字はない。何が確認済みで、何が推測で、両モデル間のギャップがユーザーにとって何を意味するかを整理する。
異なるティア、異なるバージョンではない
Claude Mythosについて最も多い誤解は、Opus 4.7だと思うこと。違う。MythosはCapybara——Anthropicのモデル体系における完全に新しいティアに属する。
フルラインナップ:Haiku、Sonnet、Opus、Capybara。各ティアは独立した性能クラスであり、同じクラス内のバージョン更新ではない。
Anthropicの流出ブログ草稿の原文:Capybaraは「Opusモデルよりも大きく、賢い新しいティアのモデル——Opusはこれまで最も強力だった」。
MythosとOpusを比較するのは、GPT-4oとGPT-4を比較するのとは違う。新しい階級の選手が前のチャンピオンと対戦するようなものだ。
各次元での比較
コーディング 流出草稿はMythosがソフトウェアコーディングベンチマークで「圧倒的に高いスコア」を達成したと主張。具体的数値はないが、小幅な改善ではないことは明確。 ステータス:✅ 確認済み(流出文書の定性記述)
推論 学術推論ベンチマークも同様:「圧倒的に高いスコア」。 ステータス:✅ 確認済み
サイバーセキュリティ 最大のギャップ。内部評価はMythosを「サイバー能力であらゆるAIモデルをはるかに凌駕」と記述。90分のレッドチーム攻撃チェーンで20年もののLinuxカーネルゼロデイを発見。 ステータス:✅ 確認済み
レイテンシ Opus 4.6のTTFTは通常使用で約1.2秒。Mythosのレイテンシは未開示。「より大きい」と記述されている以上、より高いレイテンシが合理的予測。 ステータス:⚠️ 推測
コンテキストウィンドウ Opus 4.6は100万トークン超。流出文書にMythosのコンテキストウィンドウサイズの言及はない。 ステータス:⚠️ 推測
コスト 流出草稿はMythosを「運用コストが非常に高い」と記述。Opus 4.6の現行価格を大きく上回ると見られる。 ステータス:⚠️ 推測(価格データなし、ただし「非常に高コスト」は確認済みの表現)
「質的飛躍」の意味
Anthropicの内部文書は「step change(質的飛躍)」という表現を繰り返し使っている。意図的な言葉選びだ。
技術文脈でstep changeは特定の意味を持つ——あるレベルから別のレベルへの離散的ジャンプであり、なだらかな傾斜ではない。相転移の言語だ。
流出文書はまた「すべてのコアベンチマークでOpus 4.6を大幅に上回る」と述べている。一部のベンチマークではなく、すべてのコアベンチマーク。「大幅に」であって、「わずかに」でも「適度に」でもない。
目立つのは精確な数値の不在だ。Anthropicは記述的言語を使い、定量的な主張を避けている。ほぼ確実に意図的だ。
確認できるもの、できないもの
確認済み: ✅ Claude Mythosは実在するモデル。 ✅ CapybaraはOpusの上の新ティア。 ✅ Anthropicはサイバー防御側に先行アクセスを計画。 ✅ 内部文書は「これまでに開発した中で圧倒的に最も強力なAIモデル」と記述。
推測・不明: ⚠️ 具体的なベンチマークスコアとOpus 4.6比の改善率。 ⚠️ TTFT・推論速度。 ⚠️ コンテキストウィンドウサイズ。 ⚠️ API価格と提供時期。 ⚠️ Capybaraティアに複数モデルが出るかどうか。
流出文書は内部的に整合しており、信頼に足る詳細さがある。ただし草稿であり、公式仕様ではない。定性的記述は方向性の参考にし、具体的な技術パラメータはAnthropicの確認を待つべきだ。
ユーザーにとっての意味
開発者: Opus 4.6でも壁にぶつかるような難問——大規模リファクタリング、複雑なシステムアーキテクチャ、巨大コードベースの横断推論——でMythosは変革的な可能性がある。ただし高額で初期は制限付きの可能性が高い。
企業: 最も直接的なユースケースは防御的サイバーセキュリティ。レッドチーム評価で記述された速度で脆弱性を発見できれば——攻撃者より先に——それが核心的な価値提案だ。
市場全体: MythosはあらゆるAIラボに競争圧力をかける。Capybaraティアが文書通りの性能なら、Anthropicと最近接の競合との差は縮まる前にまず広がる可能性がある。
関連ページ
- Claude Mythosモデル比較ページ — 各次元の機能比較
- Claude Mythos(Capybara)とは? — モデルとCapybaraティアの解説
- Claude Mythosとサイバーセキュリティ恐慌 — サイバー能力と市場衝撃