Claude Mythos vs Opus 4.6：流出文書のベンチマーク比較

要点： Claude Mythosは「より良いOpus」ではない。完全に別のティアだ。流出した内部文書はMythosが「すべてのコアベンチマークでOpus 4.6を大幅に上回る」ことを示しており、特にコーディング、推論、サイバーセキュリティで顕著だ。ただし文書は定性的な記述で、ハードな数字はない。何が確認済みで、何が推測で、両モデル間のギャップがユーザーにとって何を意味するかを整理する。

異なるティア、異なるバージョンではない

Claude Mythosについて最も多い誤解は、Opus 4.7だと思うこと。違う。MythosはCapybara——Anthropicのモデル体系における完全に新しいティアに属する。

フルラインナップ：Haiku、Sonnet、Opus、Capybara。各ティアは独立した性能クラスであり、同じクラス内のバージョン更新ではない。

Anthropicの流出ブログ草稿の原文：Capybaraは「Opusモデルよりも大きく、賢い新しいティアのモデル——Opusはこれまで最も強力だった」。

MythosとOpusを比較するのは、GPT-4oとGPT-4を比較するのとは違う。新しい階級の選手が前のチャンピオンと対戦するようなものだ。

各次元での比較

コーディング 流出草稿はMythosがソフトウェアコーディングベンチマークで「圧倒的に高いスコア」を達成したと主張。具体的数値はないが、小幅な改善ではないことは明確。ステータス：✅ 確認済み（流出文書の定性記述）

推論学術推論ベンチマークも同様：「圧倒的に高いスコア」。ステータス：✅ 確認済み

サイバーセキュリティ 最大のギャップ。内部評価はMythosを「サイバー能力であらゆるAIモデルをはるかに凌駕」と記述。90分のレッドチーム攻撃チェーンで20年もののLinuxカーネルゼロデイを発見。ステータス：✅ 確認済み

レイテンシ Opus 4.6のTTFTは通常使用で約1.2秒。Mythosのレイテンシは未開示。「より大きい」と記述されている以上、より高いレイテンシが合理的予測。ステータス：⚠️ 推測

コンテキストウィンドウ Opus 4.6は100万トークン超。流出文書にMythosのコンテキストウィンドウサイズの言及はない。ステータス：⚠️ 推測

コスト 流出草稿はMythosを「運用コストが非常に高い」と記述。Opus 4.6の現行価格を大きく上回ると見られる。ステータス：⚠️ 推測（価格データなし、ただし「非常に高コスト」は確認済みの表現）

「質的飛躍」の意味

Anthropicの内部文書は「step change（質的飛躍）」という表現を繰り返し使っている。意図的な言葉選びだ。

技術文脈でstep changeは特定の意味を持つ——あるレベルから別のレベルへの離散的ジャンプであり、なだらかな傾斜ではない。相転移の言語だ。

流出文書はまた「すべてのコアベンチマークでOpus 4.6を大幅に上回る」と述べている。一部のベンチマークではなく、すべてのコアベンチマーク。「大幅に」であって、「わずかに」でも「適度に」でもない。

目立つのは精確な数値の不在だ。Anthropicは記述的言語を使い、定量的な主張を避けている。ほぼ確実に意図的だ。

確認できるもの、できないもの

確認済み： ✅ Claude Mythosは実在するモデル。 ✅ CapybaraはOpusの上の新ティア。 ✅ Anthropicはサイバー防御側に先行アクセスを計画。 ✅ 内部文書は「これまでに開発した中で圧倒的に最も強力なAIモデル」と記述。

推測・不明： ⚠️ 具体的なベンチマークスコアとOpus 4.6比の改善率。 ⚠️ TTFT・推論速度。 ⚠️ コンテキストウィンドウサイズ。 ⚠️ API価格と提供時期。 ⚠️ Capybaraティアに複数モデルが出るかどうか。

流出文書は内部的に整合しており、信頼に足る詳細さがある。ただし草稿であり、公式仕様ではない。定性的記述は方向性の参考にし、具体的な技術パラメータはAnthropicの確認を待つべきだ。

ユーザーにとっての意味

開発者： Opus 4.6でも壁にぶつかるような難問——大規模リファクタリング、複雑なシステムアーキテクチャ、巨大コードベースの横断推論——でMythosは変革的な可能性がある。ただし高額で初期は制限付きの可能性が高い。

企業： 最も直接的なユースケースは防御的サイバーセキュリティ。レッドチーム評価で記述された速度で脆弱性を発見できれば——攻撃者より先に——それが核心的な価値提案だ。

市場全体： MythosはあらゆるAIラボに競争圧力をかける。Capybaraティアが文書通りの性能なら、Anthropicと最近接の競合との差は縮まる前にまず広がる可能性がある。

異なるティア、異なるバージョンではない

各次元での比較

「質的飛躍」の意味

確認できるもの、できないもの

ユーザーにとっての意味

関連ページ