この記事ではセキュリティに特化して解説します。AIセキュリティ全般は サプライチェーンセキュリティ完全ガイド2026|攻撃手法・防御ツール・実践チェックリスト をご覧ください。
Anthropicが「Project Glasswing 1ヶ月成果」を公開
2026年5月23日、Anthropicは Project Glasswing の初回成果報告を公開した。4月の発表時に11社からスタートした防御側パートナー連携が約50社に拡大し、1ヶ月のオペレーションで合計1万件超のHigh/Critical severity脆弱性を発見した。
4月時点で技術レポートが公開された Claude Mythos Preview発表時の予測 — 「AIが人類最高峰のセキュリティ研究者を超えた」「Project Glasswingで防御側へ展開」 — が、1ヶ月で実数値として裏付けられた格好だ。
重要なシフトは「発見」から「対応速度」へ。Anthropic自身が報告書で述べた通り、ボトルネックは脆弱性検出ではなくパッチ適用サイクルに移った。
- パートナーは11社→約50社に5倍拡大
- Cloudflare単独で2,000バグ(うち400件がHigh/Critical)
- Mozilla Firefoxは旧Claudeモデル比10倍の271件を検出
- OSS 1,000リポジトリで23,019件のうち6,202件がHigh/Critical
- 平均パッチ適用時間は2週間、ボトルネックは検出ではなく開示・パッチへ
数字で見る初回報告
公式報告書から抜粋した主要数値を整理する。
| カテゴリ | 指標 | 値 |
|---|---|---|
| パートナー | 参加組織数 | 約50社(4月の11社から5倍) |
| パートナー全体 | 1ヶ月で発見したHigh/Critical | 10,000件超 |
| Cloudflare | 発見バグ総数 | 2,000件 |
| Cloudflare | うちHigh/Critical | 400件 |
| Cloudflare | 偽陽性率 | 人間テスターより低い |
| Mozilla Firefox 150 | Mythosが発見した脆弱性 | 271件 |
| Mozilla Firefox 148 | 旧Claude(Opus 4.6)の発見数 | 約27件相当(10倍差) |
| OSS | スキャン対象リポジトリ | 1,000以上 |
| OSS | 総検出数 | 23,019件 |
| OSS | High/Critical推定 | 6,202件 |
| OSS(アセス済1,752件) | 真陽性率 | 90.6%(1,587件) |
| OSS(アセス済1,752件) | High/Critical確定率 | 62.4%(1,094件) |
| OSS全体予測 | 最終的なHigh/Critical | 約3,900件 |
| パッチ進捗 | 報告済 High/Critical | 530件 |
| パッチ進捗 | パッチ適用済 | 75件 |
| パッチ進捗 | 公開アドバイザリ取得 | 65件 |
| パッチ進捗 | 平均パッチ適用時間 | 約2週間 |
Anthropicの公式コメント
報告書には以下の象徴的な記述がある。
“Progress on software security used to be limited by how quickly we could find new vulnerabilities. Now it’s limited by how quickly we can verify, disclose, and patch the large numbers of vulnerabilities found by AI.”
(ソフトウェアセキュリティの進捗は、かつては脆弱性をいかに速く発見できるかで制限されていた。今やそのボトルネックは、AIが発見した大量の脆弱性をいかに速く検証・開示・パッチ適用できるかに移った。)
これは 4月にHacker Newsで起きた『小規模モデルでも同じ脆弱性が見つかる』論争 — 自動スキャンと文脈提供型検査の違いをめぐる議論 — に対する事実上の回答でもある。「規模」「自動化レベル」を問わず、業界全体が発見過多 / 対応不足のフェーズに突入したことを公式に認めた。
Cloudflare:自社製品で2,000バグ、誤検出率も人間以下
Cloudflareは Project Glasswing のフラッグシップ事例として詳しく取り上げられている。
Cloudflareは社内の主要システム(CDN、WAF、Workers、ゼロトラスト基盤など)をMythos Previewでスキャンし、約2,000件のバグを発見、うち400件がHigh/Critical-severityと判定された。さらに重要なのは、Cloudflareのセキュリティチームによる評価で誤検出率(false positive rate)が人間テスターよりも低かった点だ。
- AIが見つけたバグの「ノイズ」が人間のレビュー結果と同等以下
- 従来のSAST/DAST/ファジングでは検出されなかった論理バグも多数
- セキュリティチームの工数を「探す」から「直す」に再配分できる
これは Cloudflareがbot対策で AI Crawler 経済圏に踏み込んだ取り組み と同じ流れで、「AIネイティブなインフラ防御」への投資戦略の一部と見ることができる。
Mozilla Firefox:旧Claudeモデル比10倍の検出数
Mozillaは Firefox を Mythos Preview で再スキャンし、Firefox 150で271件の脆弱性を発見した。これは Firefox 148を旧Claudeモデル(Opus 4.6)でスキャンしたときの約10倍にあたる。
ブラウザは攻撃面が膨大で、JIT エンジン・パーサ・サンドボックスのいずれかで脆弱性が見つかれば即座にRCEや特権昇格に直結する。4月の技術レポートで Mythos Preview の Firefox JIT エクスプロイト性能がOpus 4.6比90倍(2件→181件)と公表されていた性能予測が、実戦のスキャン結果でも一貫した倍率改善として現れた。
旧モデル"] --> B["約27件"] C["Firefox 150
Mythos Preview"] --> D["271件"] B --> E["10x スケール"] D --> E E --> F["パッチ作業
2週間/件"] style A fill:#4A90D9,color:#fff style C fill:#E74C3C,color:#fff style D fill:#F39C12,color:#fff style F fill:#50C878,color:#fff
Mozillaのケースが示しているのは、「毎回のメジャーバージョン更新時にMythosで全スキャンを回す」という運用が現実的に成立する、という事実だ。これは サプライチェーンセキュリティの実践 における「リリースゲート」の概念を、AIスキャンで埋める方向の最初の本格事例となる。
OSS スキャン:23,019件中6,202件がHigh/Critical
Anthropicは Mythos Preview を使い、1,000以上のオープンソースプロジェクトを自動スキャンした。結果:
- 総検出数:23,019件
- High/Critical推定:6,202件
- セキュリティ企業がアセスメントした1,752件のうち1,587件(90.6%)が真陽性
- うち1,094件(62.4%)がHigh/Critical-severityとして確定
- 最終的にOSS全体で約3,900件のHigh/Critical脆弱性が修正対象になる見込み
90.6%という真陽性率は、従来のSAST(一般に20-40%程度と言われる)と比べて桁違いに高い。「AIスキャン結果は誤検出だらけで人間が結局レビューしなおす」という従来の批判が、Mythos世代では当てはまらなくなりつつあることを示している。
代表事例:wolfSSL CVE-2026-5194
報告書で名指しで挙げられている事例が CVE-2026-5194(wolfSSL の証明書偽造脆弱性) だ。
wolfSSL は組み込み機器・IoT向けの軽量TLSライブラリで、ルータ・スマートメーター・産業機器・医療機器など膨大な機器に組み込まれている。証明書偽造を許す脆弱性は、TLS 通信の根幹を破壊するためIoT/組み込みドメインの広範囲に影響する。
# wolfSSL を使うシステムでの確認手順例
$ wolfssl-config --version
# パッケージマネージャ経由でのインストール状況確認
$ dpkg -l | grep wolfssl # Debian/Ubuntu
$ rpm -qa | grep wolfssl # RHEL/Fedora
# 影響を受けるバージョンか確認(ベンダーアドバイザリ参照)
# CVE-2026-5194 は wolfSSL の証明書検証パスにおける欠陥
Mythos が見つけた脆弱性の多くは、こうした「広範囲に配布されているが、専属のセキュリティチームを持てない規模のOSS」に集中している。これは Litellm の PyPI 改ざん事件 や Renovate / Dependabot をめぐるサプライチェーン議論 で繰り返されてきた構造問題と完全に一致する。
「発見」から「パッチ適用」へボトルネックが移動
Project Glasswing 初回報告の最大の示唆は、「発見」が解決された後の世界がどう見えるか、を初めてデータで示した点にある。
| フェーズ | 1年前の状態 | 現在(2026/05時点) |
|---|---|---|
| 脆弱性発見 | 高度な専門家の手作業 / 限定的な自動化 | AIで月数千件規模 |
| トリアージ | 専門家がレビュー | AI assist + 人間最終判断 |
| 開発者通知 | 個別連絡 | 標準フォーマット化 |
| パッチ作成 | 開発者依存(数日〜数ヶ月) | 依然として人間ボトルネック |
| 公開アドバイザリ | 個別調整 | CVE/CNA経由(依然キャパシティ不足) |
| エンドユーザー適用 | 各社の更新サイクル | 最大の遅延要因 |
報告書は「2週間で530件中75件のパッチ適用」と書いているが、裏を返せば85%以上が未パッチで滞留している。これが現状の業界キャパシティの上限であり、Anthropic はこの数字を意図的に公開することで、OSSコミュニティとベンダー側に対応体制の強化を促していると読み取れる。
防御側オペレータが今すぐ取れる行動
# 1. 依存OSSの「Glasswing対象スコープ」確認
# 自分が使っているOSSが Mythos のスキャン対象になっているか
$ cat requirements.txt | grep -E "(wolfssl|openssl|libxml|sqlite|curl|nginx)"
# 2. CVE フィードの監視を高頻度化
# NVD だけでなく GitHub Security Advisories も
$ gh api repos/{owner}/{repo}/security-advisories --jq '.[].severity'
# 3. パッチ適用の自動化パイプライン整備
# Renovate / Dependabot の auto-merge を High/Critical のみ有効化
$ renovate-config-validator
# .github/renovate.json5 — High/Critical のみ自動マージ
{
packageRules: [
{
matchUpdateTypes: ['patch'],
matchCurrentVersion: '!/^0/',
vulnerabilityFixes: true,
automerge: true,
automergeType: 'pr',
platformAutomerge: true,
},
{
matchPackagePatterns: ['*'],
matchDepTypes: ['devDependencies'],
automerge: false,
},
],
vulnerabilityAlerts: {
enabled: true,
labels: ['security', 'glasswing-followup'],
},
}
50社への拡大が意味するもの
4月時点のパートナーは Mythos Preview 発表時の11社 — AWS, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, Linux Foundation, Microsoft, NVIDIA, Palo Alto Networks — に限定されていた。
それが1ヶ月で 約50社に拡大したというのは、Anthropic側のアクセス制御方針が大きく変わったというよりは、「重要インフラを支えるOSSメンテナ」を中心に追加された結果だ。50社の内訳は公式には全公開されていないが、初回報告書は Mozilla, Cloudflare, wolfSSL などを名指しで挙げており、ブラウザ・CDN・暗号ライブラリ・OS・データベースといったインターネット基盤レイヤを優先的に組み込んだことが分かる。
- 初期11社はクラウド/エンドポイント大手中心の「実装力」重視
- 追加39社はOSSメンテナ・基盤ライブラリ中心の「影響範囲」重視
- 結果として「攻撃面の上流(OSS)」と「修正適用の下流(クラウド)」を両端から押さえる構造
- これは [4月のリーク事件](/news/claude-mythos-capybara-leak/) で問題視された「Anthropic内部だけが強力モデルを持つ」非対称性を実質的に緩和する
業界への含意:4月の予測との答え合わせ
4月の Mythos Preview 発表記事 AIが全主要OS・ブラウザのゼロデイ脆弱性を数千件発見 で記した以下の予測を、5月の実数値と照合してみる。
| 4月の予測 | 5月の実測 | 評価 |
|---|---|---|
| 「数千件のゼロデイ」が継続的に発見される | パートナー全体で1ヶ月1万件超 | 予測を上回る |
| パッチ適用が間に合わなくなる | 530件中75件のみパッチ完了 | 完全に的中 |
| Project Glasswingが拡大する | 11社→50社 | 急速に進行 |
| 防御側の体制整備が課題 | Anthropic自身が公式に「ボトルネックは検証・開示・パッチ」と表明 | 業界全体が認識 |
| 一般公開は時期未定 | 依然未定。Glasswing拡大が優先 | 継続 |
小規模モデルでも見つかるという論争 で問われていた「Mythosの優位性は本物か」という問いについても、Cloudflareの「人間テスターより誤検出率が低い」評価、Firefoxの「旧モデル比10倍」、OSSの「真陽性率90.6%」という3つの独立した実測データが、少なくともプロダクション運用レベルでは差が明白であることを示した。
まとめ:「探す」競争は終わり、「直す」競争が始まった
Project Glasswing 初回報告の核心メッセージは1つだけ:
AIが脆弱性を見つける速度はもう問題ではない。問題は、見つけた脆弱性を人類が直す速度に変わった。
これはセキュリティ業界全体のオペレーションモデルを書き換える話だ。SOC・PSIRT・脆弱性管理ツール・依存性管理ツール・パッチデプロイパイプライン — どのレイヤも「月数千件のHigh/Critical脆弱性」が継続的に流入する前提で再設計が必要になる。
Anthropicの MCP stdio RCE 脆弱性 や LiteLLM の PyPI 改ざん のような単発インシデントが「対応するか」を問う時代から、「常時1万件規模で流入する脆弱性をどう処理するか」という運用設計の時代に入った。Anthropic は次回報告(推定6月下旬〜7月)で、パッチ適用率がどこまで改善するかを公表する見込みだ。
防御側のオペレータにとっての宿題は明確:今のパッチ適用パイプラインを、月1000件のHigh/Critical脆弱性を捌けるキャパシティに作り変える。これができた組織だけが、AIによる脆弱性発見の恩恵を実際に享受できる。
関連記事: サプライチェーンセキュリティ完全ガイド2026|攻撃手法・防御ツール・実践チェックリスト / Claude Mythos Preview技術レポート全容 / Claude Mythos(Capybara)リーク事件 / 小規模モデルで同じ脆弱性が見つかる論争