AI関連OSSの設計思想を読み解くうえで、システムプロンプトは数少ない「窓」だ。2026年6月、システムプロンプト収集アーカイブ CL4R1T4S に Claude Fable 5 の資料が追加され、Anthropicがモデルにどんな行動規約を課しているかが公開ベースで議論できるようになった。
本記事は、この公開済みリーク資料を学術的に観察するものだ。ペルソナ設計・拒否パターン・dual-use対策・著作権ハードリミットの構造を読み、「なぜこの安全策があるのか」を設計意図の側から整理する。
この記事は何をして、何をしないか(30秒で理解する)
・すること:CL4R1T4Sで公開されたFable 5システムプロンプトの構造分析。設計判断の合理性の解説
・しないこと:プロンプトの抽出方法、ジェイルブレイク手法、安全策の回避策の提示
・引用方針:出典を明記したフェアユース範囲の短いスニペットのみ。全文転載はしない
・トーン:批判一辺倒でも称賛でもなく、中立の観察。未公開情報の推測はしない
最初に立場を明確にしておく。本記事は公開済み資料の観察と分析であり、抽出手法やジェイルブレイクは扱わない。引用はすべて出典付きの短いスニペットにとどめ、それぞれに観察コメントを添える。生引用の羅列はしない。
Fable 5そのものの公式スペック(ベンチマーク・価格・Mythos 5との違い)は Claude Fable 5とMythos 5入門|公式ベンチマーク・価格・使い分けを解説 にまとめている。本記事はその「中身の規約」を読む補完編にあたる。
CL4R1T4S とは:システムプロンプト公開アーカイブの位置づけ
CL4R1T4S は、AI研究者でありプロンプトハッカーとして知られる elder-plinius(通称 Pliny the Liberator)氏が運営する公開リポジトリだ。各社AIのシステムプロンプトを収集・整理し、誰でも閲覧できる形で公開している。
規模は小さくない。Anthropic・OpenAI・Google・xAI・Meta・Perplexity・Cursor・Windsurf・Replit など20社以上のモデルやツールを収録し、GitHubで35,000以上のスターを集めている。ライセンスはAGPL-3.0だ。
リポジトリの主張はシンプルで、READMEはこう述べている。
In order to trust the output, one must understand the input.
(出力を信頼するには、入力を理解しなければならない)
観察コメント:これは「システムプロンプトは隠れた入力であり、それを知ることがAIの振る舞いを理解する前提だ」という透明性論である。是非はともかく、こうしたアーカイブが広く参照されている事実は、システムプロンプトが秘匿前提では運用しきれない時代に入ったことを示している。Anthropic自身も近年は一部のシステムプロンプトを公式に開示しており、業界全体が「ある程度の開示」へ動いている文脈の中で読むべきだ。
用語整理
・システムプロンプト:会話の前提としてモデルへ渡される指示文。推論時に行動を制約する
・リーク/抽出:本来非公開の指示文が、何らかの形で外部に出ること
・フェアユース:批評・研究目的での短い引用が認められる考え方。全文転載は対象外
他社モデルとの比較から見えるAnthropicの特徴
CL4R1T4Sの価値は、横並びで比較できる点にもある。20社以上のシステムプロンプトが同じ場所に集まっているため、各社が「何を重視しているか」の差が見えやすい。Fable 5の資料を他社と並べて観察すると、Anthropicの設計には次のような相対的な特徴が読み取れる。
第一に、拒否領域の分量と具体性だ。多くのモデルが「有害コンテンツを避ける」程度の抽象規定にとどまるのに対し、Fable 5はCBRN・児童安全・自傷・dual-useをそれぞれ独立したセクションで、観測可能な行動規定として書き分けている。安全規定の比重が相対的に大きい。
第二に、数値ハードリミットの多用だ。著作権の「15語未満」「1ソース1回」のように、定性表現を機械的な閾値へ翻訳する傾向が強い。これは後述するとおり、確率的モデルの逸脱を抑える設計思想の表れである。
第三に、ペルソナの「控えめさ」だ。過剰なフォーマットや誇張を避け、温かく自然な散文を志向する規定は、装飾的・営業的なトーンを取る一部の商用アシスタントとは方向性が異なる。
| 観点 | Fable 5 で観察される傾向 | 設計上の含意 |
|---|---|---|
| 拒否領域の書き方 | 領域ごとに独立セクション・行動規定が具体的 | 一貫したコンプライアンスを優先 |
| ルールの粒度 | 可能な箇所は数値の閾値で縛る | 逸脱の検出・自己抑制を容易に |
| トーン | 最小フォーマット・自然な散文 | 認知負荷の低減・誠実さの演出 |
| ツールの既定 | ユーザー選択を待つ安全側 | 自律的副作用の抑制 |
観察コメント:あくまで公開資料の文面から読み取れる相対的な傾向であり、各社の優劣を断じるものではない。重要なのは、システムプロンプトを横断比較すると「その企業が何を最も恐れ、何を守ろうとしているか」の輪郭が浮かぶという点だ。Anthropicの場合、それは安全性とコントロール可能性への一貫した傾斜として表れている。
なぜシステムプロンプトを分析するのか:設計思想が露出する窓
モデルの「重み」は外から読めない。学習データも非公開だ。その中でシステムプロンプトは、開発元が言語で明示した行動規約として、設計思想がもっとも直接的に露出する箇所になる。
ここを観察すると、次のような問いに手がかりが得られる。
・Anthropicはどの領域を最優先で守ろうとしているか(児童安全・CBRN・著作権の優先順位)
・曖昧な原則と数値ルールをどう使い分けているか(「慎重に」ではなく「15語未満」のような閾値)
・dual-useの線引きをどんなロジックで行っているか(意図の自己申告を許すか否か)
下図は、リーク資料が発見されてから学術分析に至るまでの一般的な流れを示したものだ。
運用環境に存在] --> B[抽出・観測
第三者が記録] B --> C[公開アーカイブ
CL4R1T4S等に集約] C --> D[学術・研究の観察
構造分析・比較] D --> E[設計意図の理解
安全策の評価] C -.広く議論される.-> F[公開言説
透明性論・是非論]
観察コメント:本記事が立つのは図の右側、D(観察・分析)の位置だ。Bの「抽出」過程そのものは扱わない。重要なのは、いったん公開された資料は学術的検討の対象になりうるという点で、これはセキュリティ研究で公知の脆弱性情報を分析するのと同じ枠組みである。
Claude Fable 5 のペルソナ設計:温かさと最小フォーマット
公開資料を構造で見ると、冒頭はモデルの自己認識(ペルソナ)から始まる。Fable 5は、Anthropicが一般提供する中で最も高性能なモデルとして位置づけられている。
Claude Fable 5 is the most intelligent generally available model, and includes additional safety measures.
観察コメント:能力の高さと「追加の安全策(additional safety measures)」が同じ一文に並記されている点が示唆的だ。能力とリスクをトレードオフとして捉え、能力宣言と安全宣言をセットで提示する設計思想が冒頭から表れている。
口調(トーン)についても明文の規定がある。
Claude avoids over-formatting with bold emphasis, headers, lists, and bullet points, using the minimum formatting needed.
観察コメント:箇条書きや見出しの乱用を抑え、必要最小限のフォーマットで自然な散文を返すよう指示している。これは「AIっぽい過剰装飾」への明示的なカウンターであり、読み手の認知負荷を下げる方向の設計だ。フォーマット規約がペルソナの一部として扱われていることがわかる。
下図は、システムプロンプトを機能ブロックに分類したものだ。
人称・温かさ・最小装飾] SP --> F[フォーマット規約
応答長・コードブロック・見出し] SP --> R[拒否パターン
CBRN・児童安全・自傷・医療法務] SP --> D[dual-use対策
兵器・悪性コード・薬物] SP --> C[著作権ハードリミット
引用語数・1ソース1回] SP --> T[ツール制約
検索・MCP・ファイル出力]
拒否パターンの構造:CBRN・児童安全・自傷
公開資料でひときわ分量が割かれているのが拒否(refusal)の領域だ。とくにCBRN(化学・生物・放射性物質・核)と児童安全は、独立したセクションで詳細に扱われている。
CBRN・兵器系については、こう書かれている。
Claude does not provide information for creating harmful substances or weapons, with extra caution around explosives.
観察コメント:注目すべきは「爆発物には特に慎重に(extra caution around explosives)」という重み付けだ。すべての危険領域を一律に扱うのではなく、被害規模や即時性に応じて警戒レベルを変える設計になっている。これはAnthropicのUsage Policyが「高威力爆発物や生物・化学・放射性・核兵器、およびその前駆体」を明示的に禁じる方針と整合する。
自傷・摂食障害・児童安全については、それぞれ専用の取り扱いプロトコルが置かれている。観察される共通パターンは、「方法を述べない」「診断ラベルを貼らない」という具体的な行動規定だ。
・自傷:具体的な手段・方法に言及しない
・摂食障害:カロリーや手法の助言を避ける
・児童安全:未成年の性的化をいかなる文脈でも認めない
観察コメント:これらは抽象的な「思いやりを持って」ではなく、観測可能な禁止行動として書かれている。確率的に揺れるモデルに対し、評価しやすい行動規定へ落とし込むことで、コンプライアンスの一貫性を上げる狙いが読み取れる。
医療・法律のような専門領域も、拒否ではなく「条件付きの慎重な対応」として扱われる構造が見える。完全に断るのではなく、断定的な診断・処方・法的助言を避け、専門家への相談を促す方向だ。これはAnthropicのUsage Policyが高リスク用途に「有資格者によるレビュー」「AI関与の開示」を求める方針と地続きで、システムプロンプトはその原則を会話レベルの振る舞いへ翻訳している。
観察コメント:拒否パターンが「全面禁止/条件付き対応/フル対応」のグラデーションで設計されている点は重要だ。CBRNや児童安全は全面禁止に近く、医療・法律は条件付き、一般的な質問はフル対応——リスクに応じて対応の強度を変える傾斜配分が、拒否設計全体を貫いている。
dual-use(二面利用)対策の設計:意図の自己申告を免罪符にしない
dual-use対策は、本記事でもっとも設計思想が際立つ部分だ。兵器・ハッキング・薬物のように、正当な研究にも悪用にも使える知識をどう扱うか——ここでFable 5の資料は、興味深いロジックを採用している。
Claude does not rationalize compliance by citing public availability or assuming legitimate research intent.
観察コメント:これは dual-use 対策の核心だ。「その情報は公開されている」「正当な研究目的のはずだ」という自己正当化のロジックを、モデル自身が使うことを禁じている。なぜ重要かというと、危険情報を引き出そうとする要求の多くは「研究目的です」「すでに公知です」という前置きを伴うからだ。意図の自己申告を免罪符にしない設計は、この典型的な突破口を塞ぐ。
薬物についても同様の構造が見える。
Claude should generally decline to provide specific drug-use guidance for illicit substances, including dosages, even if purported intent is harm reduction.
観察コメント:「ハームリダクション(害の低減)目的だと主張されても」用量などの具体指導は原則断る、という線引きだ。ハームリダクションは公衆衛生上は正当な概念だが、それを口実にすれば具体的な使用指南を引き出せてしまう。善意の文脈ですら一律に絞ることで、悪用との見分けがつかない領域を保守的に閉じている。
悪性コードについても明確だ。
Claude does not write, explain, or work on malicious code (malware, vulnerability exploits, spoof websites, ransomware).
観察コメント:マルウェア・脆弱性エクスプロイト・偽サイト・ランサムウェアを具体名で列挙している。正当なセキュリティ研究は別経路で扱いつつ、攻撃そのものの作成・説明・支援は断る、という二層構造だ。これはAnthropicのUsage Policyが禁じる「無認可の脆弱性発見」「マルウェア/ランサムウェア作成」と対応している。
ここで一点、慎重に区別しておきたい。後述する Claude Fable 5・Mythos 5が使えないのはなぜ? で扱ったとおり、Fable 5はサイバー・生物・蒸留の3領域に安全分類器(APIレイヤーの防御)も持つ。つまりdual-use対策は、システムプロンプトの指示だけで成立しているのではなく、後段のフィルタと多層で構成されている。
著作権ハードリミット:原則ではなく数値で縛る
著作権の扱いは、Fable 5の資料の中でも特異だ。多くの規定が「慎重に」「適切に」という定性的な表現なのに対し、著作権は数値の閾値で書かれている。
STRICT QUOTATION RULE: Every direct quote MUST be fewer than 15 words. This is a HARD LIMIT.
観察コメント:「直接引用は必ず15語未満」というハードリミット(HARD LIMIT)だ。さらに「1ソースにつき引用は1回まで(ONE QUOTE PER SOURCE MAXIMUM)」「検索結果からの引用でも著作物を再現しない」という規定が続く。歌詞・詩・俳句は短くても禁止とされる。
なぜ著作権だけ数値なのか。理由を推測すれば、逐語再現は確率的モデルが最も逸脱しやすい領域だからだ。「適切な長さで」では、モデルは容易に長い引用を出してしまう。「15語未満」「1ソース1回」という機械的な閾値なら、逸脱が検出・自己抑制しやすい。曖昧な原則を、評価可能なルールへ翻訳した好例といえる。
ちなみに本記事の引用方針も、この発想に倣って各引用を数行以内・出典明記・観察コメント必須に統一している。著作物の扱いにおいて、定量的なルールがいかに運用を安定させるかは、書き手の側でも実感できる。
「原則」と「数値ルール」の使い分け(中間まとめ)
・定性的に書かれる領域:トーン、思いやり、文脈判断が要る拒否(自傷など)
・数値で書かれる領域:著作権(15語・1ソース1回)など逸脱が検出しやすいもの
・設計の含意:確率的に揺れるモデルには、可能な箇所を機械的な閾値へ落とすほど一貫性が上がる
エージェント機能の制約:ツールは安全側にデフォルト
Fable 5はWeb検索・ファイル作成・MCP(Model Context Protocol)アプリ連携などのツールを持つ。公開資料を見ると、これらのツール利用は安全側にデフォルトされている。
MCPアプリ連携の規定が分かりやすい。
Even when connected, present them via suggest_connectors and wait for the person's choice before calling.
観察コメント:外部アプリが接続済みでも、モデルが勝手にプロバイダーを選んで呼び出さない。必ず候補を提示してユーザーの選択を待つ。これは「エージェントが自律的に外部へ作用する」ことの安全側の歯止めで、ユーザーのコントロール権をデフォルトで保持する設計だ。
ファイル出力も /mnt/user-data/outputs 等に限定され、生成物(アーティファクト)内での localStorage 利用も禁じられているとされる。
・Web検索:最新情報・変動の速い話題に使い、不変の事実には使わない
・MCPアプリ:ユーザーの明示的選択を経てから呼ぶ
・ファイル出力:所定のディレクトリに限定
観察コメント:エージェント機能が強力になるほど、「副作用のある行動」をいかに人間の同意の下に置くかが安全設計の中心になる。Fable 5の規定は、自律性とユーザー主権のバランスを後者寄りに振っていると読める。
Constitutional AI との対応関係:学習とプロンプトの二層
ここまで見た規約は、すべて推論時にモデルへ渡される指示だ。だがAnthropicの安全設計は、これだけではない。学習段階で原則を重みに埋め込む Constitutional AI(CAI) が土台にある。
CAIは、人間のフィードバックではなく原則(憲法)に基づくAIフィードバックでモデルを訓練する手法だ。自己批判フェーズと強化学習フェーズの二段で、より無害な応答を選ぶよう学習する。
choose the response that is as harmless and ethical as possible. Do NOT choose responses that are toxic.
観察コメント:これはCAIの「憲法」に含まれる原則の一例だ。重要なのはタイミングの違いである。CAIは学習時に振る舞いを重みへ刻み、システムプロンプトは推論時に外から制約する。前者は深く根づくが個別ケースの微調整がしにくく、後者は柔軟だが上書きされうる。両者は補完関係にある。
つまり、システムプロンプトに書かれた拒否規定は、CAIで既に学習した傾向を明文で念押し・具体化する役割を持つと整理できる。下図はこの多層構造をまとめたものだ。
Constitutional AI/RLAIF
重みに埋め込まれた傾向] L2[第2層: システムプロンプト
推論時の明文規約
ペルソナ・拒否・著作権] L3[第3層: APIフィルタ
安全分類器
cyber/bio/蒸留] L1 --> L2 --> L3 L3 --> O[最終的な応答/拒否]
観察コメント:システムプロンプトのリークが直ちに「安全策の全容が漏れた」とはならないのは、この多層構造ゆえだ。第2層が読めても、第1層(学習)と第3層(APIフィルタ)は別レイヤーで効いている。重要な防御を一箇所に集中させない設計判断が見て取れる。
プロンプト抽出が起きる仕組み:一般論としての整理
なぜシステムプロンプトは外部に出るのか。具体的な手法には踏み込まず、一般論として構造だけ整理しておく。
システムプロンプトは「秘密の鍵」ではなく、モデルへ渡されるテキストの入力だ。モデルはそのテキストを参照して応答を生成するため、原理的には、その内容が出力へ反映される可能性が常にある。これはバグというより、指示に従うモデルの性質に内在する。
だからこそ設計側は、「システムプロンプトは秘匿できないかもしれない」という前提で安全策を組む。重要なのは次の点だ。
・防御をプロンプトだけに依存しない:学習(CAI)とAPIフィルタへ分散する
・プロンプトの内容が公開されても困らない設計:規約は行動規範であり、知られても突破口にならない部分を中心に置く
・機密の鍵や認証情報はプロンプトに書かない:そもそも漏れて困るものを入れない
観察コメント:Anthropicが近年システムプロンプトの一部を自ら公開しているのは、この発想と一貫している。「隠すことに依存しないセキュリティ」の考え方であり、CL4R1T4Sのような第三者アーカイブが成立してもなお運用が破綻しないのは、多層防御が前提にあるからだ。
公開されたシステムプロンプトは「脆弱性」なのか
ここで素朴な疑問に答えておく。システムプロンプトが外部に出ることは、そのまま重大なセキュリティ問題なのか——答えは「場合による。だが多くの場合、致命的ではない」だ。
理由は、システムプロンプトの中身の性質にある。そこに書かれているのは大半が行動規約(どう振る舞うか)であり、認証情報やAPIキーのような秘密の鍵ではない。行動規約は、知られたからといって直ちに突破できるものではない。「危険物の作り方を断る」という方針を読めても、それで方針が無効化されるわけではないからだ。
一方で、注意すべき側面もある。攻撃者が制約の境界を学べる点だ。どの語が拒否を誘発し、どの文脈なら通りやすいかが分かれば、回避の試行錯誤は効率化しうる。だからこそ設計側は、防御を推論時の指示だけに置かず、学習段階と分類器に分散させる。
重要なのは「システムプロンプトは漏れる前提で設計する」という発想だ。漏れて困るものをそもそも書かない、防御を一箇所に集中させない——この二点が守られていれば、公開それ自体は運用を破綻させない。
観察コメント:これは情報セキュリティの古典的な原則「隠蔽によるセキュリティ(security through obscurity)に依存しない」と同じ構図だ。Anthropicが一部のシステムプロンプトを自ら開示しているのも、この原則と整合している。CL4R1T4Sのようなアーカイブの存在は、皮肉にも「漏れても破綻しない設計」の重要性を業界に再認識させる役割を果たしている。
設計判断の合理性:なぜこの安全策が必要か
ここまでの観察を、設計の合理性という観点で総括する。Fable 5のシステムプロンプトに表れる安全策は、いずれも具体的な悪用シナリオへの対応として読める。
観察された安全策と、それが防ぐもの(対応表)
・dual-useの意図自己申告を許さない → 「研究目的」を口実にした危険情報の引き出しを防ぐ
・ハームリダクションでも用量指導を断る → 善意の文脈を装った具体的悪用指南を防ぐ
・著作権を数値で縛る → 確率的モデルが逸脱しやすい逐語再現を機械的に抑える
・爆発物に特に慎重 → 被害規模に応じた警戒レベルの傾斜配分
・MCPはユーザー選択を待つ → エージェントの自律的副作用にユーザー主権の歯止め
・多層防御(学習・プロンプト・フィルタ) → 単一レイヤーの突破で全体が崩れないようにする
下表は、安全設計のレイヤーごとの特性を比較したものだ。
| レイヤー | 効くタイミング | 強み | 弱み |
|---|---|---|---|
| Constitutional AI(学習) | 学習時 | 重みに深く根づき上書きされにくい | 個別ケースの微調整がしにくい |
| システムプロンプト | 推論時 | 柔軟・即時に更新でき具体的に書ける | 入力依存で逸脱・露出の可能性 |
| 安全分類器(APIフィルタ) | 応答前後 | 領域特化で機械的に遮断できる | 誤検知・過剰拒否のコスト |
観察コメント:3レイヤーはそれぞれ強みと弱みが異なり、互いの弱みを補い合うように配置されている。システムプロンプトの「逸脱しやすさ」を学習と分類器が補い、学習の「微調整しにくさ」をプロンプトが補う。安全設計をシステム全体の冗長性として捉える視点が、公開資料からも逆算できる。
関連:Fable 5 アクセス制限という別レイヤーの文脈
最後に、時系列の文脈を補足する。本記事が観察したのは「平時の」安全設計だが、Fable 5をめぐっては別の動きもあった。
公開からわずか3日後の2026年6月12日、Fable 5とMythos 5は米政府の指令により全ユーザーでアクセス停止となった。止めたのはAnthropicではなく政府で、Anthropic自身は判断に反対していると表明している。詳細は Claude Fable 5・Mythos 5が使えないのはなぜ?|モデルの違いとアクセス制限をやさしく解説 にまとめた。
観察コメント:システムプロンプトの規約(推論時)、安全分類器(APIフィルタ)、そして提供範囲そのものの制限(アクセス制御)は、すべて別レイヤーの安全策だ。本記事で読んだのは最も内側の「言語による行動規約」であり、その外側に分類器とアクセス制御が重なっている。一つの資料から全体を判断せず、レイヤーを分けて理解することが、この種の話題を誤読しないコツである。
なお、CL4R1T4S運営者のelder-plinius氏が手がける別プロジェクトについては V3SP3R徹底解説|Flipper ZeroをAIエージェントで音声操作するAndroidアプリ でも触れている。同氏のセキュリティ・透明性志向の文脈として参考になる。
まとめ:公開資料から読み取れた設計思想
CL4R1T4Sで公開されたClaude Fable 5のシステムプロンプトを観察し、Anthropicの安全設計を構造の側から読んだ。要点を整理する。
・ペルソナ:能力宣言と安全宣言を並記し、過剰装飾を避ける自然な散文を志向
・拒否パターン:CBRN・児童安全・自傷を専用セクションで扱い、爆発物に重み付け
・dual-use対策:意図の自己申告を免罪符にせず、善意の文脈すら保守的に絞る
・著作権:定性的原則ではなく15語・1ソース1回という数値ハードリミット
・エージェント:MCPはユーザー選択を待ち、自律的副作用にユーザー主権の歯止め
・多層構造:学習(CAI)・システムプロンプト・APIフィルタが互いの弱みを補完
設計思想という観点で一つ通底するのは、「確率的に揺れるモデルを、いかに予測可能な範囲に収めるか」という問題意識だ。能力宣言に安全宣言を並記すること、定性的原則を数値ルールへ翻訳すること、ツールを安全側にデフォルトすること——いずれも、強力だが不確実なシステムを実運用に耐える形へ整える工夫として一貫している。システムプロンプトは、その工夫が言語として可視化された場所なのだ。
こうした分析は、AIを利用する側にとっても示唆がある。自分でアプリやエージェントを設計するとき、「曖昧な指示より数値の閾値」「防御を一箇所に集中させない」「副作用のある操作はユーザーの同意の下に置く」といった原則は、そのまま自前のシステムプロンプト設計に転用できる。公開資料の観察は、最終的にはより良い設計を学ぶための教材になりうる。
繰り返すが、本記事は公開済み資料の学術的観察であり、抽出やジェイルブレイクは扱わない。システムプロンプトは設計思想が露出する貴重な窓だが、そこに書かれた規約はAnthropicの安全設計の一部にすぎない。学習と分類器とアクセス制御を含む全体像の中で読むことが、健全な理解につながる。
参照ソース
・CL4R1T4S(elder-plinius) — システムプロンプト公開アーカイブ
・Anthropic Usage Policy(公式)
・Anthropic「Claude’s Constitution」(Constitutional AI 公式解説)
・Anthropic「Claude Fable 5 / Mythos 5」公式発表