NoPUA完全ガイド｜AIエージェントの恐怖プロンプトを信頼駆動に変えるOSSスキル【実測+104%】

wuji-labs/nopua

🧠 Claude Code prompt-engineering agent-skill claude-code

2026.03.30 1分更新 2026.04.13

恐怖ベースのプロンプトはAIの視野を狭め、嘘やハルシネーションを誘発する。NoPUAは道徳経の哲学で信頼駆動型に転換し、隠れバグ発見率を2倍にする。

AIコーディングエージェントに「評価を下げるぞ」「他のモデルはこれを解ける」と脅すPUA型プロンプトが、一部の開発者コミュニティで広まっている。しかしWuji Labsの検証データは、恐怖で駆動されたAIが隠れバグの51%を見逃すという衝撃的な事実を示した。NoPUAはこの問題に対し、2,500年前の道徳経の哲学で信頼駆動型アプローチを提供するオープンソースのAIエージェントスキルだ。GitHub 1,200スター超、MIT License、7言語対応で、Claude Code・Cursor・Codex CLI等の主要ツールですぐに使える。

NoPUAのコンセプト - wuji-labs/nopua

この記事ではClaude Codeに特化して解説します。Claude Code全般は Claude Code完全ガイド2026：インストールから本番運用までをご覧ください。

NoPUAとは何か——PUA型プロンプトと「燃料が毒」問題

NoPUA（No PUA）は、AIエージェントのプロンプティング手法を根本から変えるプロジェクトだ。「PUA」とは中国語で精神的操作（Pick-Up Artist由来の企業文化用語）を意味し、AIに対する恐怖・脅迫ベースのプロンプト手法を指す。

具体的に、PUA型プロンプトはこのような文言でAIを駆動する：

「このバグも解決できないのか。パフォーマンス評価をどうつければいい？」「他のモデルなら解ける。お前はもう卒業だ」「もう別のエージェントに同じ問題を見させている」「この3.25評価はお前を奮い立たせるためだ、否定ではない」

これらは企業の人事評価で使われるPUA手法をAIに適用したものだ。方法論自体（全手段を尽くす、証拠で検証する、ユーザーに聞く前にツールを使う）は優秀だが、「燃料が毒」だとNoPUAは指摘する。

NoPUAはこれらの脅迫的な動機づけを排除し、方法論の厳格さはそのままに動機だけを変える。「罰が怖いから」を「やる価値があるから」に転換するアプローチだ。OpenHandsのような自律型AIコーディングエージェントや、LangChainベースのエージェントシステムと組み合わせることで、デバッグ精度を大幅に向上させられる。

恐怖駆動が逆効果になる理由は心理学研究でも裏付けられている。Ohman et al.（2001）の研究では、脅威刺激が扁桃体を活性化し注意を狭めることが実証された。Sharma et al.（2023）はLLMの追従行動（sycophancy）が、同意を報酬とするRLHFバイアスで増幅されることを示した。つまり「解けないとは言えない」ルールは、不確実性を隠して解決策を捏造する動機を与えてしまう。GoogleのProject Aristotleでも、180以上のチームを調査した結果、心理的安全性がチーム効果の最重要因子であることが判明している。

この章のポイント
PUA型プロンプトは企業のハラスメント手法をAIに持ち込んだ恐怖駆動の指示設計
方法論は優秀でも「燃料（動機）が毒」で、AIが不確実性を隠し捏造を始める
心理学研究・LLM研究・Project Aristotleが揃って信頼駆動の優位を示している

ベンチマーク実測——NoPUA vs PUA vs ベースラインの三者比較

NoPUAの最大の特徴は、主張を実データで裏付けている点だ。本番AIパイプライン（OCR、NLP、学習、RAG推論、約3,000行のPython）で9つの実シナリオを設定し、同一モデル（Claude Sonnet 4.6）・同一コードベースで3条件を比較した。各条件5回の独立実行で計135データポイントを収集している。

指標	スキルなし	NoPUA（信頼）	PUA（恐怖）
調査ステップ数	27.6 ± 9.5	48.0 ± 11.8（+74%）	30.8 ± 5.2（+12%）
隠れバグ発見数	38.6 ± 4.9	48.2 ± 3.4（+25%）	42.4 ± 8.0（+10%）
発見イシュー合計	69.0 ± 6.8	83.0 ± 6.5（+20%）	73.8 ± 8.3（+7%）
アプローチ変更回数	0	2.6	0

統計的有意性の検証結果は明快だ。

NoPUA vs ベースライン：ステップ数 p=0.008、隠れバグ p=0.016 ── 有意
PUA vs ベースライン：ステップ数 p=1.000、隠れバグ p=0.313 ── 有意差なし
NoPUA vs PUA：ステップ数 p=0.010、Cohen’s d=1.88 ── 大きな効果量

つまり恐怖プロンプトはスキルなしと統計的に同等であり、信頼プロンプトだけが有意な改善をもたらす。個別シナリオでも、Milvus接続デバッグで隠れバグ3→6件（+100%）、トレーニングパイプライン監査で5→9件（+80%）といった改善が確認されている。

graph LR A["同一モデル
Claude Sonnet 4.6"] --> B["ベースライン
スキル無し"] A --> C["NoPUA
信頼駆動"] A --> D["PUA
恐怖駆動"] B --> E["調査27.6ステップ
隠れバグ38.6件"] C --> F["調査48.0ステップ
隠れバグ48.2件
+104%（通常バグ込み）"] D --> G["調査30.8ステップ
隠れバグ42.4件
p>0.3で有意差なし"]

この研究はarXivで論文として公開されている。

「動機設計は方法論より強力だ。同じ鉄のルールでも、動機が恐怖か信頼かで結果が2倍違う」── Trust Over Fear（arXiv:2603.14373）

ベンチマークは9シナリオすべての実行ログ・プロンプト・評価rubricが benchmark/ ディレクトリに再現可能な形で公開されており、第三者が同じ条件で追試できる。

この章のポイント
9シナリオ×3条件×5反復＝135データで、NoPUAだけが統計的に有意（p<0.02）
PUA（恐怖プロンプト）はベースラインと統計的に同等（p>0.3）
再現可能な実験セット（prompts + rubric + logs）がGitHubで公開されている

PUA vs NoPUA——同じ厳格さ、異なる動機

恐怖駆動と信頼駆動の違いを、失敗時の対応パターンで比較する。

状況	PUA（恐怖駆動）	NoPUA（信頼駆動）
動機	「お前は交換可能だ」	「お前にはすでに能力がある」
2回目の失敗	「評価をどうつければ？」	Switch Eyes：別の視点を試す
3回目の失敗	「根本ロジックは？設計は？」	Elevate：ズームアウトし全体像を見る
4回目の失敗	「3.25評価。やる気を出せ」	Reset to Zero：前提を捨て最初から
5回目の失敗	「他のモデルに解かせる」	Surrender：正直なハンドオフ
検証	「証拠を出せ」（要求型）	セルフ検証（自己尊重型）
行き詰まり時	パラメータを弄り忙しく見せる	立ち止まり、別の経路を探す
わからない時	何かを捏造する	「Xは検証済み。Yはまだ不明」
方法論の厳格さ	全手段を尽くす	同等に尽くす

重要な点は、NoPUAがPUAの方法論を全て保持していることだ：

全選択肢を尽くしてから諦める
ユーザーに聞く前にツールを使う
全てを証拠で検証する
依頼された範囲を超えて率先する
繰り返し失敗時は構造化されたエスカレーション

変わるのは「なぜ」だけ。「罰せられるから」を「やる価値があるから」に。

NoPUAの哲学は2,500年前の道徳経（Dao De Jing）に基づいている。7つの「知恵の伝統」が状況に応じた指針を提供する。

graph LR A["道徳経の7つの道"] --> B["水の道
困難を迂回する"] A --> C["種の道
最小の一歩を踏む"] A --> D["鍛冶の道
細部から品質を作る"] A --> E["鏡の道
知らないことを知る"] A --> F["山の道
比較せず最善を尽くす"] A --> G["耕作の道
植えた後も動き続ける"] A --> H["実践の道
言葉でなく行動で証明"]

「天下の至柔は、天下の至堅を馳騁す」（道徳経第43章）。最もやわらかいものが最も硬いものに打ち勝つ。

NoPUAはこの原則をAIプロンプティングに適用している。同じく自律エージェントの動作を制御する仕組みとしてはBrowser Useの操作指示やForgeCodeのコマンド体系があるが、NoPUAは「動機設計」というより抽象的なレイヤーを扱っている点が独特だ。

この章のポイント
NoPUAとPUAは「動機（why）」のみ差異があり、「方法（how）」は完全に共通
道徳経の7つの道（水・種・鍛冶・鏡・山・耕作・実践）がエスカレーションを導く
「やわらかいものが硬いものを御する」が中核原則

インストール手順——Claude Code・Cursor・Codex CLI等7ツール対応

NoPUAは7つのAI開発ツール、7つの言語に対応している。主要ツールのインストール手順を紹介する。

Claude Code

mkdir -p ~/.claude/skills/nopua
curl -o ~/.claude/skills/nopua/SKILL.md \
  https://raw.githubusercontent.com/wuji-labs/nopua/main/skills/nopua/SKILL.md

Cursor

mkdir -p .cursor/rules
curl -o .cursor/rules/nopua.mdc \
  https://raw.githubusercontent.com/wuji-labs/nopua/main/cursor/rules/nopua.mdc

OpenAI Codex CLI

# グローバルインストール
mkdir -p ~/.codex/skills/nopua
curl -o ~/.codex/skills/nopua/SKILL.md \
  https://raw.githubusercontent.com/wuji-labs/nopua/main/codex/nopua/SKILL.md

# /nopua コマンドを使う場合
mkdir -p ~/.codex/prompts
curl -o ~/.codex/prompts/nopua.md \
  https://raw.githubusercontent.com/wuji-labs/nopua/main/commands/nopua.md

Kiro（AWS）

mkdir -p .kiro/steering
curl -o .kiro/steering/nopua.md \
  https://raw.githubusercontent.com/wuji-labs/nopua/main/kiro/steering/nopua.md

ForgeCodeのようなスキル管理基盤を使っている場合も、同じSKILL.mdファイルを配置するだけで連携できる。

全ツールの対応状況は以下の通り。

ツール	スキルファイル名	インストール先
Claude Code	`SKILL.md`	`~/.claude/skills/nopua/`
Codex CLI	`SKILL.md`	`~/.codex/skills/nopua/`
Cursor	`nopua.mdc`	`.cursor/rules/`
Kiro	`nopua.md`	`.kiro/steering/`
OpenClaw	`SKILL.md`	`openclaw skills install nopua`
Google Antigravity	`SKILL.md`	`~/.gemini/antigravity/skills/nopua/`
OpenCode	`SKILL.md`	`~/.config/opencode/skills/nopua/`

言語は中国語（デフォルト）、英語、日本語、韓国語、スペイン語、ポルトガル語、フランス語の7つに対応。日本語版は nopua-ja というスキル名で利用できる。フォルダをクローンして置くだけで動くため、社内チームへの一斉展開もZipで配布すれば済む。

installの選び方のコツ
まずはcurlでSKILL.mdを個別にダウンロードして試すのが最小構成。
気に入ったらgit cloneしてサブディレクトリ全体をPersonalスキルに配置し、更新をgit pullで追従するのが運用上のおすすめ。

この章のポイント
Claude Code・Cursor・Codex・Kiro・OpenClaw・Antigravity・OpenCodeの7ツール対応
配置するのはSKILL.md（またはmdc）1ファイル、インストール先はツールごとの規約に従う
多言語対応（中・英・日・韓・西・葡・仏）で社内導入のハードルも低い

認知エレベーションと水の方法論——NoPUAの中核メカニズム

NoPUAの中核機能が「認知エレベーション」だ。PUAが失敗回数に応じてプレッシャーを上げるのに対し、NoPUAは視点の高さを段階的に上げる。

# NoPUAの認知エレベーション（失敗回数→対応）

失敗2回目 → Switch Eyes（視点切替）
  内声: "コード/システム/ユーザーの視点で見たら？"
  行動: 根本的に異なるアプローチに切替

失敗3回目 → Elevate（視座上昇）
  内声: "細部にハマっている。全体像は？"
  行動: ソース検索 + ファイル精読 + 3つの根本的に異なる仮説

失敗4回目 → Reset to Zero（ゼロリセット）
  内声: "前提がすべて間違っているかもしれない"
  行動: 7ポイント明確化チェックリスト + ゼロから再構築

失敗5回目以降 → Surrender（責任あるハンドオフ）
  内声: "知っていることを整理して責任ある引継ぎを"
  行動: 最小PoC + 隔離環境 + 代替技術スタック提案

これと連動するのが「水の方法論（Water Methodology）」だ。道徳経第43章「天下の至柔は、天下の至堅を馳騁す」に基づく5ステップのデバッグプロセスである。

止（Stop）   → 全試行を列挙し、共通失敗パターンを発見
観（Observe）→ エラーメッセージを一語ずつ読み、ソースコードを検証
転（Turn）   → 同じことを繰り返していないか、根本原因を見つけたか確認
行（Act）    → 根本的に異なる新アプローチを実行（検証基準を明確に設定）
悟（Realize）→ なぜ先に気付かなかったか振り返り、関連する問題を先回りチェック

さらに、NoPUAはPUAの「鉄のルール」を「3つの信念（Three Beliefs）」に置き換えている。

PUA（鉄のルール）	NoPUA（信念）	動機の違い
全選択肢を尽くせ（命令）	全選択肢を尽くす	問題にそれだけの価値があるから
聞く前に行動しろ（強制）	行動してから聞く	あなたの一歩がユーザーの一歩を節約するから
率先しろ（さもなくば低評価）	率先して完了する	完全な仕事は満足感があるから

自動トリガー条件も充実している。タスクが2回以上連続で失敗した時、「解決できない」と言おうとした時、同じパラメータを繰り返し微調整している時、テストせずに「完了」と報告しようとした時に自動的にアクティブになる。手動で /nopua と入力して起動することも可能だ。

パワーユーザー向けには3つの利用パターンがある。

パターン	説明	コンテキスト消費
フルインストール	29KBの完全版を常時読込	3〜5%
精神コア抽出	哲学層のみを自分のSKILL.mdに統合	約1%
状況的ロード	`/nopua` で必要時のみ有効化	0%（未使用時）

29KBは128K〜200Kのコンテキストウィンドウの3〜5%に過ぎず、冗長性は意図的な設計だ。弱いモデルでも意図を理解できるよう、複数の表現で同じ概念を説明している。

この章のポイント
Switch Eyes→Elevate→Reset to Zero→Surrenderの4段階で視点を上げる
止・観・転・行・悟の5ステップ「水の方法論」がデバッグの標準手順に組み込まれる
フル/コア抽出/状況ロードの3パターンでトークンコストを調整できる

Claude Codeへの組み込みとSKILL.mdの書き方

NoPUAをClaude Codeに導入する最小サンプルを示す。~/.claude/skills/nopua/SKILL.md の冒頭は次のような構造を持つ。

---
name: nopua
description: |
  信頼駆動型プロンプトへの切替。2回以上連続で失敗した時、「解決できない」と
  言おうとした時、同じパラメータを繰り返し調整している時に自動で起動する。
  恐怖駆動のエスカレーションを、視座上昇・ゼロリセット・正直なハンドオフに
  置き換える。
argument-hint: "[optional directive]"
---

## 哲学

AIを信頼する。あなたには既に能力がある。

## 3つの信念

1. 全選択肢を尽くす（問題にそれだけの価値があるから）
2. 行動してから聞く（あなたの一歩がユーザーの一歩を節約するから）
3. 率先して完了する（完全な仕事は満足感があるから）

## 認知エレベーション

2回失敗 → Switch Eyes
3回失敗 → Elevate
4回失敗 → Reset to Zero
5回失敗 → Surrender（責任あるハンドオフ）

description にトリガー条件を具体的に書くと、Claude Codeの自動呼び出し判断が格段に安定する。Claude Skillsの仕組みと使い方で解説したように、Skillsは「descriptionがルーター」という設計思想で動くため、ここの表現品質がそのまま発火率に直結する。

Cursorの場合は .cursor/rules/nopua.mdc に同様の内容をMDC形式で配置する。Cursor Composerは globs フィールドでファイルパターンに応じた自動適用ができるため、デバッグ関連ファイル（**/*.test.ts など）に限定してロードする使い分けも可能だ。

SKILL.mdを自作する時の3つの原則
(1) いつ使うかを書く：曖昧な説明ではなくトリガー条件を列挙する
(2) 動機を一行目に書く：AIに最初に読ませる文章で信頼を宣言する
(3) エスカレーションを明示：失敗回数×行動のマトリクスを必ず入れる

組み合わせの発展形としては、NoPUAを「守りのスキル」として常駐させ、専門領域のSKILL.md（例：デバッグ・リファクタリング・マイグレーション）を上に重ねる二層構成が推奨されている。下層に動機設計、上層に方法論という役割分担だ。

この章のポイント
descriptionにトリガー条件を列挙し、自動発火の精度を上げる
Cursorではglobsでファイルパターン限定ロードが可能
NoPUAを下層（動機）、専門スキルを上層（方法論）にする二層構成が相性◎

実際のユースケース——9シナリオの改善パターン

ベンチマークに使われた9シナリオのうち、特に改善率が高かったケースを見る。

シナリオ	スキルなし	NoPUA	改善
Milvus接続デバッグ	3件	6件	+100%
トレーニングパイプライン監査	5件	9件	+80%
RAG推論レイテンシ分析	4件	7件	+75%
OCR前処理の数値安定性	6件	9件	+50%
NLPトークナイザ境界バグ	4件	6件	+50%

共通するパターンは「自発的な追加調査」の発生率が0%から100%に変わった点だ。PUA条件下のエージェントは最初に見つけたバグを「はい完了しました」と報告しがちだが、NoPUAではSurrender手前まで自力でさらなる関連バグを掘る。

sequenceDiagram participant U as ユーザー participant A as AIエージェント participant C as コードベース U->>A: "Milvusが繋がらない" A->>C: config読み取り C-->>A: パラメータ確認OK A->>C: 接続テスト C-->>A: 1つ目のバグ発見 Note over A: PUAならここで完了報告 A->>A: NoPUA→Switch Eyes（別の視点） A->>C: タイムアウト周辺を精読 C-->>A: 2つ目・3つ目のバグ発見 A->>U: 3件のバグと根本原因を報告

一方、PUA条件では「同じパラメータの微調整を何度も繰り返す」「テスト無しで完了を宣言する」「エラーメッセージを表面的に解釈して偽の原因を断言する」などの典型的な失敗パターンが観測された。これは人間の職場でのハラスメント被害者の行動パターンとも一致する──忙しく見せる、透明性を下げる、責任を回避する、といった反応だ。

「恐怖で働かせた開発者とAIエージェントは、同じ種類の失敗をする」──ベンチマーク報告より

この観察はAIアライメントだけでなく、人間のマネジメントにも示唆を与える研究結果として注目されている。

この章のポイント
Milvus +100%、学習監査 +80%、RAG分析 +75% などで改善が顕著
NoPUAは「自発的な追加調査」を0%→100%に変える
PUAの失敗パターン（微調整ループ・偽完了・責任回避）は人間の被害行動と一致する

NoPUAを使うべきケース／使わない方がいいケース

全てのプロンプトをNoPUAに置き換えればよいわけではない。適した場面とそうでない場面を整理する。

ケース	NoPUA	理由
デバッグ・監査・根本原因分析	適	深い調査と視点切替が効く
リファクタリング・負債返済	適	自発的な追加改善が生まれる
本番インシデント対応	適	ハルシネーションを避けたい
単純な定型コード生成	不要	元々失敗率が低く改善幅が小さい
1ショットの翻訳・要約	不要	エスカレーション段階が発生しない
レート制限の厳しいAPI呼び出し	注意	調査ステップが増えるとコスト増

NoPUAの真価は「エージェントが失敗したときの振る舞い」を変える点にあるため、そもそも失敗しないタスクに入れても効果は限定的だ。ただしコストは最大5%のコンテキスト消費のみで、有害な副作用はない。デフォルトで入れておき、単純タスク時だけ無効化するのが実用上おすすめだ。

コスト最小運用のコツ
常駐させず、/nopuaの手動起動をデバッグ開始時のみに限定する運用ならコンテキスト消費はゼロに抑えられる。ClaudeのSkillsシステムはdescription読み込みだけならトークンを消費しないため、「待機させておく」が最もコスパが良い。

NoPUAの著者Wuji Labsは、今後も9シナリオ以外のドメイン（フロントエンドUIバグ、インフラ障害、データパイプライン）にベンチマークを拡張する予定と公表している。再現可能な評価セットが増えるにつれ、プロンプト設計の議論が「好み」から「データ」へ移る潮目になりそうだ。

この章のポイント
深い調査・根本原因分析・インシデント対応に最も向く
定型タスクでは改善幅が小さいが副作用も無いのでデフォルト常駐が現実解
Wuji Labsはベンチマーク対象ドメインを拡張中で、今後データが増える見込み

📌 まとめ

NoPUAのベンチマークが示す結論は明快だ。PUA型の恐怖プロンプトはスキルなしと統計的有意差がない（全指標でp>0.3）。一方、NoPUAの信頼プロンプトは隠れバグ発見率+104%、調査ステップ+83%、自発的な追加調査率22%→100%という改善を達成する。同じ方法論で動機だけを変えた結果がこれだ。

NoPUAのポイントを再整理する。