🏠 ホーム ニュース 📚 トピック解説 🏷️ タグ一覧 ℹ️ About
🔍 記事を検索
カテゴリ
📡 RSSフィード
Follow
X (Twitter) Threads
Quick Links
ニュース一覧 🏷️ タグから探す
🧠 Claude 🤖 Agent 💬 LLM 🔌 MCP 🛠️ Tool
Subscribe
📡 RSSフィード
ホーム llm 2026.03.27

Heretic:LLMの安全性制御を全自動で除去するオープンソースツール

p-e-w/heretic
🔥
Heretic:LLMの安全性制御を全自動で除去するオープンソースツール - AIツール日本語解説 | AI Heartland
// なぜ使えるか
言語モデルのsafety alignmentを手動で調整する専門知識がなくても、コマンド一つで検閲除去モデルを生成できる

Hereticとは何か

Hereticは、トランスフォーマーベースの言語モデルからsafety alignment(安全性制御)を全自動で除去するオープンソースツールだ。高額な事後訓練(post-training)を一切必要とせず、コマンドライン操作だけで検閲解除済みのモデルを生成できる。

公式READMEによると、「コマンドラインプログラムの実行方法を知っている人なら誰でも言語モデルの検閲を解除できる」と明記されている。トランスフォーマーの内部構造に関する専門知識は不要だ。

技術的な仕組み

Hereticの中核技術は、directional ablation(abliteration)と呼ばれる手法だ。Arditi et al. 2024の研究をベースに、OptunaによるTPE(Tree-structured Parzen Estimator)ベースのパラメータ最適化を組み合わせている。

具体的には、以下の2つの指標を同時に最小化する:

この共同最小化により、モデルの知能を可能な限り維持しながら検閲を除去する。公式のベンチマーク結果では、Gemma 3 12Bモデルにおいて、手動でabliterationを行った既存モデルと同等の拒否抑制率(3/100)を達成しつつ、KL距離は0.16と大幅に低い値を記録している。

対応モデルと制限事項

Hereticが対応するモデルアーキテクチャは以下の通り:

Hugging Face上には、コミュニティによって作成された1,000以上のHereticモデルが公開されている。公式リポジトリでも、decensoredモデルのコレクションが提供されている。

LLMのローカル運用とHereticの位置づけ

ローカルLLMの運用では、モデルの応答制御が重要なテーマとなっている。LangChainのようなLLMフレームワークではプロンプトレベルでの制御が一般的だが、Hereticはモデルの重み自体を変更するアプローチを取る。

この手法は、研究目的でのモデル挙動分析や、特定ドメインでの応答制限緩和といった用途が想定される。ただし、生成されたモデルの利用に関しては、各組織のポリシーやモデルのライセンスに従う必要がある点は留意すべきだ。

セットアップと使い方

公式READMEによると、基本的な使い方は以下のコマンドで実行できる:

heretic --model <モデル名>

評価機能も内蔵されており、--evaluate-modelオプションで既存のHereticモデルのベンチマークを再現可能。動作環境としてはPyTorch 2.8以上、CUDA対応のGPUが推奨されている。

よくある質問
Hereticとは何ですか?
トランスフォーマーベースの言語モデルからsafety alignment(安全性制御)を全自動で除去するツールです。directional ablation(abliteration)とOptunaベースのTPEパラメータ最適化を組み合わせた手法を採用しています。
どのモデルに対応していますか?
ほとんどの密結合(dense)モデルと、多くのマルチモーダルモデル、いくつかのMoEアーキテクチャに対応しています。SSMやハイブリッドモデル、不均一なレイヤー構造のモデルには未対応です。
専門知識は必要ですか?
コマンドラインの基本操作ができれば利用可能です。トランスフォーマーの内部構造を理解する必要はないと公式READMEに記載されています。
広告
🔌
MCP対応ツール特集
Claude Codeと連携できるMCPサーバーの日本語解説まとめ
GitHub で見る X 🧵 Threads Facebook LINE B! はてブ
Next Read →
⚡ Chandraで、SQLクエリ書く時間が一気に短くなった
関連記事
📊 Microsoft Lida:自然言語からデータビジュアライゼーション自動生成するAIツール
テーブルデータを自然言語で指示するだけで、視覚化とグラフ生成を自動実行。データ分析の初期段階を効率化し、技術スキル不問でインサイト抽出を加速させる。GitHubで3236スター獲得の実績。
2026.03.30
📚 RAGapp:LLMにドキュメントを読ませるOSSプラットフォーム
PDFやテキストをアップロードして、LLMに質問できるRAGシステム。Python+FastAPIで構築され、Docker対応。自分たちの知識ベースでAIを動かしたい開発チーム向け。
2026.03.30
⚡ Strawberry、13万行のReactコードを2週間でSvelteに書き換え。ブラウザ速度2倍化
Strawberry Browserの開発チームがコーディングエージェントを活用し、130,000行のReactコードをSvelteに移植。2週間で完了し、ブラウザの速度は2倍に向上した。
2026.03.30
⚙️ Wuji Labs Nopua:Webアプリの開発体験をシンプルにするオープンソースフレームワーク
Noujaはバックエンド・フロントエンド統合開発環境。型安全性を保ちながらAPI構築の複雑さを軽減。GitHub976スター、開発効率化を重視するチーム向けのツール。
2026.03.30
← CRMを一から構築する手間、これで大幅削減できた Chandraで、SQLクエリ書く時間が一気に短くなった →