Hereticとは何か
Hereticは、トランスフォーマーベースの言語モデルからsafety alignment(安全性制御)を全自動で除去するオープンソースツールだ。高額な事後訓練(post-training)を一切必要とせず、コマンドライン操作だけで検閲解除済みのモデルを生成できる。
公式READMEによると、「コマンドラインプログラムの実行方法を知っている人なら誰でも言語モデルの検閲を解除できる」と明記されている。トランスフォーマーの内部構造に関する専門知識は不要だ。
技術的な仕組み
Hereticの中核技術は、directional ablation(abliteration)と呼ばれる手法だ。Arditi et al. 2024の研究をベースに、OptunaによるTPE(Tree-structured Parzen Estimator)ベースのパラメータ最適化を組み合わせている。
具体的には、以下の2つの指標を同時に最小化する:
- 拒否応答の数 — モデルが回答を拒否する頻度
- オリジナルモデルからのKL距離 — 元のモデルの能力をどれだけ保持できているか
この共同最小化により、モデルの知能を可能な限り維持しながら検閲を除去する。公式のベンチマーク結果では、Gemma 3 12Bモデルにおいて、手動でabliterationを行った既存モデルと同等の拒否抑制率(3/100)を達成しつつ、KL距離は0.16と大幅に低い値を記録している。
対応モデルと制限事項
Hereticが対応するモデルアーキテクチャは以下の通り:
- 対応済み: ほとんどのdense(密結合)モデル、多くのマルチモーダルモデル、いくつかのMoEアーキテクチャ
- 未対応: SSM/ハイブリッドモデル、不均一なレイヤー構造のモデル、一部の新しいアテンション機構
Hugging Face上には、コミュニティによって作成された1,000以上のHereticモデルが公開されている。公式リポジトリでも、decensoredモデルのコレクションが提供されている。
LLMのローカル運用とHereticの位置づけ
ローカルLLMの運用では、モデルの応答制御が重要なテーマとなっている。LangChainのようなLLMフレームワークではプロンプトレベルでの制御が一般的だが、Hereticはモデルの重み自体を変更するアプローチを取る。
この手法は、研究目的でのモデル挙動分析や、特定ドメインでの応答制限緩和といった用途が想定される。ただし、生成されたモデルの利用に関しては、各組織のポリシーやモデルのライセンスに従う必要がある点は留意すべきだ。
セットアップと使い方
公式READMEによると、基本的な使い方は以下のコマンドで実行できる:
heretic --model <モデル名>
評価機能も内蔵されており、--evaluate-modelオプションで既存のHereticモデルのベンチマークを再現可能。動作環境としてはPyTorch 2.8以上、CUDA対応のGPUが推奨されている。