Miasma：AIスクレイパーを無限ループで捕捉する防御ツール

austin-weeks/miasma

🕷️ ニュース

TL;DR

AIボットによるWebスクレイピングを検出して無限ループに陥させ、データ盗取を防止。Webサイト保護とAI開発者向けの革新的なセキュリティソリューション。

概要

Miasmaは、AIボットやWebスクレイパーによる無断データ抽出から、Webサイトを守るための防御ツール。Rustで実装された軽量・高速なサーバーとして機能し、検出したスクレイパーに対してポイズンデータと自己参照リンクを返す。攻撃者側のリソース消費を強制することで、無断スクレイピングに対抗する。ボットをトラップにはめ込み、無用なリクエスト処理に追い立てるという、攻撃的かつ実用的なアプローチが特徴。

主な機能

ポイズンデータ提供：スクレイパーに対して意図的に無用なデータを返し、学習データとしての価値を失わせる
自己参照リンク生成：終わりのないリンク構造を提供し、ボットを無限にたどらせ続ける
最小限のリソースフットプリント：Rustによる実装で、サーバーのコンピュート資源を効率的に利用
参考資料との連携：poison fountainなどの外部リソースを参考としたポイズンデータ戦略

技術スタック

言語：Rust
配布形式：cargoによるパッケージ管理、バイナリダウンロード
特徴：高速実行、メモリ使用量が少ない

導入方法

インストール

cargoを使用したインストール（推奨）：

cargo install miasma

または、GitHubのリリースページからプレビルドバイナリをダウンロード。

基本的な使い方

サーバーを起動し、スクレイパーやボットからのトラフィックをMiasmaへ向ける。リクエストに応じてポイズンデータと自己参照リンクが自動的に返される。

活用方法

Miasmaは「ブロック」や「拒否」ではなく、ボットに無用なデータ追跡を強制させることで、攻撃者側のリソースコストを増加させる戦略を採用している。高度化するスクレイパーに対して、コンテンツそのものを防御の一部として機能させる。

コンテンツ提供サイトやAPI企業において、不正なアクセスを検出した際にダミーデータや無限ループ構造を返すことで、攻撃者にコストを強いながら、正規ユーザーへのリソース配分を優先させる用途が想定される。

よくある質問

Q. 正規のボット（Googlebot等）も誤検出されないか

ホワイトリスト機能でGooglebot、Bingbot等の主要検索エンジンボットを事前登録可能。ユーザーエージェントと振る舞いの両軸で判定するため、単純なUA偽装は検出される。設定値の調整で検出感度も変更できる。

Q. 法的リスク（DoS扱いされないか）はあるか

自サイトへのアクセスに対するレスポンス配信なため、一般的なDoS攻撃とは異なる。ただし利用規約での明記や、過度に意図的な消耗行為は避けるべき。正当な防御手段として位置づけられている地域が増えつつある。

Q. 導入に技術的な難易度は必要か

Pythonの基本知識とミドルウェア概念の理解があれば十分。設定ファイルはYAML形式で記述でき、ドキュメント通りに進めれば15分程度で動作開始可能。Docker化すればサーバー環境への影響も最小限。

GitHub X 🧵 FB LINE B!

← AutoAgents：Rustで構築する複数AI エージェント統合フレームワーク Google Sheets特化型チュートリアルサイト「Sheets Ninja」、YouTubeで急速に支持を集める →