Breaking News

2026.03.31 04:34 coding automation benchmark

Marginalia Search、ニューラルネットワークベースのNSFWフィルタ実装。10K件のデータセットで学習

🔍 ニュース

TL;DR

独立系検索エンジンMarginalia Searchが、ユーザーの要望に応えてNSFWフィルタ機能を開発。LLMで自動ラベリングした10,000件のサンプルデータを用いて、シンプルなニューラルネットワークモデルを構築した技術開発記。

何が起きたか

Marginalia Searchの開発者が、NSFW（成人向けコンテンツ）フィルタ機能の開発プロセスを公開した。API利用者からの要望に応える形で、軽量で高速な分類アプローチの構築を進めている。従来のドメインベース（UT1リスト）フィルタリングの限界を補う包括的なアプローチを目指している。

背景と経緯

Marginalia Searchはインディーズの検索エンジンであり、ドメインベースのフィルタリングを備えていたが、その限界が明らかになった。複数のユーザーからNSFWフィルタの実装を求める声が上がり、開発者は本格的な分類器構築に着手。高速性とCPU効率を両立させることが大きな課題となった。最新のトランスフォーマーモデルはこれらの条件を満たさないため、軽量なアプローチへの立ち戻りを余儀なくされた。

技術的な仕組み

開発プロセスは複数の試行錯誤を含んでいた。最初はFastTextを試したが、訓練データのアプローチに課題が生じた。その後、以下のパイプラインが検討されている：

データラベリング戦略

検索エンジン経由でサンプルデータを収集
オープンソースのLLMを活用してラベリング補助を行う
収集したサンプルデータを蓄積

この手法では、高速性と計算効率に制約のある環境で、より高度なモデルの能力を訓練データ作成に活かしながら、最終的には軽量な分類器を用いることを想定している。ollama及びqwenといったオープンソースツールの活用が検討されている。

直面した課題と解決方法

分類器開発では、訓練データ自体のアプローチに課題がある。NSFW関連クエリで収集したデータのみに依存することで、実際のコンテンツ分類の精度に影響が出やすいという問題に直面している。

本来的な解決策は全レコードを包括的に分類することだが、大規模計算には現実的な制約がある。この制約下で、最新技術をラベリング補助に用いながら、最終分類器はシンプルなニューラルネットワークに限定する逆転の発想が生まれた。

設計の哲学

高速性を最優先とした結果、トランスフォーマーやGPU依存モデルは選択肢から除外。代わりに実装容易で推論速度の速いニューラルネットワークが検討されている。この選択により、検索エンジンのリアルタイム処理要件を満たしながら、一定の精度を確保する見通しがある。オープンソースツールの組み合わせで、全体パイプラインの実現を目指している。

今後の展望

このNSFWフィルタはMarginalia SearchのAPI提供者に向けてオプション機能として提供される予定。開発過程で明かされた課題（データの信頼性確保、高速性との両立）は、他の分類タスクにも応用可能な知見を含む。オープンソース検索エンジンにおける実用的な機械学習実装の事例として参考になるだろう。

参考リンク

この記事はAI業界の最新動向を速報でお届けする「AI Heartland ニュース」です。

よくある質問

Q. なぜトランスフォーマーモデルを使わなかったのか？

Marginalia Searchは検索結果のリアルタイムフィルタリングが必要であり、トランスフォーマーはCPU上での処理が遅いため不適切。高速性が最優先条件だった。

Q. Qwenはどの役割を担当したのか？

訓練用サンプルデータの自動ラベリング補助に活用が検討されている。オープンソースのLLMを活用してラベリング補助を行う計画の一部として位置付けられている。

Q. なぜ初期のFastTextアプローチは失敗したのか？

NSFW検索クエリから収集したため、全サンプルに『NSFW関連キーワード』が含まれていた。実際のコンテンツが安全でも、キーワード存在で誤分類された。

Q. 最終的に採用されたモデルの特徴は？

シンプルで実装容易なニューラルネットワーク。CPU上で高速に推論でき、検索エンジンのリアルタイム処理要件を満たす設計になっている。

Q. このフィルタはいつ利用可能になるのか？

Marginalia SearchのAPI提供者に向けてオプション機能として提供される予定とされている。

X 🧵 FB LINE B!

← Pythonで3Dモデル設計を自動化──build123dがCADコーディング革新 Coasts正式公開——Git worktreesで複数の隔離開発環境を同一マシンで実行 →