Marginalia Searchの開発者が、NSFW(成人向けコンテンツ)フィルタ機能の開発プロセスを公開した。API利用者からの要望に応える形で、軽量で高速な分類アプローチの構築を進めている。従来のドメインベース(UT1リスト)フィルタリングの限界を補う包括的なアプローチを目指している。
Marginalia Searchはインディーズの検索エンジンであり、ドメインベースのフィルタリングを備えていたが、その限界が明らかになった。複数のユーザーからNSFWフィルタの実装を求める声が上がり、開発者は本格的な分類器構築に着手。高速性とCPU効率を両立させることが大きな課題となった。最新のトランスフォーマーモデルはこれらの条件を満たさないため、軽量なアプローチへの立ち戻りを余儀なくされた。
開発プロセスは複数の試行錯誤を含んでいた。最初はFastTextを試したが、訓練データのアプローチに課題が生じた。その後、以下のパイプラインが検討されている:
データラベリング戦略
この手法では、高速性と計算効率に制約のある環境で、より高度なモデルの能力を訓練データ作成に活かしながら、最終的には軽量な分類器を用いることを想定している。ollama及びqwenといったオープンソースツールの活用が検討されている。
分類器開発では、訓練データ自体のアプローチに課題がある。NSFW関連クエリで収集したデータのみに依存することで、実際のコンテンツ分類の精度に影響が出やすいという問題に直面している。
本来的な解決策は全レコードを包括的に分類することだが、大規模計算には現実的な制約がある。この制約下で、最新技術をラベリング補助に用いながら、最終分類器はシンプルなニューラルネットワークに限定する逆転の発想が生まれた。
高速性を最優先とした結果、トランスフォーマーやGPU依存モデルは選択肢から除外。代わりに実装容易で推論速度の速いニューラルネットワークが検討されている。この選択により、検索エンジンのリアルタイム処理要件を満たしながら、一定の精度を確保する見通しがある。オープンソースツールの組み合わせで、全体パイプラインの実現を目指している。
このNSFWフィルタはMarginalia SearchのAPI提供者に向けてオプション機能として提供される予定。開発過程で明かされた課題(データの信頼性確保、高速性との両立)は、他の分類タスクにも応用可能な知見を含む。オープンソース検索エンジンにおける実用的な機械学習実装の事例として参考になるだろう。
この記事はAI業界の最新動向を速報でお届けする「AI Heartland ニュース」です。