Extractousとは何ですか？

PDF・画像・動画などマルチフォーマットのテキスト抽出を統一インターフェースで実現するOSSライブラリです。OCRビルトイン対応です。

Extractousの特徴は？

ファイル形式を自動判定して統一APIで処理するため、形式ごとにライブラリを分ける必要がなく、前処理スクリプトが大幅に簡略化されます。

Extractousはどう使いますか？

setup.pyでインストール後、extractous extract --input sample.pdf --output out.txtのようにコマンドで実行します。Pythonからも直接呼び出せます。

Extractous：PDF・画像・動画を統一APIでテキスト抽出しRAG構築の前処理を効率化

きっかけ

LLMでドキュメント処理を扱う案件が増えてきて、PDFと画像を混在したデータセットが来るたびに、形式ごとに処理ロジックを分けるのが面倒になってた。pypdfでPDF、Pillowで画像、みたいに毎回ライブラリを組み合わせるのは、依存関係の管理も地味に負担。何かまとめて扱えるツールないかなと探してたら、これが目に入った。エンタープライズ向けのRAGシステム全体の構築方法を知りたい方はRAGFlowで本格的なRAGシステムを構築するも参考になります。

使ってみた

GitHubから落としてsetup.pyで入れたら、本当に数分で動いた。ドキュメント見ながら試しに extractous extract --input sample.pdf --output out.txt みたいなコマンド打ったら、そのままテキストが出てくる。「え、これだけ？」って感じ。その後、同じコマンドラインで画像をぶっ込んでみても、自動で形式を判定して処理してくれる。インターフェースがシンプルだから、スクリプト側で分岐させる必要がなくて楽。Pythonからも直接呼び出せるのも地味にポイント高い。

ここが良い

一番良いのは、複数ファイル形式を統一APIで扱える設計。PDF、画像、動画とか、形式の種類を気にせず同じロジックで処理できるから、前処理スクリプトの複雑度がガッと下がる。実案件でも、バッチ処理でPDFと画像を混ぜたデータセットを流してみたら、エラーハンドリング含めてシンプルに収まった。あと、OCRもビルトインされてるのか、画像内のテキストもちゃんと拾ってくれた。その結果、わざわざopenCVやTesseractを別に組む必要なくなって、依存関係がスッキリした。

気になった点

ドキュメントがまだちょっと薄い感じで、細かい挙動をテストで確認しながら進めることになった。あと、大きなファイルを一気に処理すると、メモリ使用量が結構いくみたい。数GBの動画とかは小分けして走らせる工夫がいるかもしれない。

まとめ

マルチフォーマット対応のデータ前処理が必要な人には、試す価値ある。今は依存ライブラリを何個も管理してるなら、このツール使うだけで結構スッキリするはず。自分は今後もプロジェクトで使い続けるつもり。テキスト抽出後にPDFをMarkdown変換したい場合はHelixDBでドキュメントの高速検索を実現する方法も合わせてチェックしてみてください。

参考リンク

yobix-ai/extractous - GitHub