概要
MinerUは、複雑なPDFドキュメントをLLM対応のMarkdownやJSONに変換するオープンソースのドキュメント解析ツールです。GitHubで5.7万スターを獲得し、OCR、レイアウト解析、表抽出、数式認識などの高度な文書理解機能を備えています。RAGシステムやAIエージェントワークフローへのデータ投入パイプラインとして広く活用されています。
研究機関のデータサイエンティスト吉田さんは、MinerUで年間500本以上の論文PDFをMarkdown変換。「数式や表が正確に変換されるので、後続のLLM処理の精度が格段に上がった」と評価しています。
主な機能
- 高精度PDF解析:複雑なレイアウト(段組み、ヘッダー・フッター、注釈)を正確に認識
- OCR内蔵:スキャンPDFや画像内テキストを109言語で認識
- 表抽出:複雑な表構造をMarkdownテーブルとして正確に再現
- 数式認識:インライン・ディスプレイ数式をLaTeX形式に変換
- ハイブリッドバックエンド:パイプラインとVLMの長所を融合した高精度モード
- クロスページ表結合:ページをまたぐ表を自動的に結合
- 多様な出力形式:Markdown、JSON、構造化テキストに対応
技術スタック
- 言語:Python
- OCRエンジン:独自モデル + PaddleOCR
- レイアウト解析:深層学習ベース
- 数式認識:LaTeX変換対応
- 対応GPU:NVIDIA、Ascend、METAX等の主要アクセラレータ
- ライセンス:AGPL-3.0
導入方法
pipまたはuvでインストールできます。
uv pip install "mineru[all]"
コマンドラインから直接PDFを変換できます。
mineru -i input.pdf -o output/
Pythonからも利用可能です。
from mineru import MinerU
converter = MinerU()
result = converter.convert("input.pdf")
print(result.markdown)
Web版はmineru.netで無料利用可能。HuggingFaceやModelScopeのデモ環境でもブラウザから試せます。
競合比較
| 特徴 | MinerU | PyMuPDF | Unstructured | Adobe Extract |
|---|---|---|---|---|
| レイアウト解析 | 非常に高精度 | 基本的 | 高精度 | 高精度 |
| 数式認識 | ○ | × | × | △ |
| OCR | ○(109言語) | △ | ○ | ○ |
| オープンソース | ○ | ○ | △ | × |
| 表抽出精度 | 非常に高い | 低い | 高い | 高い |
こんな人におすすめ
- RAGシステム構築者:PDFナレッジベースを高精度にベクトル化したい
- 研究者・学生:論文PDFをMarkdownに変換してLLMで分析したい
- 法務・会計部門:契約書や報告書のテキスト抽出を自動化したい
- データエンジニア:PDF→構造化データのETLパイプラインを構築したい
- 出版・メディア業界:既存PDF資産のデジタルアーカイブ化を進めたい
実際の使用イメージ
社内に蓄積された数千件のPDFマニュアルをMinerUでバッチ変換し、RAGFlowやLangChainのナレッジベースに投入するのが典型的なユースケースです。表や図のキャプションも構造化されるため、検索精度が大幅に向上します。
製造業の品質管理部門で働く松本さんは、過去20年分の検査報告書4,500件をMinerUで変換。「手作業では1件あたり30分かかっていたのが、バッチ処理で1件2分に短縮。プロジェクト全体で約2,000時間の工数を削減できた」と成果を報告しています。