MinerU：PDFをマークダウンに変換する高精度ドキュメント解析ツール

概要

MinerUは、複雑なPDFドキュメントをLLM対応のMarkdownやJSONに変換するオープンソースのドキュメント解析ツールです。GitHubで5.7万スターを獲得し、OCR、レイアウト解析、表抽出、数式認識などの高度な文書理解機能を備えています。RAGシステムやAIエージェントワークフローへのデータ投入パイプラインとして広く活用されています。

研究機関のデータサイエンティスト吉田さんは、MinerUで年間500本以上の論文PDFをMarkdown変換。「数式や表が正確に変換されるので、後続のLLM処理の精度が格段に上がった」と評価しています。

主な機能

高精度PDF解析：複雑なレイアウト（段組み、ヘッダー・フッター、注釈）を正確に認識
OCR内蔵：スキャンPDFや画像内テキストを109言語で認識
表抽出：複雑な表構造をMarkdownテーブルとして正確に再現
数式認識：インライン・ディスプレイ数式をLaTeX形式に変換
ハイブリッドバックエンド：パイプラインとVLMの長所を融合した高精度モード
クロスページ表結合：ページをまたぐ表を自動的に結合
多様な出力形式：Markdown、JSON、構造化テキストに対応

技術スタック

言語：Python
OCRエンジン：独自モデル + PaddleOCR
レイアウト解析：深層学習ベース
数式認識：LaTeX変換対応
対応GPU：NVIDIA、Ascend、METAX等の主要アクセラレータ
ライセンス：AGPL-3.0

導入方法

pipまたはuvでインストールできます。

uv pip install "mineru[all]"

コマンドラインから直接PDFを変換できます。

mineru -i input.pdf -o output/

Pythonからも利用可能です。

from mineru import MinerU

converter = MinerU()
result = converter.convert("input.pdf")
print(result.markdown)

Web版はmineru.netで無料利用可能。HuggingFaceやModelScopeのデモ環境でもブラウザから試せます。

競合比較

特徴	MinerU	PyMuPDF	Unstructured	Adobe Extract
レイアウト解析	非常に高精度	基本的	高精度	高精度
数式認識	○	×	×	△
OCR	○（109言語）	△	○	○
オープンソース	○	○	△	×
表抽出精度	非常に高い	低い	高い	高い

こんな人におすすめ

RAGシステム構築者：PDFナレッジベースを高精度にベクトル化したい
研究者・学生：論文PDFをMarkdownに変換してLLMで分析したい
法務・会計部門：契約書や報告書のテキスト抽出を自動化したい
データエンジニア：PDF→構造化データのETLパイプラインを構築したい
出版・メディア業界：既存PDF資産のデジタルアーカイブ化を進めたい

実際の使用イメージ

社内に蓄積された数千件のPDFマニュアルをMinerUでバッチ変換し、RAGFlowやLangChainのナレッジベースに投入するのが典型的なユースケースです。表や図のキャプションも構造化されるため、検索精度が大幅に向上します。

製造業の品質管理部門で働く松本さんは、過去20年分の検査報告書4,500件をMinerUで変換。「手作業では1件あたり30分かかっていたのが、バッチ処理で1件2分に短縮。プロジェクト全体で約2,000時間の工数を削減できた」と成果を報告しています。