ホーム 2026.03.25

MinerU:PDFをマークダウンに変換する高精度ドキュメント解析ツール

opendatalab/MinerU
57k Python 📄
MinerU:PDFをマークダウンに変換する高精度ドキュメント解析ツール
// なぜ使えるか
複雑なレイアウトのPDFを高精度にMarkdown/JSONに変換。OCR・表・数式・図の認識に対応し、RAGやLLMへのデータ投入パイプラインを大幅に効率化します。

概要

MinerUは、複雑なPDFドキュメントをLLM対応のMarkdownやJSONに変換するオープンソースのドキュメント解析ツールです。GitHubで5.7万スターを獲得し、OCR、レイアウト解析、表抽出、数式認識などの高度な文書理解機能を備えています。RAGシステムやAIエージェントワークフローへのデータ投入パイプラインとして広く活用されています。

研究機関のデータサイエンティスト吉田さんは、MinerUで年間500本以上の論文PDFをMarkdown変換。「数式や表が正確に変換されるので、後続のLLM処理の精度が格段に上がった」と評価しています。

主な機能

技術スタック

導入方法

pipまたはuvでインストールできます。

uv pip install "mineru[all]"

コマンドラインから直接PDFを変換できます。

mineru -i input.pdf -o output/

Pythonからも利用可能です。

from mineru import MinerU

converter = MinerU()
result = converter.convert("input.pdf")
print(result.markdown)

Web版はmineru.netで無料利用可能。HuggingFaceやModelScopeのデモ環境でもブラウザから試せます。

競合比較

特徴 MinerU PyMuPDF Unstructured Adobe Extract
レイアウト解析 非常に高精度 基本的 高精度 高精度
数式認識 × ×
OCR ○(109言語)
オープンソース ×
表抽出精度 非常に高い 低い 高い 高い

こんな人におすすめ

実際の使用イメージ

社内に蓄積された数千件のPDFマニュアルをMinerUでバッチ変換し、RAGFlowやLangChainのナレッジベースに投入するのが典型的なユースケースです。表や図のキャプションも構造化されるため、検索精度が大幅に向上します。

製造業の品質管理部門で働く松本さんは、過去20年分の検査報告書4,500件をMinerUで変換。「手作業では1件あたり30分かかっていたのが、バッチ処理で1件2分に短縮。プロジェクト全体で約2,000時間の工数を削減できた」と成果を報告しています。

GitHub で見る
関連記事
🎙️ ローカルTTSでAI音声、やっと自由になった
クラウドTTSの依存から抜け出して、オフラインで高品質な音声生成ができるようになった
2026.03.25
🐚 SSH経由でコンテナ起動、まさかこれが簡単にできるとは
SSHクライアントの標準機能だけでコンテナを動的に起動・管理できる仕組みに感動した
2026.03.25
📚 イベント駆動アーキテクチャのカタログ化ツール
イベント駆動設計をドキュメント化・可視化・共有できるオープンソースプラットフォーム
2026.03.24
🔤 テキスト認識用の合成データ自動生成ツール
機械学習モデル訓練用のテキスト認識データセットを自動生成できるツール
2026.03.24
← ローカルTTSでAI音声、やっと自由になった Claude Computer Use が正式ベータに — AIがあなたのPCを直接操作する時代 →