🏠 ホーム ニュース 📚 トピック解説 🏷️ タグ一覧 ℹ️ About
🔍 記事を検索
カテゴリ
📡 RSSフィード
Follow
X (Twitter) Threads
Quick Links
ニュース一覧 🏷️ タグから探す
🧠 Claude 🤖 Agent 💬 LLM 🔌 MCP 🛠️ Tool
Subscribe
📡 RSSフィード
ホーム rag 2026.03.25

MinerU:PDFをマークダウンに変換する高精度ドキュメント解析ツール

opendatalab/MinerU
57k Python 📄
MinerU:PDFをマークダウンに変換する高精度ドキュメント解析ツール - AIツール日本語解説 | AI Heartland
// なぜ使えるか
複雑なレイアウトのPDFを高精度にMarkdown/JSONに変換。OCR・表・数式・図の認識に対応し、RAGやLLMへのデータ投入パイプラインを大幅に効率化します。

概要

MinerUは、複雑なPDFドキュメントをLLM対応のMarkdownやJSONに変換するオープンソースのドキュメント解析ツールです。GitHubで5.7万スターを獲得し、OCR、レイアウト解析、表抽出、数式認識などの高度な文書理解機能を備えています。RAGシステムやAIエージェントワークフローへのデータ投入パイプラインとして広く活用されています。

主な機能

技術スタック

導入方法

pipまたはuvでインストールできます。

uv pip install "mineru[all]"

コマンドラインから直接PDFを変換できます。

mineru -i input.pdf -o output/

Pythonからも利用可能です。

from mineru import MinerU

converter = MinerU()
result = converter.convert("input.pdf")
print(result.markdown)

Web版はmineru.netで無料利用可能。HuggingFaceやModelScopeのデモ環境でもブラウザから試せます。

競合比較

特徴 MinerU PyMuPDF Unstructured Adobe Extract
レイアウト解析 非常に高精度 基本的 高精度 高精度
数式認識 × ×
OCR ○(109言語)
オープンソース ×
表抽出精度 非常に高い 低い 高い 高い

こんな人におすすめ

実際の使用イメージ

社内に蓄積された数千件のPDFマニュアルをMinerUでバッチ変換し、RAGFlowLangChainのナレッジベースに投入するのが典型的なユースケースです。表や図のキャプションも構造化されるため、検索精度が大幅に向上します。

変換したMarkdownデータをAIエージェントで活用したい場合はDifyOpenHandsも参照してください。

よくある質問
MinerUとは何ですか?
複雑なPDFをLLM対応のMarkdownやJSONに変換するオープンソースのドキュメント解析ツール。GitHub5.7万スター獲得。
MinerUは無料ですか?
はい、AGPL-3.0ライセンスのオープンソースです。Web版はmineru.netで無料利用可能です。
MinerUの特徴は?
OCR(109言語対応)、表抽出、数式のLaTeX変換、クロスページ表結合など高度な文書解析機能を備えています。
MinerUの導入方法は?
uv pip install 'mineru[all]'でインストール。mineru -i input.pdf -o output/で変換できます。
広告
🔌
MCP対応ツール特集
Claude Codeと連携できるMCPサーバーの日本語解説まとめ
GitHub で見る X 🧵 Threads Facebook LINE B! はてブ
Next Read →
💾 MsgVault:Slackメッセージを永続保存して社内ナレッジを全文検索できるOSSツール
関連記事
📊 Microsoft Lida:自然言語からデータビジュアライゼーション自動生成するAIツール
テーブルデータを自然言語で指示するだけで、視覚化とグラフ生成を自動実行。データ分析の初期段階を効率化し、技術スキル不問でインサイト抽出を加速させる。GitHubで3236スター獲得の実績。
2026.03.30
📚 RAGapp:LLMにドキュメントを読ませるOSSプラットフォーム
PDFやテキストをアップロードして、LLMに質問できるRAGシステム。Python+FastAPIで構築され、Docker対応。自分たちの知識ベースでAIを動かしたい開発チーム向け。
2026.03.30
⚡ Strawberry、13万行のReactコードを2週間でSvelteに書き換え。ブラウザ速度2倍化
Strawberry Browserの開発チームがコーディングエージェントを活用し、130,000行のReactコードをSvelteに移植。2週間で完了し、ブラウザの速度は2倍に向上した。
2026.03.30
⚠️ Claude Code、10分ごとに強制的にgit resetを実行。未保存コードが消失する重大バグ
AnthropicのClaude Codeで、10分ごとに自動的にgit reset --hard origin/mainが実行され、未コミットの変更が消失する重大なデータ損失バグが報告された。95回以上の自動リセット履歴が確認されている。
2026.03.30
← Chatterbox TTS Server:クラウド不要でオフライン高品質テキスト音声変換をローカル実現 MsgVault:Slackメッセージを永続保存して社内ナレッジを全文検索できるOSSツール →