ドキュメント/ナレッジ系OSSの選び方｜知識グラフ・図解生成・構造化抽出マップ

docs-knowledge-oss-pillar-2026

📚 ドキュメント/ナレッジ docs-knowledge ナレッジグラフドキュメント生成構造化抽出 RAG OSS

2026.06.16 1分更新 2026.06.16

ドキュメント/ナレッジ系OSSの選び方｜知識グラフ・図解生成・構造化抽出マップ - AIツール日本語解説 | AI Heartland

AIは数秒でコードや文章を生成するが、人間が理解・検索・再利用できる知識に整えるのは別の作業。このピラーでは「コード→図解」「ナレッジグラフ・知識ベース」「抽出・構造化」の3系統にOSSを分類し、用途別の比較表と選定フローで自分の課題に合う1本を選べるようにする。各系統の代表OSSへの解説記事を束ねるハブとして機能する。

AIは数秒でコードを書き、長い文章を要約します。ところが、生成された大量の情報を人間が「理解できる・検索できる・あとで再利用できる」形に整える作業は、いまだに手作業の負担として残っています。コードベースの全体像を把握するには数時間、社内ドキュメントから必要な一節を探すにも時間がかかる——この「情報を知識に変える」ギャップを埋めるのが、本記事でまとめるドキュメント/ナレッジ系OSSです。

30秒で理解するこのカテゴリ

・コード/データ/PDF/Web/音声を「読みやすい知識」に変換するOSSを、3系統に整理する地図記事
・①コード→図解・アーキ系（oh-my-mermaid・Graphify・CodeGraph・DeepWiki-Open など）
・②ナレッジグラフ・知識ベース系（SurfSense・cognee・Atomic・LightRAG など）
・③データ抽出・構造化系（Hyper-Extract・MinerU・LangExtract・officeParser など）
・各系統の比較表と「用途×OSS」マトリクス、導入の選定フローで、自分の課題に合う1本を選べるようにする

このカテゴリのOSSは「検索して文脈を渡す」RAGの前段、つまりRAGに食わせる知識そのものを作る側に位置するものが多くあります。RAG全体の仕組みから整理したい場合は、先にRAGとは？仕組み・構築・ベクトルDB選定までの2026年実装マップを読むと、本記事の各ツールが「知識を作る道具」か「検索する道具」かをすっきり区別できます。

このカテゴリの定義——「情報→知識」変換の3系統

ドキュメント/ナレッジ系OSSは、入力（何を読むか）と出力（何を作るか）の組み合わせで大きく3系統に分かれます。まず全体像を1枚の図で押さえます。

graph LR subgraph IN["入力：読みづらい情報"] A1["コードベース"] A2["PDF / Office文書"] A3["Web / 会議音声"] A4["会話 / ノート"] end subgraph SYS["3系統のOSS"] B1["①コード→図解・アーキ系
構成図・知識グラフ化"] B2["②ナレッジグラフ・知識ベース系
検索可能な知識に統合"] B3["③抽出・構造化系
構造データを取り出す"] end subgraph OUT["出力：扱いやすい知識"] C1["Mermaid図 / Wiki"] C2["ナレッジグラフ / RAG知識ベース"] C3["JSON / Markdown / 型付き構造"] end A1 --> B1 --> C1 A4 --> B2 --> C2 A2 --> B3 --> C3 A3 --> B3 B3 --> B2

3系統は排他ではありません。抽出・構造化系で取り出した構造データを、ナレッジグラフ・知識ベース系に流し込み、最終的にコード→図解系で俯瞰する——という連携が現場では起こります。この記事では、まず系統ごとに代表OSSを比較し、最後に「自分の課題から逆引きする」マトリクスと選定フローを置きます。

このカテゴリに含めない3つ：純粋なRAG検索フレームワーク（LangChain・RAGFlow等）、ベクトル/グラフDBエンジン（ストレージ層）、エージェント基盤そのもの。これらは「知識を作る」ではなく「検索する／保存する／実行する」が主目的のため、別カテゴリとして扱います。

なぜ今「情報→知識」変換が重要なのか

このカテゴリが2026年に厚みを増しているのには、はっきりした背景があります。 LLMによってコードや文章の「生成」コストが劇的に下がった結果、ボトルネックが生成から理解・検索・再利用の側に移動したからです。

1つ目の理由は、コードの増加です。AIエージェントが書くコード量が増えるほど、人間がレビューし全体像を保つコストが膨らみます。コードベースを図や知識グラフに落とすツールは、この「読む側」の負担を直接削ります。

2つ目は、コンテキストの経済性です。LLMにコードベース全体を読ませると、トークン消費とコストが跳ね上がります。知識グラフで索引を作り「必要な範囲だけ」を渡せれば、ツールコールもコストも減らせます。GraphifyやCodeGraphが大幅な削減を報告しているのは、この経済性に直接効いているからです。トークン最適化の全体像はAIエージェントのトークン最適化ガイドでも整理されています。

3つ目は、RAGの普及です。RAGが当たり前になるほど、「検索される側」の知識ベースの質が結果を左右します。PDFをきれいにMarkdown化する、文書から型付き構造を取り出す——という前処理の良し悪しが、そのままRAGの精度に直結します。

この3つの圧力が生む需要

・コードが増える → コードを図・知識グラフにする道具（①系統）
・コンテキストが高い → 知識を索引化してトークンを節約する道具（①②系統）
・RAGが普及する → 検索される知識を高品質に作る道具（②③系統）
・結果として「情報を知識に変換するOSS」が、生成系AIとセットで必要になっている

コード→図解・アーキ系——コードベースを「読める図」に変える

最初の系統は、コードベースやリポジトリを解析して、アーキテクチャ図・知識グラフ・ドキュメントに変換するOSSです。 AIが書いたコードを人間がレビューする・新メンバーが全体像をつかむ・LLM自身が効率よくコードを読む、といった場面で効きます。

OSS	入力	主な出力	際立つ特徴
oh-my-mermaid	コードベース	Mermaid図＋Markdown（.omm/）	CLI＋Claude Codeスキル、perspective再帰分析
Graphify	コード/文書/画像	ナレッジグラフ	AI検索トークンを大幅削減、マルチモーダル対応
CodeGraph	コードベース	ローカル知識グラフ（MCP）	tree-sitter AST→SQLite、ツールコール71%削減
Understand Anything	コードベース	ナレッジグラフ（Claude Codeプラグイン）	プラグイン形式で対話的に探索
Code Review Graph	コードベース	コード知識グラフ	AST構築、トークン消費を大幅圧縮
DeepWiki-Open	GitHubリポジトリ	AI Wiki	リポジトリ全体を自動ドキュメント化
Google Code Wiki	GitHubリポジトリ	ドキュメント＋アーキ図	Geminiで生成、図とテキストを同時出力
fireworks-tech-graph	自然言語指示	SVG/PNG技術ダイアグラム	8スタイル・14種UML、Claude Skill
Meet HLD Agent	会議音声	Mermaidアーキ図	設計会議からリアルタイム図化

コードからローカルに構成ドキュメントを残したいなら、oh-my-mermaidが入口です。コマンド一発でMermaid図つきのアーキテクチャドキュメントを.omm/に生成し、Gitで履歴管理できます。同じ「コード→知識グラフ」でも、AIエージェントのトークン削減を主目的にするならGraphifyと、その実践編であるgraphifyでトークンを71.5倍削減する知識グラフスキル、そしてMCPサーバーとして動くCodeGraphが候補になります。

対話的にコードベースを探索したいならUnderstand Anything、ASTでコード知識グラフを構築するCode Review Graphも同系統です。リポジトリ全体を「読み物」に起こしたい場合は、AI Wikiを自動生成するDeepWiki-Openや、Geminiでドキュメントとアーキ図を同時に作るGoogle Code Wikiが便利です。

図そのものをピンポイントで作りたいケースもあります。自然言語の指示からUMLやシーケンス図を生成するfireworks-tech-graphは、コードベース全体ではなく「この処理の図が欲しい」に応えます。変わり種として、設計会議の音声からリアルタイムでMermaid図を起こすMeet HLD Agentもこの系統に入ります。

選び方の軸：①出力をGit管理したい→oh-my-mermaid・CodeGraph、②エージェントのコスト削減が主目的→Graphify・CodeGraph、③リポジトリ全体をWiki化→DeepWiki-Open・Google Code Wiki、④単発の図が欲しい→fireworks-tech-graph。

この系統には2つの流派があります。1つは「人間が読む図・ドキュメントを作る」流派（oh-my-mermaid・DeepWiki-Open・Google Code Wiki・fireworks-tech-graph）で、レビューやオンボーディングのコストを下げるのが狙いです。もう1つは「AIが効率よくコードを読むためのグラフを作る」流派（Graphify・CodeGraph・Code Review Graph・Understand Anything）で、こちらはLLMのツールコールとトークンを減らすのが狙いです。同じ「コード→グラフ」でも目的が違うため、まず読む主体が人間かAIかを決めると候補が一気に絞れます。両方を兼ねたい場合は、Gitに残るMermaid出力を持つツール（oh-my-mermaid）と、AI向け索引を持つツール（CodeGraph）を併用するのが現実的です。

ナレッジグラフ・知識ベース系——文書と会話を「検索できる知識」に統合

2つ目の系統は、文書・ノート・会話を集約し、横断検索できる知識ベースやナレッジグラフを構築するOSSです。社内ドキュメントの検索、個人のセカンドブレイン、AIメモリの永続化といった用途に向きます。

OSS	何を統合するか	内部表現	セルフホスト
SurfSense	文書・Web・各種ソース	RAG知識ベース	◯（NotebookLM代替）
cognee	文書・会話	ナレッジグラフ型AIメモリ	◯
Atomic	Markdownノート	意味でつなぐ知識ベース	◯（Rust製）
Claude Memory Compiler	Claude Codeの会話	index.md方式の知識記事	◯（RAG不使用）
LightRAG	文書	知識グラフ＋デュアル検索	◯
notebooklm-py	PDF・各種ソース	NotebookLMの知識ベース	△（NotebookLM自動化）

データ量の制限なく自前で「NotebookLMのようなもの」を持ちたいなら、SurfSenseが第一候補です。自己ホスト可能で、複数ソースを横断する知識ベースを構築できます。知識を「グラフ」として持ち、AIの長期記憶に使いたいならcogneeが向きます。ナレッジグラフ型のRAGメモリで、Claude APIやMCPと連携できます。

Markdownノート派には、ノート同士を意味でつなぐRust製のAtomicが軽量です。ひと味違うのがClaude Memory Compilerで、Claude Codeとの会話そのものをフックで自動キャプチャし、知識記事へコンパイルします。RAGを使わないindex.md方式という設計が特徴です。

「知識グラフ × 検索」を一体で持ちたいならLightRAG、既存のNotebookLMをPython APIから一括処理・自動化したいならnotebooklm-pyが、それぞれ実用的な選択肢になります。

知識ベースとナレッジグラフの境目

・ナレッジグラフ＝概念をノードとエッジで表す「関係のデータ構造」（cognee・LightRAG・Graphify）
・知識ベース＝文書・ノートを検索可能に集約した「貯蔵庫」（SurfSense・Atomic）
・多くのツールは知識ベースの内部でナレッジグラフを使う。両者は重なり合う関係であり、どちらか一方を選ぶ排他的な分類ではない

この系統を選ぶときに効くのは、データの置き場所の判断です。社外秘の文書や個人の記録を扱うなら、クラウドのNotebookLMではなくセルフホスト型（SurfSense・Atomic・cognee）が安心です。逆に、すでにNotebookLMを使っていて運用を自動化したいだけなら、ゼロから知識ベースを作り直さずnotebooklm-pyで一括処理に寄せるほうが速く済みます。もうひとつの軸は「入力が何か」です。整ったMarkdownノートを育てるならAtomic、雑多な複数ソースをまとめて飲み込ませるならSurfSense、AIエージェントの長期記憶として使うならcognee、というように入力の質と用途で住み分けると迷いません。

データ抽出・構造化系——PDF/Web/音声から「構造データ」を取り出す

3つ目は、非構造な入力（PDF・Office文書・Web・会議音声）から、Markdownや型付きの構造データを取り出すOSSです。 RAGや知識グラフの「前処理」を担うことが多く、このカテゴリの土台になります。

OSS	入力	出力	用途の中心
Hyper-Extract	非構造テキスト	8種の型付き知識構造	グラフ/ハイパーグラフ抽出
Google LangExtract	非構造テキスト	構造化抽出（ソース位置追跡）	出典を保ったまま構造化
MinerU	PDF	Markdown（表・数式・レイアウト）	高精度PDF→MD変換
officeParser	docx/xlsx/pptx	AST/テキスト	Office文書のRAG前処理
liteparse	各種文書	パース結果	Rust製・高速RAG前処理
AI Reads Books	PDF	知識ベース	ページ単位でAI解析
Scrapling	Webページ	構造データ	自然言語Webスクレイピング
Meetily	会議音声	議事録・要点	音声→文字起こし・抽出

テキストから「型」を選んで知識構造を取り出すならHyper-Extractが強力で、グラフからハイパーグラフ、時空間グラフまで標準で扱えます。出典の位置を保ったまま構造化したいならGoogle LangExtractが向きます。

PDFの取り扱いは選択肢が多く、表・数式・レイアウトを高精度にMarkdown化するMinerU、ページ単位でAI解析して知識ベースを作るAI Reads Booksが代表です。Office文書まで含めるならofficeParser、Rustで前処理速度を稼ぐならliteparseが候補になります。どのPDF抽出OSSがライセンス・用途に合うか迷ったら、用途別・ライセンス別に8本を比較したAI PDF要約ツール8選が選定の近道です。

Webを対象にするなら、自然言語の指示で構造データを抜き出すScrapling、会議の音声を文字起こしして要点まで抽出するMeetilyが、それぞれ「Web→構造」「音声→構造」を担います。

この系統で見落としやすいのが出典の追跡です。抽出した知識が「元のどこから来たか」を保てるかどうかで、後工程のファクトチェックのしやすさが変わります。Google LangExtractがソース位置の追跡を備えているのはこの理由からで、決算資料や契約書のように根拠が重要な文書では効いてきます。また、PDFは「テキストレイヤーがあるか」「表や数式が多いか」で最適なツールが変わります。表・数式・段組みが多い学術PDFや財務資料ならMinerUの精度が活き、軽量に大量処理したいならliteparseやofficeParserが向きます。入力の性質をひとことで言語化してから選ぶと、前処理の作り直しを避けられます。

用途×OSS 推奨マトリクス——課題から逆引きする

ここまでの3系統を、よくある課題から逆引きできるようにまとめます。

やりたいこと	第一候補	次の候補
コードの全体像を図で残す	oh-my-mermaid	CodeGraph / Code Review Graph
リポジトリをWiki化する	DeepWiki-Open	Google Code Wiki
エージェントのトークンを削る	Graphify	CodeGraph
単発の技術図（UML等）が欲しい	fireworks-tech-graph	Meet HLD Agent
社内文書を横断検索する	SurfSense	cognee
ノートを知識として育てる	Atomic	Claude Memory Compiler
知識グラフ×RAGを一体で持つ	LightRAG	cognee
PDFをMarkdownにする	MinerU	officeParser / liteparse
テキストから型付き構造を抽出	Hyper-Extract	Google LangExtract
Webを構造データにする	Scrapling	—
会議音声を議事録にする	Meetily	—

まず「入力（何を読むか）」で系統を絞り、次に「出力（何を作るか）」で1本に決めるのが迷わない順番です。入力がコードなら①、文書・会話の集約なら②、PDF/Web/音声の取り出しなら③、と当たりをつけてから上の表を引いてください。

導入ステップ——小さく試して計測する

新しい知識化OSSを本番に入れる前に、次の流れで小さく検証するのが安全です。

graph TD S1["① 課題を1つに絞る
例：レビュー時間 / 文書検索 / PDF処理"] --> S2["② 入力で系統を選ぶ
コード=① 文書=② PDF/Web/音声=③"] S2 --> S3["③ 比較表から1本を選定
ライセンスとセルフホスト可否を確認"] S3 --> S4["④ 小さなサンプルで試す
実リポジトリ/実文書の一部だけ"] S4 --> S5["⑤ 効果を計測する
トークン量 / 検索精度 / 所要時間"] S5 --> S6{"期待値を
満たした？"} S6 -->|Yes| S7["本番導入・自動化へ"] S6 -->|No| S2

特にエージェントのトークン削減を狙う知識グラフ系は、効果がコードベースの構造に依存します。 GraphifyやCodeGraphの削減率は公式に報告されていますが、自分のリポジトリで「ツールコール数・トークン量・所要時間」を実測してから判断するのが堅実です。

3系統は単体で使うだけでなく、つなげると効果が大きくなります。たとえば社内ナレッジ検索を作るなら、次のような連携が現実的です。

・③抽出・構造化：散らばったPDF・議事録をMinerUやMeetilyでMarkdown・構造データに変換する
・②ナレッジグラフ・知識ベース：それらをSurfSenseやcogneeに流し込み、横断検索できる知識ベースにする
・①コード→図解：関連する社内コードの全体像はoh-my-mermaidで図にし、ドキュメントと並べて参照する

この「抽出→統合→俯瞰」の流れを一度パイプラインとして組んでおくと、新しい文書やコードが増えても同じ手順で知識化を回せます。最初から全部をつなぐ必要はありません。最も痛い1工程を1本のOSSで置き換えるところから始め、効果を確認しながら前後の工程を足していくのが、破綻しない進め方です。

ライセンスの落とし穴：PDF抽出系には商用配布に制約のあるライセンス（AGPL-3.0など）が混じります。社内ツールに組み込む前に、各OSSの個別解説でライセンスを確認してください。詳しくはAI PDF要約ツール8選のライセンス比較が参考になります。

まとめ——「情報を知識に変える」道具を1本ずつ揃える

ドキュメント/ナレッジ系OSSは、AIが生み出す大量の情報を、人間とAIの双方が扱える知識へ橋渡しする道具です。 3系統で整理すると、自分の課題がどこに当たるかが見えてきます。

・コードを図やドキュメントにしたい → oh-my-mermaid・Graphify・CodeGraph・DeepWiki-Open
・文書や会話を検索できる知識にしたい → SurfSense・cognee・Atomic
・PDF/Web/音声から構造を取り出したい → Hyper-Extract・MinerU・Google LangExtract

まずは課題を1つに絞り、入力で系統を選び、比較表から1本を試す——この順番で、自分のワークフローに合う知識化OSSを少しずつ揃えていくのがおすすめです。個別のツールはこのトピック配下の各解説記事で、インストールから使い方まで一次ソースで掘り下げています。

最後に強調したいのは、知識化は一度作って終わりではなく、運用し続けるものだという点です。コードも文書も日々変わるため、図やグラフ、知識ベースは定期的に再生成して鮮度を保つ必要があります。この観点では、出力がローカルファイルとしてGit管理できるツール（oh-my-mermaid・CodeGraph）や、フックで自動更新されるツール（Claude Memory Compiler）が、運用の手離れが良く有利です。導入時には「最初の生成のしやすさ」だけでなく「更新の自動化しやすさ」も評価軸に入れておくと、半年後に陳腐化した図を放置する事態を避けられます。このトピックは今後も新しいOSSが登場するたびに各系統へ追記していく予定なので、知識化の道具を探すときの起点として使ってください。

参照ソース

・oh-my-mermaid 公式リポジトリ（github.com/oh-my-mermaid/oh-my-mermaid）
・RAGとは？仕組み・構築・ベクトルDB選定までの2026年実装マップ

よくある質問

ドキュメント/ナレッジ系OSSとは何を指しますか？

コードやデータ、PDF、Web、音声といった「そのままでは読みづらい情報」を、図表・ドキュメント・知識グラフ・検索可能な知識ベースといった「人間とAIが扱いやすい知識」に変換するOSSの総称です。本記事では大きく『コード→図解・アーキ系』『ナレッジグラフ・知識ベース系』『データ抽出・構造化系』の3系統に分けて整理しています。エージェントフレームワークやベクトルDBエンジンそのものは、目的が違うためこのカテゴリには含めていません。

コードベースを図にしたい場合、どのOSSから試すべきですか？

ローカルにMermaidとMarkdownで構成ドキュメントを残したいなら、oh-my-mermaidかCodeGraphが入口になります。GitHubリポジトリ全体をWiki形式に起こしたいならDeepWiki-OpenやGoogle Code Wiki、自然言語の指示から個別の技術ダイアグラム（UMLやシーケンス図）を作りたいならfireworks-tech-graphが向きます。AIエージェントのトークン削減が主目的なら、知識グラフ型のGraphifyやCodeGraphが効果を出しやすい構成です。

ナレッジグラフと知識ベース（ナレッジベース）はどう違いますか？

ナレッジグラフはノードとエッジで概念同士の関係を表現したデータ構造で、Graphify・cognee・LightRAGなどが該当します。知識ベース（ナレッジベース）はより広く、文書やノートを検索可能な形に集約したものを指し、SurfSenseやAtomicのようなNotebookLM代替・セルフホスト型が代表です。実装上は知識ベースの内部表現としてナレッジグラフを使うツールもあり、両者は排他ではなく重なり合います。

PDFや非構造テキストを構造化したいときの選択肢は？

PDFをMarkdownに高精度変換したいならMinerU、docx/xlsx/pptxを含むOffice文書のパースならofficeParser、Rustで高速にRAG前処理をしたいならliteparseが候補です。テキストから型付きの知識構造（グラフやリスト）を取り出すならHyper-ExtractやGoogle LangExtract、Webページを自然言語指示で構造化したいならScraplingが向きます。どのPDF抽出OSSが自分のライセンス要件に合うかは、比較記事『AI PDF要約ツール8選』で用途別に整理しています。

RAGフレームワークとこのカテゴリのOSSはどう使い分けますか？

RAGフレームワーク（LangChainやRAGFlowなど）は『検索して文脈をLLMに渡す』検索拡張生成の仕組みそのものを提供します。一方このカテゴリのOSSは、RAGに食わせる前段の『知識を作る』側を担うものが中心です。たとえばHyper-Extractで知識グラフを作り、それをRAGの検索対象にする、という分業になります。RAG全体の仕組みから知りたい場合は、RAGの実装マップを先に読むと位置づけが整理できます。

AIエージェントのトークンコストを下げる効果はありますか？

知識グラフ系のOSSは、コードベースをグラフとして索引化することでLLMが読むべき範囲を絞り込み、ツールコールやトークン消費を減らせる場合があります。GraphifyやCodeGraphは実測でツールコールやコストの大幅削減を報告しています。ただし効果はコードベースの構造や使い方に依存するため、自分のリポジトリで小さく試して計測するのが安全です。

商用プロジェクトで使えますか？

多くがMITやApache-2.0などの寛容なライセンスで公開されており商用利用できますが、PDF抽出系の一部にはAGPL-3.0など配布条件の厳しいものもあります。各OSSの個別解説記事でライセンスを明記しているので、社内ツールやプロダクトへの組み込み前に必ず確認してください。抽出にLLM APIを使う場合は、そのプロバイダー側の利用規約も別途チェックが必要です。

📚

ドキュメント/ナレッジ

コード/データ/PDF/Webから知識・図表・ドキュメントを生成・抽出・構造化するOSS。ナレッジグラフ・RAG用知識ベース構築・コードベース図解まで →