ホーム 2026.03.24

テキスト認識用の合成データ自動生成ツール

Belval/TextRecognitionDataGenerator
3653 Python 🔤
テキスト認識用の合成データ自動生成ツール
// なぜ使えるか
数千〜数万の合成テキスト画像を自動生成でき、OCRやテキスト認識モデルの訓練に必要なラベル付きデータセットを短時間で準備できます。

概要

TextRecognitionDataGeneratorは、OCR(光学文字認識)やテキスト認識モデルの訓練に必要な合成データを自動生成するPythonツールです。2017年にBelvalによって開発され、機械学習エンジニアの「大量のラベル付きテキスト画像をどう集めるか」という課題を解決してきました。

具体例:AI企業のデータサイエンティスト・田中さんは、日本の領収書認識モデルを構築する際、実画像の手作業ラベリングに2ヶ月要する予定でしたが、このツールで合成領収書を5,000枚生成し、わずか3日で初期モデルの訓練完了。その後の実画像での微調整で精度を90%まで引き上げることができました。

主な機能

技術スタック

導入方法

インストール

# pipを使った標準インストール
pip install trdg

# または、リポジトリをクローンして直接実行
git clone https://github.com/Belval/TextRecognitionDataGenerator
cd TextRecognitionDataGenerator
pip install -r requirements.txt

基本的な使用方法

# 1,000枚のランダムテキスト画像を生成
python run.py -c 1000 -w 256 -f 32

# 特定のテキストリストから画像生成
python run.py -i input.txt -c 1000 -w 256

# 複数フォント、背景、ノイズを含めた複雑な生成
python run.py -c 5000 -w 256 -f 32 --blur --distortion --background --count-by-picking-random-words

オプション説明

競合比較

項目 TextRecognitionDataGenerator Synthetic Data Vault(SDV) imgaug
主用途 テキスト認識用合成データ テーブル・時系列データ合成 画像オーグメンテーション
セットアップ難易度 低(数分で開始可能) 中程度(データ定義が必要) 中程度(パイプライン設定)
ラベル付け自動化 ◎完全自動 △手動対応必要 ◎自動的に保持
フォントカスタマイズ ◎豊富 △限定的 △なし
メンテナンス状況 活発 活発 活発
ライセンス MIT MIT BSD

差別化ポイント:TextRecognitionDataGeneratorの最大の強みは、OCR・テキスト認識タスクに特化した設計にあります。フォント、テキストサイズ、背景、ノイズを統合的にコントロールでき、生成された画像に自動的に正解ラベルが付与されるため、TensorFlowやPyTorchのデータローダーにそのまま投入できます。一方、imgaugは既存画像のオーグメンテーション(変形・回転など)に特化し、SDVは構造化データ合成に特化しているため、テキスト認識用の合成画像生成という特定の用途では、このツールが最適です。

活用シーン

1. 多言語OCRモデルの開発

グローバルeコマース企業の機械学習エンジニア・李さんは、日本語、中国語、英語の混在した商品タグの認識モデルを構築していました。各言語ごとに5,000枚の実撮影画像を集めるのに6週間かかる予定でしたが、このツールで言語別フォント設定を切り替えて合計15,000枚の合成データを3日で生成。初期訓練データとして活用し、その後わずか1,000枚の実画像でファインチューニングして、精度96%を達成しました。

2. 手書き郵便番号認識システム

郵便物自動仕分けシステムを開発する物流企業の研究チームは、手書き数字の認識精度に課題を抱えていました。実際の手書き郵便番号画像は著作権と個人情報の問題で収集が困難でしたが、TextRecognitionDataGeneratorで背景テクスチャを調整し、手書き風フォントで50,000枚の合成データを1週間で生成。これにより訓練データの不足を補い、本番環境での認識精度を88%から94%へ改善しました。

3. ナンバープレート認識の地域別適応

自動運転技術を開発するスタートアップの視覚認識チームは、47都道府県すべてのナンバープレート形式に対応したモデルが必要でした。実車で各地域のプレートを撮影して集めるのは物理的に困難でしたが、このツールで各地域のナンバープレート背景画像とテキストフォーマットをカスタマイズし、地域ごとに2,000枚ずつ、計94,000枚の合成プレート画像を10日で生成。多地域対応モデルの構築に成功しました。

こんな人におすすめ

GitHub で見る
関連記事
📄 MinerU:PDFをマークダウンに変換する高精度ドキュメント解析ツール
MinerUは複雑なPDFをLLM対応のMarkdown/JSONに変換するオープンソースツール。OCR・レイアウト解析・数式認識に対応し、RAGやAIワークフローへのデータ投入に最適。
2026.03.25
📚 イベント駆動アーキテクチャのカタログ化ツール
イベント駆動設計をドキュメント化・可視化・共有できるオープンソースプラットフォーム
2026.03.24
⚡ Dyadで始めるシェル自動化の新時代
シェルスクリプトを自動生成・実行するAIアシスタントツール
2026.03.24
🤖 Windows自動操作を実現するPlaywright型ツール
Playwrightの思想でWindowsコンピュータを自動操作できるAIツール
2026.03.24
← Dyadで始めるシェル自動化の新時代 イベント駆動アーキテクチャのカタログ化ツール →