DataClawとは
DataClawは、Claude Code、Codex、Gemini CLI等のAI会話履歴をパースして、Hugging Faceにアップロードするツール。Anthropicのデータポリシーに対する抗議プロジェクトとして位置づけられており、AI会話履歴をオープンデータセット化することが目的。秘密情報と個人識別情報を自動で除外した上で、構造化されたデータセットとして公開できる。
インストールと初期セットアップ
環境構築は比較的シンプル。GitHubからクローンしてドキュメント通りに進めれば、スムーズに動作する。
pip install dataclaw
環境に応じて、別のインストール方法も用意されている。セットアップ後は、対象とするAIツール(Claude Code、Codex、Gemini CLI、OpenCode、OpenClaw、またはすべて)を明示的に指定する必要がある。
データセットの構築と共有
会話履歴をパースする際には、秘密鍵やAPIキーといった機密情報、個人識別情報が自動的に除外される。処理後のデータセットはすぐに使用できる形式で、Hugging Face上にdataclawタグとともに公開される。
複数のユーザーが同じツールで生成したデータセットを組み合わせることで、人間とAI間のコーディング協働を記録した分散型データセットの構築が可能。
実装上の考慮点
ドキュメントが急速に拡充されている段階であり、細かい設定項目について調べが必要になることもある。データの変換ロジックをカスタマイズする場合は、個別対応が必要なケースも存在。
AI会話履歴をオープンデータとして活用したいユーザー、あるいは大規模言語モデルの開発におけるデータポリシーの問題に関心のある個人や組織にとって、試用の価値がある。