LLMアプリケーション開発をやってると、毎回似たような仕組みを一から作ってることに気づく。プロンプト管理、評価ループ、簡単なエージェント構造、ログ周り。こういう基盤的な部分の実装が、個人差でバラバラになるし、時間がかかる。
そこで目についたのがDatabricksのai-dev-kitだ。GitHubで1000スター超えてるし、実際に触ってみると、LLMアプリ特有の雑務をかなり引き受けてくれてる。
セットアップは本当に簡単だった。リポジトリをクローンして、依存関係をインストールするだけで動く。git clone https://github.com/databricks-solutions/ai-dev-kit && cd ai-dev-kit && pip install -e . これだけで環境ができた。Pythonの基本的なプロジェクト構成で、すぐに何がどこにあるかわかる。
一番気に入った部分は、プロンプト評価用のパイプラインがすでに形になってるところだ。LLMの出力を評価する際、複数のメトリクスを並行して走らせたり、結果をCSVで吐き出したり、その手の地味だけど必須な処理が、既に骨組みとして用意されている。今までこれを毎回ゼロから書いてたんだけど、その作業が一気に短縮される。何回も同じ評価スクリプト書くストレスから解放された。
ドキュメントがまだそこまで詳しくないのが若干つっかかる。使い方の基本は分かるけど、カスタマイズの細かいところで、ソースコード読んで理解する場面が何度かあった。ただ、コードがシンプルに書かれてるので、読んでも迷わない。
LLMアプリを継続的に開発・改善してる組織なら、このテンプレート構造があるだけで、チーム内のコード品質が揃いやすくなる。個人でプロトタイピングしてる人でも、評価フローが整ってるおかげで『とりあえず動いた』から『ちゃんと評価まで回した』のステップに無理なく進める。自分はこれを使い続けるつもりだ。