正規表現検索インデックスとは何ですか？

テキストデータに対して事前に構築される検索最適化構造。エージェントが正規表現パターンを高速マッチングできるよう、インデックスが対象範囲を自動絞り込みする技術。

従来の逐次探索と比べて、どう改善されますか？

複数のインデックス構造が協調して対象を絞り込むため、全ファイルを逐次走査する従来のアプローチと比べ、エージェントの応答遅延を最小化できます。複雑な正規表現にも対応可能。

どのようなデータソースに対応していますか？

テキストベースのデータソースが対象。具体的にはアプリケーションログ、テキストファイルなどエージェントツールを通じたテキスト検索が必要なデータ源に対応しています。

エージェント実装時にこの機能を使うには、どう設定しますか？

Cursorの公式ブログで提供されるサンプルコードを参考に、テキストソースのインデックス化と検索クエリ定義を実装。ドキュメント記載の手順で数分で統合可能。

レガシーシステム連携でメリットはありますか？

テキスト出力が多いレガシーツールとの連携時に、エージェントが検索インデックスを活用することで、古いシステムの自動化がより現実的になります。応答遅延を最小化し、エージェント実装の効率性が向上します。

Cursor、エージェント向けの高速正規表現検索インデックス機能を公開

この記事ではAIエージェントに特化して解説します。AIエージェント全般は AIエージェントフレームワーク比較2026年版をご覧ください。

何が起きたか

CursorがAIエージェント向け高速正規表現検索インデックス技術をブログで公開した。大規模コードベースでripgrepが15秒以上かかるケースがエージェントを停滞させていた問題に対処。sparse n-gramインデックスにより、正規表現パターンの即座のマッチングを実現した。

技術的な仕組み

Cursorのインデックスは、1993年のZobel・Moffat・Sacks-Davisの研究を基盤とし、複数の技術を組み合わせた構造を持つ。

Inverted Indexがトークンからポスティングリスト（文書識別子のリスト）へのマッピングを提供する。コード検索では単語レベルのトークン化が不適切なため、Trigram Decomposition（3文字の重複シーケンス抽出）を採用。bigramの64Kキーでは候補が多すぎ、quadgramの数十億キーでは大きすぎるため、trigramが実用上の最適解となっている。

Cursor独自のSparse N-Gram手法では、文字ペア出現頻度に基づく重み関数で可変長n-gramを選択し、クエリ時のルックアップを最小化する。加えて確率的マスキング（8ビット位置マスク＋文字ブルームフィルタ）により、trigramサイズでquadgram相当の精度を実現。

インデックスのアーキテクチャ

インデックスはサーバーではなくクライアントマシン上でローカルに構築・クエリされる設計。ストレージは2ファイル構成で、ポスティングリストとルックアップテーブルに分離。後者のみがmmap（メモリマップ）され、O(log n)のバイナリサーチでアクセスされる。Gitベースのバージョニングにより、エージェントの書き込みが即座に検索結果に反映される一貫性も保証されている。