Turboliteとは何ですか？

SQLiteのVFS層をS3対応させたプロジェクトで、クラウドストレージから50ms以下のレイテンシーでJOINクエリを実行できます。

Turboliteはどう動作しますか？

S3オブジェクトに対しバイトレンジリクエストで必要部分だけを効率的に読み込み、ページレベルの圧縮と暗号化にも対応しています。

Turboliteの主なメリットは？

サーバーレス環境で複雑なSQL分析をリアルタイム実行可能で、RDS常時起動不要のためS3費用だけで運用コストを大幅に削減できます。

Turbolite、S3から250ms以下の高速JOINクエリを実現。SQLite VFS開発

何が起きたか

Rust製のSQLite VFS（仮想ファイルシステム）「Turbolite」がGitHubで公開された。S3互換ストレージ上のSQLiteデータベースに対し、250ms以下のコールドクエリでJOINを実行できる。ページレベルのzstd圧縮とAES-256暗号化に対応し、サーバーレス環境やエッジコンピューティングでの分析ワークロードを想定して設計されている。Rust、Python、Node.js、Goの各言語バインディングを提供する。

アーキテクチャと高速化の仕組み

Turboliteはページをタイプ別（B-tree内部ページ、インデックスリーフ、データリーフ）にグループ化してS3に格納する。デフォルト設定では256ページ/グループ（64KBページで約16MB）で、各グループ内は複数のzstdフレームに分割されるため、必要なフレームだけをサブチャンク取得できる。

ページタイプ	読み込み方式	目的
B-tree内部ページ	接続時にイーガーロード	全走査でキャッシュヒット
インデックスページ	バックグラウンドプリフェッチ	ピニングで退避防止
データページ	オンデマンド（レンジGET）	必要時のみ取得

高速化の鍵はクエリプラン先行読み込みにある。クエリ実行前にEXPLAIN QUERY PLANの出力を解析し、アクセス対象のテーブル・インデックスのページグループを並列でプリフェッチプールに投入する。複数テーブルのJOINでは、この先行読み込みが逐次的なミス→取得サイクルを排除する。

ベンチマーク（S3 Express One Zone、100万行、1.5GB）

クエリタイプ	レイテンシ
ポイント検索 + JOIN	77ms
5テーブルJOIN	190ms
インデックス検索 + JOIN	129ms
フルテーブルスキャン	586ms

キャッシュレベルはnone（全S3取得）→interior→index→data（完全キャッシュ）の4段階で、ウォームアップ状態に応じてレイテンシが大幅に改善する。

エンジニアへの影響

サーバーレス分析の実用化: Lambda関数内で複雑なSQL JOIN分析をリアルタイム実行可能。RDSの常時起動が不要
運用コストの圧縮: EC2やRDSの代替として、S3のストレージ費用と従量課金のGETリクエスト費用のみで運用できる
暗号化と鍵ローテーション: S3データはAES-256-GCM、ローカルデータはAES-256-CTRで暗号化。rotate_encryption_key()でS3上の全データを再暗号化可能
既存SQLスキルの流用: FTS、R-tree、JSON、WALモードなどSQLiteの主要機能に完全対応
シングルライターの制約: 同一プレフィックスへの複数書き込みはマニフェスト破損の原因となるため、書き込みアーキテクチャの設計に注意が必要

競合との比較

ソリューション	対応形式	コールドクエリ	暗号化	言語バインディング
Turbolite	SQLite/S3	77-190ms	AES-256	Rust, Python, Node.js, Go
DuckDB（S3拡張）	Parquet/S3	中程度	なし	多数
Athena	SQL/S3	秒単位	KMS	AWS SDK
Redshift Spectrum	SQL/S3	秒単位	KMS	AWS SDK