Bellmanの1952年の論文「動的計画法の理論」の数学構造が、連続時間システムにおいて19世紀の古典力学の概念(Hamilton-Jacobi方程式)と完全に一致することが改めて解説された。この統一的視点により、現代の強化学習、確率最適制御、拡散モデルの訓練が同一の数学的枠組みで理解できることが示された。
Bellmanが離散時間で定式化した強化学習の中核である「Bellman方程式」は、時間ステップの幅hをゼロに近づけることで、連続時間の偏微分方程式へ変換される。この PDE が Hamilton-Jacobi-Bellman(HJB)方程式と呼ばれるもので、1840年代に物理学者が古典力学の問題から導出していた方程式と構造的に同一である。この認識により、強化学習、最適制御、確率微分方程式、拡散モデルといった一見異なる領域が同じ数学的言語で記述できることが明らかになった。
離散時間のBellman方程式から出発する。状態空間$\mathcal{X}$、行動空間$\mathcal{A}$、報酬関数$r(x,a)$、割引率$\gamma$を持つマルコフ決定過程において、最適価値関数$V(x)$は以下を満たす:
\[V(x)=\max_{a\in\mathcal{A}}\{r(x,a)+\gamma\mathbb{E}[V(X_{n+1})|X_n=x,a_n=a]\}\]これは「現在の報酬と将来の価値の割引和を最大化する行動を選ぶ」という直感的な原理を表現している。
連続時間への拡張では、時間ステップhを0に収束させると、確定的なシステム $\dot{X}_s=f(s,X_s,a_s)$ に対して有限期間価値関数$V(t,x)$は HJB 方程式を満たす:
\[-\partial_t V(t,x)=H(t,x,\nabla_x V(t,x))\]ここで $H(t,x,p)=\sup_{a}{r(t,x,a)+p^\top f(t,x,a)}$ がハミルトニアンであり、これは古典力学の Hamilton 方程式と構造的に同一である。運用報酬を$-L(t,x,a)$と書き換えると、現在の方程式は19世紀の古典力学の方程式と完全に一致する。
政策反復法:HJB方程式の枠組みで、ニューラルネットワークを用いた政策反復が可能になる。政策評価段階ではFeynman-Kacモンテカルロ法を用い、政策改善段階で新しい政策を計算する反復プロセスにより最適制御が実現される。
モデルフリーQ学習:確率的線形二次レギュレータ問題やMerton ポートフォリオ問題のような具体的な制御問題において、連続時間Q学習が適用可能であることが示されている。
生成モデル(拡散モデル)の訓練プロセスは、拡散プロセスを逆時間方向に制御する最適制御問題として再解釈できる。つまり、確率的に生成されたノイズを段階的に除去するプロセスが、確率微分方程式(Itô過程)を通じた最適制御として理解される。
この統一的視点により、以下の領域でより深い理論的洞察が得られる可能性がある:
この記事はAI業界の最新動向を速報でお届けする「AI Heartland ニュース」です。