fbpx
维基百科

哈密顿-雅可比-贝尔曼方程

哈密顿-雅可比-贝尔曼方程Hamilton-Jacobi-Bellman equation,簡稱HJB方程)是一個偏微分方程,是最佳控制的中心。HJB方程式的解是針對特定動態系統及相關成本函數下,可以有最小成本的控制實值函數。

若只在某一個區域求解,HJB方程是一個必要條件,若是在整個狀態空間下求解,HJB方程是充分必要條件。其解是針對開迴路的系統,但也允許針對閉迴路系統求解。HJB方程也可以擴展到隨機系統。

一些經典的變分問題,例如最速降線問題,可以用此方法求解。

HJB方程的基礎是以1950年代由理查德·貝爾曼及其同仁提出的動態規劃[1]。對應的離散系統方程式一般稱為貝爾曼方程。在連續時間的結果可以視為由卡爾·雅可比威廉·哈密頓提出,經典力學哈密顿-雅可比方程的延伸。

最佳控制的問題 编辑

考慮在時間 內,以下確定系統最佳控制的問題:

 

其中C[ ]為純量成本函數,D[ ]為計算其最終狀態時效力時或經濟值的函數,x(t)為系統狀態向量,x(0)假設已知,及u(t)是想要求得的控制向量,在 0 ≤ t ≤ T

此系統也需滿足下式:

 

其中F[ ]可以根據狀態向量決定向量後續的變化。

偏微分方程 编辑

針對上述簡單的系統,哈密顿-雅可比-贝尔曼微分方程如下:

 

需符合以下條件

 

其中 為向量a和b的內積,而 梯度運算子。(注意:  表示    求导,非对   求导!)

上述PDE中的未知向量 是貝爾曼間接效用函數,表示從時間 ,狀態 開始控制系統,以最佳方式控制系統一直到時間 的成本。

推導HJB方程 编辑

HJB方程可以用以下的方式推導:假設 是最佳的成本函數,則根據理查·貝爾曼的貝爾曼方程,從時間tt + dt,可得:

 

注意最後一項的泰勒展開式如下:

 

其中o(dt)是泰勒展開式中的高階項,若在等式兩側刪除V(x(t), t),除以dt,並取dt趨近為零的極限,可得上述定義的HJB方程。

求解方程 编辑

HJB方程一般會用逆向归纳法英语Backward induction求解,也就是從 往前求解到 

若對整個狀態空間求解,HJB方程是最佳解的充份必要條件[2]。若可以求解 ,就可以找到達到最小成本的控制 

一般而言,HJB方程不會有一個傳統光滑函数的解。為了這些情形發展了許多廣義解的表示方式,包括皮埃爾-路易·利翁迈克尔·克兰德尔英语Michael Crandall粘性解,Andrei Izmailovich Subbotin的極小化極大演算法等。

延伸到隨機問題 编辑

上述的作法主要是應用贝尔曼的最优化原理,以及在時間上由最終時間倒推求解,針對隨機控制問題也可以用類似的作法求最佳解。考慮以下的問題

 

此時 為隨機過程,而 為控制變數。首先使用貝爾曼方程,再用伊藤引理 展開,可以得到以下的隨機HJB方程。

 

其中 為隨機微分運算子,以下是最終時間的限制條件。

 

注意此時已沒有隨機性了。此例中後者的 不一定是原來方程式的解,它只是可能解之一,需要再作驗證。此技巧常用在財務數學中,決定在市場中的最佳投資策略(例如像默顿的投资组合问题英语Merton's portfolio problem)。

在LQG控制的應用 编辑

下例是一個有線性隨機動態特性的系統,有二次式的成本。若系統動態為

 

而成本以以下的速度累積 ,則HJB方程為

 

假設價值函數是二次式,可以將一般的Riccati方程用在價值函數的海森矩阵中,即為線性二次高斯控制(LQG控制)。

相關條目 编辑

  • 貝爾曼方程,離散的哈密顿-雅可比-贝尔曼方程。
  • Pontryagin最小值定理,是將哈密顿量最小值,是最佳化必要但不充份的條件,和哈密顿-雅可比-贝尔曼方程相比的好處是只要考慮滿足條件的單一軌跡。

參考資料 编辑

  1. ^ R. E. Bellman. Dynamic Programming. Princeton, NJ, 1957.
  2. ^ Dimitri P Bertsekas. Dynamic programming and optimal control. Athena Scientific, 2005.

延伸閱讀 编辑

  • Dimitri P. Bertsekas. Dynamic programming and optimal control. Athena Scientific. 2005. 

哈密顿, 雅可比, 贝尔曼方程, hamilton, jacobi, bellman, equation, 簡稱hjb方程, 是一個偏微分方程, 是最佳控制的中心, hjb方程式的解是針對特定動態系統及相關成本函數下, 可以有最小成本的控制實值函數, 若只在某一個區域求解, hjb方程是一個必要條件, 若是在整個狀態空間下求解, hjb方程是充分必要條件, 其解是針對開迴路的系統, 但也允許針對閉迴路系統求解, hjb方程也可以擴展到隨機系統, 一些經典的變分問題, 例如最速降線問題, 可以用此方法求解, hjb方. 哈密顿 雅可比 贝尔曼方程 Hamilton Jacobi Bellman equation 簡稱HJB方程 是一個偏微分方程 是最佳控制的中心 HJB方程式的解是針對特定動態系統及相關成本函數下 可以有最小成本的控制實值函數 若只在某一個區域求解 HJB方程是一個必要條件 若是在整個狀態空間下求解 HJB方程是充分必要條件 其解是針對開迴路的系統 但也允許針對閉迴路系統求解 HJB方程也可以擴展到隨機系統 一些經典的變分問題 例如最速降線問題 可以用此方法求解 HJB方程的基礎是以1950年代由理查德 貝爾曼及其同仁提出的動態規劃 1 對應的離散系統方程式一般稱為貝爾曼方程 在連續時間的結果可以視為由卡爾 雅可比及威廉 哈密頓提出 經典力學中哈密顿 雅可比方程的延伸 目录 1 最佳控制的問題 2 偏微分方程 3 推導HJB方程 4 求解方程 5 延伸到隨機問題 5 1 在LQG控制的應用 6 相關條目 7 參考資料 8 延伸閱讀最佳控制的問題 编辑考慮在時間 0 T displaystyle 0 T nbsp 內 以下確定系統最佳控制的問題 V x 0 0 min u 0 T C x t u t d t D x T displaystyle V x 0 0 min u left int 0 T C x t u t dt D x T right nbsp 其中C 為純量成本函數 D 為計算其最終狀態時效力時或經濟值的函數 x t 為系統狀態向量 x 0 假設已知 及u t 是想要求得的控制向量 在 0 t T 此系統也需滿足下式 x t F x t u t displaystyle dot x t F x t u t nbsp 其中F 可以根據狀態向量決定向量後續的變化 偏微分方程 编辑針對上述簡單的系統 哈密顿 雅可比 贝尔曼微分方程如下 V x t min u V x t F x u C x u 0 displaystyle dot V x t min u left nabla V x t cdot F x u C x u right 0 nbsp 需符合以下條件 V x T D x displaystyle V x T D x nbsp 其中a b displaystyle a cdot b nbsp 為向量a和b的內積 而 displaystyle nabla nbsp 為梯度運算子 注意 V x t displaystyle nabla V x t nbsp 表示 V x t displaystyle V x t nbsp 对 x displaystyle x nbsp 求导 非对 t displaystyle t nbsp 求导 上述PDE中的未知向量V x t displaystyle V x t nbsp 是貝爾曼間接效用函數 表示從時間t displaystyle t nbsp 狀態x displaystyle x nbsp 開始控制系統 以最佳方式控制系統一直到時間T displaystyle T nbsp 的成本 推導HJB方程 编辑HJB方程可以用以下的方式推導 假設V x t t displaystyle V x t t nbsp 是最佳的成本函數 則根據理查 貝爾曼的貝爾曼方程 從時間t到t dt 可得 V x t t min u t t d t C x t u t d t V x t d t t d t displaystyle V x t t min u left int t t dt C x t u t dt V x t dt t dt right nbsp 注意最後一項的泰勒展開式如下 V x t d t t d t V x t t V x t t d t V x t t x t d t o d t displaystyle V x t dt t dt V x t t dot V x t t dt nabla V x t t cdot dot x t dt o dt nbsp 其中o dt 是泰勒展開式中的高階項 若在等式兩側刪除V x t t 除以dt 並取dt趨近為零的極限 可得上述定義的HJB方程 求解方程 编辑HJB方程一般會用逆向归纳法 英语 Backward induction 求解 也就是從t T displaystyle t T nbsp 往前求解到t 0 displaystyle t 0 nbsp 若對整個狀態空間求解 HJB方程是最佳解的充份必要條件 2 若可以求解V displaystyle V nbsp 就可以找到達到最小成本的控制u displaystyle u nbsp 一般而言 HJB方程不會有一個傳統光滑函数的解 為了這些情形發展了許多廣義解的表示方式 包括皮埃爾 路易 利翁及迈克尔 克兰德尔 英语 Michael Crandall 的粘性解 Andrei Izmailovich Subbotin的極小化極大演算法等 延伸到隨機問題 编辑上述的作法主要是應用贝尔曼的最优化原理 以及在時間上由最終時間倒推求解 針對隨機控制問題也可以用類似的作法求最佳解 考慮以下的問題 min 0 T C t X t u t d t D X T displaystyle min left int 0 T C t X t u t dt D X T right nbsp 此時 X t t 0 T displaystyle X t t in 0 T nbsp 為隨機過程 而 u t t 0 T displaystyle u t t in 0 T nbsp 為控制變數 首先使用貝爾曼方程 再用伊藤引理將V X t t displaystyle V X t t nbsp 展開 可以得到以下的隨機HJB方程 min u A V x t C t x u 0 displaystyle min u left mathcal A V x t C t x u right 0 nbsp 其中A displaystyle mathcal A nbsp 為隨機微分運算子 以下是最終時間的限制條件 V x T D x displaystyle V x T D x nbsp 注意此時已沒有隨機性了 此例中後者的V displaystyle V nbsp 不一定是原來方程式的解 它只是可能解之一 需要再作驗證 此技巧常用在財務數學中 決定在市場中的最佳投資策略 例如像默顿的投资组合问题 英语 Merton s portfolio problem 在LQG控制的應用 编辑 下例是一個有線性隨機動態特性的系統 有二次式的成本 若系統動態為 d x t a x t b u t d t s d w t displaystyle dx t ax t bu t dt sigma dw t nbsp 而成本以以下的速度累積C x t u t r t u t 2 2 q t x t 2 2 displaystyle C x t u t r t u t 2 2 q t x t 2 2 nbsp 則HJB方程為 V x t t 1 2 q t x 2 V x t x a x b 2 2 r t V x t x 2 s 2 2 2 V x t x 2 displaystyle frac partial V x t partial t frac 1 2 q t x 2 frac partial V x t partial x ax frac b 2 2r t left frac partial V x t partial x right 2 frac sigma 2 2 frac partial 2 V x t partial x 2 nbsp 假設價值函數是二次式 可以將一般的Riccati方程用在價值函數的海森矩阵中 即為線性二次高斯控制 LQG控制 相關條目 编辑貝爾曼方程 離散的哈密顿 雅可比 贝尔曼方程 Pontryagin最小值定理 是將哈密顿量最小值 是最佳化必要但不充份的條件 和哈密顿 雅可比 贝尔曼方程相比的好處是只要考慮滿足條件的單一軌跡 參考資料 编辑 R E Bellman Dynamic Programming Princeton NJ 1957 Dimitri P Bertsekas Dynamic programming and optimal control Athena Scientific 2005 延伸閱讀 编辑Dimitri P Bertsekas Dynamic programming and optimal control Athena Scientific 2005 取自 https zh wikipedia org w index php title 哈密顿 雅可比 贝尔曼方程 amp oldid 79234163, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。