fbpx
维基百科

貝爾曼方程

貝爾曼方程(Bellman Equation)」也被稱作「動態規劃方程(Dynamic Programming Equation)」,由理查·貝爾曼(Richard Bellman)發現。貝爾曼方程是動態規劃(Dynamic Programming)這種數學最佳化方法能夠達到最佳化必要條件。此方程將「決策問題在特定時間點的值」以「來自初始選擇的報酬 及 由初始選擇衍生的決策問題的值」的形式表示。藉這個方式將動態最佳化問題變成較簡單的子問題,而這些子問題遵守由貝爾曼所提出的「最佳化原理」。

貝爾曼方程最早應用在工程領域的控制理論及其他應用數學領域,而後成為經濟學上的重要工具。

幾乎所有可以用最佳控制理論(Optimal Control Theory)解決的問題也可以透過分析合適的貝爾曼方程得到解決。然而,「貝爾曼方程」通常指離散時間(discrete-time)最佳化問題的動態規劃方程。處理連續時間(continuous-time)最佳化問題上,也有類似的偏微分方程,稱作漢彌爾頓-雅各比-貝爾曼方程(Hamilton–Jacobi–Bellman Equation, HJB Equation)。

動態規劃中的解析概念 编辑

想了解貝爾曼方程,要先了解許多相關概念。首先,任何最佳化問題都有目標:旅行時間最小化、成本最小化、利潤最大化、效用最大化等。用來描述目標的數學函數就稱為目標函數

動態規劃將多期規劃問題轉為不同時間點上較簡單的步驟,因此,它需要追蹤決策背景情況隨時間的變化。作正確決策所需要當前情況的資訊被稱作是「狀態(State)」(貝爾曼,1957,Ch. III.2)。[1][2]例如,為了決定每個時間要花多少錢,人們必須要知道他們初始財富的量,此例中財富就是一種「狀態變數(State Variables)」,或簡稱「狀態(State)」,當然也可能還有其他的種類。

從任意時點上所挑選以操作的變數通常稱為「控制變數」(Control Variables),或簡稱「控制」(Control)(控制理論中描述輸入的變數)。例如給定現在所具有的財富(狀態),人們便可以用以決定當下的消費(控制變數)。挑選當下的控制變數可被視為挑選下個狀態,廣義而言,下個狀態受到當下控制變數及其他因子的影響。舉個簡單的例子:今天的財富(狀態)及消費(控制變數)會決定明天的財富(新的狀態),雖然通常也還有其他的因素可以影響明天的財富(例如獲得意外之財)。

動態規劃方法中利用「找尋某種規則來求得各可能狀態下的(最佳)控制為何」來達成目標函數最佳化。例如:假設消費(c)只與財富(W)相關,想要找到一套規則 來以財富描述消費。這些「將控制(Controls)表示成狀態(States)的函數」的規則被稱為策略函數(Policy Function)[1]

從定義可知,最佳化目標函數的策略乃是所有可能的策略函數中,其對應到目標函數值最佳者。沿用上述的例子,若某人利用給定的財富來消費以最大化快樂的感覺(這裡假定「快樂的感覺」可以被數學函數描述,像是效用函數等),那麼各種初始的財富便會對應到一個可能的最大快樂,表示成 。這個最大的可能目標函數值(快樂的感覺),即是價值函數(Value Function)

貝爾曼方程的推導 编辑

动态决策问题 编辑

  时刻的状态为  。对于一个从时刻 0 开始的决策,令 为初始状态。在任意时刻,可能的行动集合都取决于当前状态。可以将其写作  ,其中, 代表了一个或者多个控制变量。还可以假定,当采取行动  时,状态由 变为新状态  ,当前收益为 。最后假设一个由  表示的impatience。

在这些假设下,一个无限范围决策问题有以下形式:

 

服从以下约束:

 

注意已经使用了   来表示可以通过最大化符合约束假设的目标函数得到的最优值。这个函数就是 价值函数。由于最优值取决于初始状态,因此,它是初始状态变量  的函数。

贝尔曼最优化原理 编辑

动态规划方法将决策问题分解为更小的子问题。贝尔曼最优化原理描述了如何做到这点:

最优化原理:最优化策略有这样的性质,即无论初始状态和初始决策是什么,余下的决策必定构成一个与由初始决策导致的状态有关的最优化策略。 (See Bellman, 1957, Chap. III.3.)

在计算机科学领域,一个可以如此分解的问题称作有最优子结构英语Optimal substructure。在博弈论中,这个原理与subgame perfect equilibrium英语subgame perfect equilibrium的概念类似,尽管在这种情况下,构成最优策略的条件取决于决策者的对手从他们的立场选择类似的最优策略。

正如最优化原理所说,会单独考虑初始决策,将所有将来决策暂放一边。收集右侧括号的将来决策,上述无限尺度决策问题等价于:[需要解释]

 

服从以下约束:

 

此处选择  , 已知选择会导致时刻1的状态成为  . 自时刻1起,该新状态会影响随后决策问题。整个未来的决策问题出现在右边的方括号内。[需要解释]

貝爾曼方程 编辑

子问题和贝尔曼方程 对于每个t = 0, . . . , T, 子问题对应的子方程: 已知 st = s,

最大化 rt(st, at) + βrt+1(st+1, at+1)+ · · · + β^T −t−1*rT−1(sT−1, aT−1) + β^T−t*rT (sT )

服从于: 对于 k = t, . . . , T − 1, ak ∈ Ak(sk) sk+1 − gk(sk, ak) = 0

• 最优值函数, v∗t(s): 子问题(第t行)的最大值

• 由此可得贝尔曼方程的公式: (未知数: v∗t(s))

v∗t(s) = max 【a∈At(s)】 rt(s, a) + βv∗t+1(gt(s, a)), s ∈ S, t = 0, . . . , T − 1

v∗T(s) = rT (s), s ∈ S

貝爾曼方程在隨機問題的應用 编辑

解法 编辑

經濟學上的應用 编辑

例子 编辑

參考資料 编辑

  1. ^ 1.0 1.1 Bellman, R.E. 1957. Dynamic Programming. Princeton University Press, Princeton, NJ. Republished 2003: Dover, ISBN 0-486-42809-5.
  2. ^ S. Dreyfus (2002), 'Richard Bellman on the birth of dynamic programming' (页面存档备份,存于互联网档案馆Operations Research 50 (1), pp. 48–51.

貝爾曼方程, 本條目存在以下問題, 請協助改善本條目或在討論頁針對議題發表看法, 此條目可参照外語維基百科相應條目来扩充, 2013年9月8日, 若您熟悉来源语言和主题, 请协助参考外语维基百科扩充条目, 请勿直接提交机械翻译, 也不要翻译不可靠, 低品质内容, 依版权协议, 译文需在编辑摘要注明来源, 或于讨论页顶部标记, href, template, translated, page, html, title, template, translated, page, translated, page, 标签,. 本條目存在以下問題 請協助改善本條目或在討論頁針對議題發表看法 此條目可参照外語維基百科相應條目来扩充 2013年9月8日 若您熟悉来源语言和主题 请协助参考外语维基百科扩充条目 请勿直接提交机械翻译 也不要翻译不可靠 低品质内容 依版权协议 译文需在编辑摘要注明来源 或于讨论页顶部标记 a href Template Translated page html title Template Translated page Translated page a 标签 此條目需要擴充 2013年9月8日 请協助改善这篇條目 更進一步的信息可能會在討論頁或扩充请求中找到 请在擴充條目後將此模板移除 貝爾曼方程 Bellman Equation 也被稱作 動態規劃方程 Dynamic Programming Equation 由理查 貝爾曼 Richard Bellman 發現 貝爾曼方程是動態規劃 Dynamic Programming 這種數學最佳化方法能夠達到最佳化的必要條件 此方程將 決策問題在特定時間點的值 以 來自初始選擇的報酬 及 由初始選擇衍生的決策問題的值 的形式表示 藉這個方式將動態最佳化問題變成較簡單的子問題 而這些子問題遵守由貝爾曼所提出的 最佳化原理 貝爾曼方程最早應用在工程領域的控制理論及其他應用數學領域 而後成為經濟學上的重要工具 幾乎所有可以用最佳控制理論 Optimal Control Theory 解決的問題也可以透過分析合適的貝爾曼方程得到解決 然而 貝爾曼方程 通常指離散時間 discrete time 最佳化問題的動態規劃方程 處理連續時間 continuous time 最佳化問題上 也有類似的偏微分方程 稱作漢彌爾頓 雅各比 貝爾曼方程 Hamilton Jacobi Bellman Equation HJB Equation 目录 1 動態規劃中的解析概念 2 貝爾曼方程的推導 2 1 动态决策问题 2 2 贝尔曼最优化原理 2 3 貝爾曼方程 2 4 貝爾曼方程在隨機問題的應用 3 解法 4 經濟學上的應用 5 例子 6 參考資料動態規劃中的解析概念 编辑想了解貝爾曼方程 要先了解許多相關概念 首先 任何最佳化問題都有目標 旅行時間最小化 成本最小化 利潤最大化 效用最大化等 用來描述目標的數學函數就稱為目標函數 動態規劃將多期規劃問題轉為不同時間點上較簡單的步驟 因此 它需要追蹤決策背景情況隨時間的變化 作正確決策所需要當前情況的資訊被稱作是 狀態 State 貝爾曼 1957 Ch III 2 1 2 例如 為了決定每個時間要花多少錢 人們必須要知道他們初始財富的量 此例中財富就是一種 狀態變數 State Variables 或簡稱 狀態 State 當然也可能還有其他的種類 從任意時點上所挑選以操作的變數通常稱為 控制變數 Control Variables 或簡稱 控制 Control 控制理論中描述輸入的變數 例如給定現在所具有的財富 狀態 人們便可以用以決定當下的消費 控制變數 挑選當下的控制變數可被視為挑選下個狀態 廣義而言 下個狀態受到當下控制變數及其他因子的影響 舉個簡單的例子 今天的財富 狀態 及消費 控制變數 會決定明天的財富 新的狀態 雖然通常也還有其他的因素可以影響明天的財富 例如獲得意外之財 動態規劃方法中利用 找尋某種規則來求得各可能狀態下的 最佳 控制為何 來達成目標函數最佳化 例如 假設消費 c 只與財富 W 相關 想要找到一套規則c W displaystyle c W nbsp 來以財富描述消費 這些 將控制 Controls 表示成狀態 States 的函數 的規則被稱為策略函數 Policy Function 1 從定義可知 最佳化目標函數的策略乃是所有可能的策略函數中 其對應到目標函數值最佳者 沿用上述的例子 若某人利用給定的財富來消費以最大化快樂的感覺 這裡假定 快樂的感覺 可以被數學函數描述 像是效用函數等 那麼各種初始的財富便會對應到一個可能的最大快樂 表示成H W displaystyle H W nbsp 這個最大的可能目標函數值 快樂的感覺 即是價值函數 Value Function 貝爾曼方程的推導 编辑动态决策问题 编辑 令 t displaystyle t nbsp 时刻的状态为 x t displaystyle x t nbsp 对于一个从时刻 0 开始的决策 令x 0 displaystyle x 0 nbsp 为初始状态 在任意时刻 可能的行动集合都取决于当前状态 可以将其写作 a t G x t displaystyle a t in Gamma x t nbsp 其中 a t displaystyle a t nbsp 代表了一个或者多个控制变量 还可以假定 当采取行动 a displaystyle a nbsp 时 状态由x displaystyle x nbsp 变为新状态 T x a displaystyle T x a nbsp 当前收益为F x a displaystyle F x a nbsp 最后假设一个由 0 lt b lt 1 displaystyle 0 lt beta lt 1 nbsp 表示的impatience 在这些假设下 一个无限范围决策问题有以下形式 V x 0 max a t t 0 t 0 b t F x t a t displaystyle V x 0 max left a t right t 0 infty sum t 0 infty beta t F x t a t nbsp 服从以下约束 a t G x t x t 1 T x t a t t 0 1 2 displaystyle a t in Gamma x t x t 1 T x t a t forall t 0 1 2 dots nbsp 注意已经使用了 V x 0 displaystyle V x 0 nbsp 来表示可以通过最大化符合约束假设的目标函数得到的最优值 这个函数就是 价值函数 由于最优值取决于初始状态 因此 它是初始状态变量 x 0 displaystyle x 0 nbsp 的函数 贝尔曼最优化原理 编辑 动态规划方法将决策问题分解为更小的子问题 贝尔曼最优化原理描述了如何做到这点 最优化原理 最优化策略有这样的性质 即无论初始状态和初始决策是什么 余下的决策必定构成一个与由初始决策导致的状态有关的最优化策略 See Bellman 1957 Chap III 3 在计算机科学领域 一个可以如此分解的问题称作有最优子结构 英语 Optimal substructure 在博弈论中 这个原理与subgame perfect equilibrium 英语 subgame perfect equilibrium 的概念类似 尽管在这种情况下 构成最优策略的条件取决于决策者的对手从他们的立场选择类似的最优策略 正如最优化原理所说 会单独考虑初始决策 将所有将来决策暂放一边 收集右侧括号的将来决策 上述无限尺度决策问题等价于 需要解释 max a 0 F x 0 a 0 b max a t t 1 t 1 b t 1 F x t a t a t G x t x t 1 T x t a t t 1 displaystyle max a 0 left F x 0 a 0 beta left max left a t right t 1 infty sum t 1 infty beta t 1 F x t a t a t in Gamma x t x t 1 T x t a t forall t geq 1 right right nbsp 服从以下约束 a 0 G x 0 x 1 T x 0 a 0 displaystyle a 0 in Gamma x 0 x 1 T x 0 a 0 nbsp 此处选择 a 0 displaystyle a 0 nbsp 已知选择会导致时刻1的状态成为 x 1 T x 0 a 0 displaystyle x 1 T x 0 a 0 nbsp 自时刻1起 该新状态会影响随后决策问题 整个未来的决策问题出现在右边的方括号内 需要解释 貝爾曼方程 编辑 子问题和贝尔曼方程 对于每个t 0 T 子问题对应的子方程 已知 st s 最大化 rt st at brt 1 st 1 at 1 b T t 1 rT 1 sT 1 aT 1 b T t rT sT 服从于 对于 k t T 1 ak Ak sk sk 1 gk sk ak 0 最优值函数 v t s 子问题 第t行 的最大值 由此可得贝尔曼方程的公式 未知数 v t s v t s max a At s rt s a bv t 1 gt s a s S t 0 T 1v T s rT s s S 貝爾曼方程在隨機問題的應用 编辑解法 编辑經濟學上的應用 编辑例子 编辑參考資料 编辑 1 0 1 1 Bellman R E 1957 Dynamic Programming Princeton University Press Princeton NJ Republished 2003 Dover ISBN 0 486 42809 5 S Dreyfus 2002 Richard Bellman on the birth of dynamic programming 页面存档备份 存于互联网档案馆 Operations Research 50 1 pp 48 51 取自 https zh wikipedia org w index php title 貝爾曼方程 amp oldid 68569312, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。