隨ずい機き控ひかえ制せい

隨ずい機き控ひかえ制せい（stochastic control）或ある隨ずい機き最さい优控制せい（stochastic optimal control）是これ控ひかえ制せい理り论中なか的てき一いち個こ領域りょういき，是ぜ針はり對たい有ゆう不ふ確定かくてい性せい的てき系統けいとう進行しんこう控ひかえ制せい，不ふ確定かくてい性せい可能かのう是ぜ在ざい量りょう測はか上じょう，也有やゆう可能かのう是ぜ因いん為ため雜ざつ訊的てき影響えいきょう。系統けいとう設計せっけい者しゃ會かい假設かせつ影響えいきょう狀態じょうたい變數へんすう的てき隨ずい機き雜ざつ訊，（以贝叶斯概率りつ的てき觀點かんてん來らい看み）其機率りつ分布ぶんぷ是ぜ已やめ知的ちてき。隨ずい機き控ひかえ制せい的てき目的もくてき是ぜ在ざい雜ざつ訊存在そんざい的てき情じょう形がた下か，設計せっけい受控變數へんすう的てき時間じかん軌跡きせき，在ざい最小さいしょう成本なりもと的てき情じょう形がた下か（其成本ほん可能かのう會かい適てき有ゆう適當てきとう的てき定義ていぎ）使つかい系統けいとう完成かんせい預あずか期き的てき控ひかえ制せい任務にんむ^[1]。隨ずい機き控ひかえ制せい可能かのう是ぜ配合はいごう離散りさん時間じかん系統けいとう，也可能かのう是ぜ連續れんぞく時間じかん系統けいとう。

確定かくてい性せい等とう效こう

隨ずい機き控ひかえ制せい中ちゅう最さい常つね被ひ探さがせ討的控ひかえ制せい器き是ぜ線せん性せい平方へいほう高だか斯控制せい（LQG控ひかえ制せい），其模型がた為ため線せん性的せいてき，目標もくひょう函數かんすう的てき期き望もち值為二に次じ性せい，而擾動どう是ぜ純じゅん疊たたみ加か性せい的てき。若わか是ぜ離散りさん時間じかん集中しゅうちゅう式しき系統けいとう，其不確定かくてい性せい是ぜ純じゅん疊たたみ加か性せい，有ゆう一いち個こ基本きほん的てき特性とくせい為ため「確定かくてい性せい等とう效こう性質せいしつ」（certainty equivalence property）^[2]：其最佳けい控ひかえ制せい的てき解かい和わ沒ぼつ有ゆう疊たたみ加か性せい擾動下か的てき解かい一いち樣よう。所有しょゆう線せん性せい系統けいとう方かた程ほど、二に次じ目標もくひょう函數かんすう、雜ざつ訊為純じゅん疊たたみ加か性せい的てき集中しゅうちゅう式しき系統けいとう中ちゅう，確定かくてい性せい等とう效こう性質せいしつ都會とかい成立せいりつ，二次目標函數的假設是讓（配合はいごう確定かくてい性せい等とう效こう性質せいしつ）的てき最さい佳けい控ひかえ制せい律りつ是ぜ控ひかえ制せい器き觀測かんそく值的線せん性せい函數かんすう。

若わか有ゆう任にん何なん和わ上述じょうじゅつ假設かせつ不同ふどう的てき地方ちほう：非ひ線せん性せい狀態じょうたい方かた程ほど、非ひ二に次じ目標もくひょう函數かんすう、乘數じょうすう不ふ確定かくてい性せい（英えい语：Multiplier uncertainty）或ある是ぜ系統けいとう為ため分散ぶんさん式しき控ひかえ制せい系統けいとう都會とかい讓ゆずる確定かくてい性せい等とう效こう性質せいしつ不成立ふせいりつ。例れい如在分散ぶんさん式しき系統けいとう中ちゅう的てきWitsenhausen反例はんれい就是說明せつめい確定かくてい性せい等とう效こう性質せいしつ在ざい分散ぶんさん式しき系統けいとう中ちゅう不成立ふせいりつ。

離散りさん時間じかん系統けいとう

在ざい離散りさん時間じかん系統けいとう中ちゅう，控ひかえ制せい器き會かい在ざい每まい個こ時間じかん週しゅう期き觀測かんそく狀態じょうたい變數へんすう（也可能かのう包括ほうかつ估測雜ざつ訊）。其目標もくひょう可か以針對たい所有しょゆう時間じかん內的非ひ線せん性せい（可能かのう是ぜ二に次じ的てき）目標もくひょう函數かんすう計算けいさん不同ふどう時間じかん期き望もち值的加か權けん和わ，也可以只針はり對たい最後さいご時間じかん的てき目標もくひょう函數かんすう進行しんこう最さい佳けい化か。每まい個こ時間じかん區間くかん內會產さん生新せいしん的てき估測值，依よ最さい佳けい化か的てき方式ほうしき調整ちょうせい控ひかえ制せい變數へんすう。找目前ぜん時間じかん最さい佳けい解かい的てき作法さほう是ぜ後向うしろむき迭代計算けいさん線せん性せい平方へいほう高だか斯控制せい（矩のり陣じんRiccati方かた程ほど），從したがえ最後さいご的てき時間じかん一直倒退迭代到目前時間。

考慮こうりょ離散りさん時間じかん系統けいとう，其傳遞矩陣じん或ある控ひかえ制せい響ひびき應おう矩のり陣中じんちゅう的てき參まいり數すう有ゆう不ふ確定かくてい性せい（因いん此狀態じょうたい變數へんすう的てき目前もくぜん值會有ゆう變化へんか），但ただし仍然是ぜ線せん性せい狀態じょうたい函數かんすう以及二に次じ性せい目標もくひょう函數かんすう，仍然可か以用每ごと一いち個こ時間じかん週しゅう期き的てき解かい，用後ようご向こう迭代的てき方式ほうしき求もとめ解かいRiccati方かた程ほど，不ふ過か可能かのう沒ぼつ有ゆう確定かくてい性せい等とう效こう的てき特性とくせい^[2]^ch.13^[3]。若わか離散りさん時間じかん系統けいとう的てき目標もくひょう函數かんすう不ふ是ぜ二に次じ性せい的てき，但ただし是これ只ただ要よう處理しょり加か性せい不ふ確定かくてい性せい，也可以進行しんこう隨ずい機き控ひかえ制せい，不ふ過か會かい比較ひかく複雜ふくざつ^[4]。

例れい子こ

以下いか是ぜ一個典型的離散時間隨機線性二次控制問題，要よう最小さいしょう化か^[2]^{:ch. 13;}^[3]^[5]

{\text{E}}_{1}\sum _{t=1}^{S}[y_{t}^{T}Qy_{t}+u_{t}^{T}Ru_{t}]

其中E₁為ため在ざいy₀條件下じょうけんか的てき期き望もち值運算うんざん子こ，上うえ標しるべT表示ひょうじ是ぜ转置矩のり阵，S為ため時間じかん區間くかん，其狀態じょうたい方かた程ほど如下

y_{t}=A_{t}y_{t-1}+B_{t}u_{t},

其中y是これn × 1的てき可か觀察かんさつ狀態じょうたい變數へんすう向むこう量りょう，u是これk × 1的てき控ひかえ制せい變數へんすう向むこう量りょう，A_t是ぜ時間じかんt時どき的てき隨ずい機きn × n狀態じょうたい轉移てんい矩のり陣じん的てき實現じつげん，B_t是ぜ時間じかんt時どき的てき隨ずい機きn × k控ひかえ制せい乘數じょうすう矩のり陣じん的てき實現じつげん，Q (n × n)和わR (k × k)是ぜ已やめ知的ちてき正ただし定てい費用ひよう矩のり陣じん。假設かせつA和わB的まと每ごと個こ元素げんそ都と是ぜ在ざい時間じかん上じょう聯合れんごう的てき独立どくりつ同どう分布ぶんぷ，因いん此期望もち值運算うんざん不用ふよう考慮こうりょ時間じかん的てき條件じょうけん。

可か以用貝かい爾なんじ曼方程ほど得え到いた每まい個こ時間じかん的てき最さい佳けい控ひかえ制せい解かい^[2]^{:ch. 13}

u_{t}^{*}=-[{\text{E}}(B^{T}X_{t}B+R)]^{-1}{\text{E}}(B^{T}X_{t}A)y_{t-1},

配合はいごう對稱たいしょう正ただし定ていcost-to-go矩のり陣じんX，從したがえ $X_{S}=Q$ 開始かいし，以倒退すさ時間じかん方式ほうしき迭代，方程式ほうていしき為ため

X_{t-1}=Q+{\text{E}}[A^{T}X_{t}A]-{\text{E}}[A^{T}X_{t}B][{\text{E}}(B^{T}X_{t}B+R)]^{-1}{\text{E}}(B^{T}X_{t}A),\,

這個就是此問題もんだい離散りさん時間じかん下か的てき動態どうたいRiccati方かた程ほど。有ゆう關せき矩のり陣じんA和わB中ちゅう未知みち參さん數すう所しょ需要じゅよう知道ともみち的てき資し訊只有ゆう每ごと個こ矩のり中ちゅう每まい個こ元素げんそ的てき期き望もち值、方かた差さ，同どう個こ矩のり陣じん不同ふどう元素げんそ的てき共きょう變異へんい數すう，以及不同ふどう矩のり陣じん中元ちゅうげん素的すてき共ども變異へんい數すう。

若わか在ざい狀態じょうたい方かた程ほど中有ちゅうう平均へいきん值為0、獨立どくりつ且相同どう分ぶん佈（i.i.d.）的てき加か性せい擾動出現しゅつげん，只ただ要よう和わ矩のり陣じんA和わB的てき元素げんそ沒ぼつ有ゆう關係かんけい，此擾動どう不ふ會かい影響えいきょう最さい佳よ方かた程ほど。假かり如擾動どう和わ矩のり陣じん有ゆう關せき，每まい個こ時間じかん的てき最さい佳けい控ひかえ制せい解かい會かい包括ほうかつ額がく外的がいてき加か性せい常數じょうすう向むこう量りょう。若わか加か性せい常數じょうすう向むこう量りょう出現しゅつげん在ざい狀態じょうたい方かた程ほど中ちゅう，則のり每ごと個こ時間じかん的てき最さい佳けい控ひかえ制せい解かい會かい再さい包括ほうかつ額がく外的がいてき加か性せい常數じょうすう向むこう量りょう。

X的てき穩態特徵とくちょう若わか存在そんざい，會かい和わS延伸えんしん到いた無限むげん大だい的てき的てき無限むげん時間じかん問題もんだい相關そうかん。可か以用重おも覆くつがえ迭代動態どうたい方かた程ほど中なか的てきX，一直到收斂為止來計算，此時的てき動態どうたい方かた程ほど中なか的てきX就不用よう有ゆう關せき時間じかん的てき下か標しめぎ了りょう。

連續れんぞく時間じかん

若わか模型もけい是ぜ連續れんぞく時間じかん下か的てき系統けいとう，控ひかえ制せい器き知道ともみち系統けいとう在ざい每まい一いち個こ時間じかん下か的てき狀態じょうたい。其目標もくひょう可能かのう是ぜ最大さいだい化か狀態じょうたい變數へんすう凹函數すう（Concave Function）的てき在ざい時間じかん區間くかん0到いた最後さいご時間じかんT之の間あいだ的てき積分せきぶん。隨ずい著ちょ時間じかん的てき演えんじ進すすむ，會かい持續じぞく的てき觀測かんそく到いた新しん的てき值，也會依よ最さい佳けい化か的てき方式ほうしき來らい調整ちょうせい控ひかえ制せい變數へんすう。

隨ずい機き模型もけい預あずか測はか控ひかえ制せい

在ざい文獻ぶんけん中ちゅう，有ゆう二種隨機系統的模型預測控制：強健きょうけん模型もけい預あずか測はか控ひかえ制せい（Robust model predictive control）及隨機き模型もけい預あずか測はか控ひかえ制せい（Stochastic Model Predictive Control，SMPC）。強健きょうけん模型もけい預あずか測はか控ひかえ制せい是ぜ較保守ほしゅ的てき方式ほうしき，在ざい最さい佳けい化か過程かてい中ちゅう會かい考慮こうりょ最さい差さ的てき情じょう形がた，不ふ過か此方こちら式しき和わ其他強健きょうけん控ひかえ制せい類似るいじ，會かい讓ゆずる整せい個こ控ひかえ制せい器き的てき性能せいのう變へん差さ，只ただ適用てきよう不ふ確定かくてい性せい有明ありあけ確かく範圍はんい在ざい系統けいとう。而隨機き模型もけい預あずか測はか控ひかえ制せい是ぜ用よう軟性なんせい的てき限きり制せい。是ぜ用よう機き率りつ的てき不等式ふとうしき來らい讓ゆずる違反いはん限げん制せい的てき機き率りつ不ふ會かい超過ちょうか一定いってい範圍はんい^[6]。

金融きんゆう的てき應用おうよう

在ざい金融きんゆう領域りょういき連續れんぞく系統けいとう的てき研究けんきゅう中ちゅう，隨ずい機き微分びぶん方かた程ほど的てき狀態じょうたい變へん數多あまた半はん是ぜ財ざい富とみ或ある是ぜ淨きよし值，控ひかえ制せい變數へんすう是ぜ不同ふどう時間じかん下か各かく資產しさん的てき配置はいち情じょう形がた。給きゅう定てい任にん一いち時じ間あいだ下か的てき資產しさん配置はいち，財ざい富とみ變化へんか的てき決定けってい因いん素もと是ぜ資產しさん的てき隨ずい機き收益しゅうえき以及無風むふう險けん資產しさん的てき利率りりつ。隨ずい機き控ひかえ制せい的てき領域りょういき在ざい1970年代ねんだい開始かいし大幅おおはば發展はってん，有ゆう不ふ少しょう人ひと應用おうよう在ざい金融きんゆう上じょう。Robert Merton用よう隨ずい機き控ひかえ制せい來らい研究けんきゅう安全あんぜん資產しさん以及風ふう險けん資產しさん的てき最さい佳けい投資とうし組合くみあい（英えい语：optimal portfolio）^[7]。Merton投資とうし組合くみあい問題もんだい（英えい语：Merton's portfolio problem）以及布ぬの莱克-舒尔兹模型がた改變かいへん了りょう金融きんゆう文獻ぶんけん的てき特質とくしつ。有ゆう影響えいきょう力りょく的てき相關そうかん數學すうがく教科書きょうかしょ包括ほうかつWendell FlemingFleming（英えい语：Wendell Fleming）及Rishel合ごう著ちょ的てき教科書きょうかしょ^[8]、以及Fleming和わSoner（英えい语：Halil Mete Soner）合ごう著ちょ的てき教科書きょうかしょ^[9]。Jerome Stein將はた這些技巧ぎこう應用おうよう在ざい2007年ねん–2008年ねん環たまき球だま金融きんゆう危機きき^[10]。

在ざい最後さいご日び期きT的てき淨きよし值期望もち值對數すう的てき最大さいだい值，和わ財ざい富とみ成なり份的隨ずい機き過程かてい有ゆう關せき。在ざい連續れんぞく系統けいとう中ちゅう，伊藤いとう引理是ぜ主要しゅよう分析ぶんせき工具こうぐ。若わか是ぜ要よう探さがせ討在時間じかん(0,T)內凹函數かんすう積分せきぶん的てき最大さいだい值，會かい使用しよう動態どうたい規ぶんまわし劃。這裡沒ぼつ有ゆう類似るいじ較舊的てき文獻ぶんけん的てき確定かくてい等とう效こう關係かんけい，因いん為ため控ひかえ制せい變數へんすう的てき係數けいすう（所ところ選せん資產しさん份額所しょ獲得かくとく的てき回報かいほう）也是隨ずい機き性的せいてき。

参考さんこう文献ぶんけん

^ Definition from Answers.com. [2018-09-05]. （原始げんし内容ないよう存そん档于2019-03-31）.
^ ^2.0 ^2.1 ^2.2 ^2.3 Chow, Gregory P. Analysis and Control of Dynamic Economic Systems. New York: Wiley. 1976. ISBN 0-471-15616-7.
^ ^3.0 ^3.1 Turnovsky, Stephen. Optimal Stabilization Policies for Stochastic Linear Systems: The Case of Correlated Multiplicative and Additive disturbances. Review of Economic Studies. 1976, 43 (1): 191–94. doi:10.2307/2296614.
^ Mitchell, Douglas W. Tractable Risk Sensitive Control Based on Approximate Expected Utility. Economic Modelling. 1990, 7 (2): 161–164. doi:10.1016/0264-9993(90)90018-Y.
^ Turnovsky, Stephen. The stability properties of optimal economic policies. American Economic Review. 1974, 64 (1): 136–148. JSTOR 1814888.
^ Hashemian; Armaou. Stochastic MPC Design for a Two-Component Granulation Process. IEEE Proceedings. 2017: 4386–4391. Bibcode:2017arXiv170404710H. arXiv:1704.04710 .
^ Merton, Robert. Continuous Time Finance. Blackwell. 1990.
^ Fleming, W.; Rishel, R. Deterministic and Stochastic Optimal Control. 1975 [2018-10-01]. ISBN 0-387-90155-8. （原始げんし内容ないよう存そん档于2021-04-28）.
^ Fleming, W.; Soner, M. Controlled Markov Processes and Viscosity Solutions. Springer. 2006.
^ Stein, J. L. Stochastic Optimal Control and the US Financial Crisis. Springer-Science. 2012.

[1] Definition from Answers.com. [2018-09-05]. （原始げんし内容ないよう存そん档于2019-03-31）.

[Chow-2] 2.0 ^2.1 ^2.2 ^2.3 Chow, Gregory P. Analysis and Control of Dynamic Economic Systems. New York: Wiley. 1976. ISBN 0-471-15616-7.

[Turnovsky-3] 3.0 ^3.1 Turnovsky, Stephen. Optimal Stabilization Policies for Stochastic Linear Systems: The Case of Correlated Multiplicative and Additive disturbances. Review of Economic Studies. 1976, 43 (1): 191–94. doi:10.2307/2296614.

[4] Mitchell, Douglas W. Tractable Risk Sensitive Control Based on Approximate Expected Utility. Economic Modelling. 1990, 7 (2): 161–164. doi:10.1016/0264-9993(90)90018-Y.

[5] Turnovsky, Stephen. The stability properties of optimal economic policies. American Economic Review. 1974, 64 (1): 136–148. JSTOR 1814888.

[6] Hashemian; Armaou. Stochastic MPC Design for a Two-Component Granulation Process. IEEE Proceedings. 2017: 4386–4391. Bibcode:2017arXiv170404710H. arXiv:1704.04710 .

[7] Merton, Robert. Continuous Time Finance. Blackwell. 1990.

[8] Fleming, W.; Rishel, R. Deterministic and Stochastic Optimal Control. 1975 [2018-10-01]. ISBN 0-387-90155-8. （原始げんし内容ないよう存そん档于2021-04-28）.

[9] Fleming, W.; Soner, M. Controlled Markov Processes and Viscosity Solutions. Springer. 2006.

[stein-10] Stein, J. L. Stochastic Optimal Control and the US Financial Crisis. Springer-Science. 2012.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]