隨機控制(stochastic control)或隨機最优控制(stochastic optimal control)是控制理论中的一個領域,是針對有不確定性的系統進行控制,不確定性可能是在量測上,也有可能是因為雜訊的影響。系統設計者會假設影響狀態變數的隨機雜訊,(以贝叶斯概率的觀點來看)其機率分布是已知的。隨機控制的目的是在雜訊存在的情形下,設計受控變數的時間軌跡,在最小成本的情形下(其成本可能會適有適當的定義)使系統完成預期的控制任務[1]。隨機控制可能是配合離散時間系統,也可能是連續時間系統。
隨機控制中最常被探討的控制器是線性平方高斯控制(LQG控制),其模型為線性的,目標函數的期望值為二次性,而擾動是純疊加性的。若是離散時間集中式系統,其不確定性是純疊加性,有一個基本的特性為「確定性等效性質」(certainty equivalence property)[2]:其最佳控制的解和沒有疊加性擾動下的解一樣。所有線性系統方程、二次目標函數、雜訊為純疊加性的集中式系統中,確定性等效性質都會成立,二次目標函數的假設是讓(配合確定性等效性質)的最佳控制律是控制器觀測值的線性函數。
若有任何和上述假設不同的地方:非線性狀態方程、非二次目標函數、乘數不確定性或是系統為分散式控制系統都會讓確定性等效性質不成立。例如在分散式系統中的Witsenhausen反例就是說明確定性等效性質在分散式系統中不成立。
在離散時間系統中,控制器會在每個時間週期觀測狀態變數(也可能包括估測雜訊)。其目標可以針對所有時間內的非線性(可能是二次的)目標函數計算不同時間期望值的加權和,也可以只針對最後時間的目標函數進行最佳化。每個時間區間內會產生新的估測值,依最佳化的方式調整控制變數。找目前時間最佳解的作法是後向迭代計算線性平方高斯控制(矩陣Riccati方程),從最後的時間一直倒退迭代到目前時間。
考慮離散時間系統,其傳遞矩陣或控制響應矩陣中的參數有不確定性(因此狀態變數的目前值會有變化),但仍然是線性狀態函數以及二次性目標函數,仍然可以用每一個時間週期的解,用後向迭代的方式求解Riccati方程,不過可能沒有確定性等效的特性[2]ch.13[3]。若離散時間系統的目標函數不是二次性的,但是只要處理加性不確定性,也可以進行隨機控制,不過會比較複雜[4]。
以下是一個典型的離散時間隨機線性二次控制問題,要最小化[2]:ch. 13;[3][5]
其中E1為在y0條件下的期望值運算子,上標T表示是转置矩阵,S為時間區間,其狀態方程如下
其中y是n × 1的可觀察狀態變數向量,u是k × 1的控制變數向量,At是時間t時的隨機n × n狀態轉移矩陣的實現,Bt是時間t時的隨機n × k控制乘數矩陣的實現,Q (n × n)和R (k × k)是已知的正定費用矩陣。假設A和B的每個元素都是在時間上聯合的独立同分布,因此期望值運算不用考慮時間的條件。
可以用貝爾曼方程得到每個時間的最佳控制解[2]:ch. 13
配合對稱正定cost-to-go矩陣X,從開始,以倒退時間方式迭代,方程式為
這個就是此問題離散時間下的動態Riccati方程。有關矩陣A和B中未知參數所需要知道的資訊只有每個矩中每個元素的期望值、方差,同個矩陣不同元素的共變異數,以及不同矩陣中元素的共變異數。
若在狀態方程中有平均值為0、獨立且相同分佈(i.i.d.)的加性擾動出現,只要和矩陣A和B的元素沒有關係,此擾動不會影響最佳方程。假如擾動和矩陣有關,每個時間的最佳控制解會包括額外的加性常數向量。若加性常數向量出現在狀態方程中,則每個時間的最佳控制解會再包括額外的加性常數向量。
X的穩態特徵若存在,會和S延伸到無限大的的無限時間問題相關。可以用重覆迭代動態方程中的X,一直到收斂為止來計算,此時的動態方程中的X就不用有關時間的下標了。
若模型是連續時間下的系統,控制器知道系統在每一個時間下的狀態。其目標可能是最大化狀態變數凹函數(Concave Function)的在時間區間0到最後時間T之間的積分。隨著時間的演進,會持續的觀測到新的值,也會依最佳化的方式來調整控制變數。
隨機模型預測控制
[编辑]
在文獻中,有二種隨機系統的模型預測控制:強健模型預測控制(Robust model predictive control)及隨機模型預測控制(Stochastic Model Predictive Control,SMPC)。強健模型預測控制是較保守的方式,在最佳化過程中會考慮最差的情形,不過此方式和其他強健控制類似,會讓整個控制器的性能變差,只適用不確定性有明確範圍在系統。而隨機模型預測控制是用軟性的限制。是用機率的不等式來讓違反限制的機率不會超過一定範圍[6]。
在金融領域連續系統的研究中,隨機微分方程的狀態變數多半是財富或是淨值,控制變數是不同時間下各資產的配置情形。給定任一時間下的資產配置,財富變化的決定因素是資產的隨機收益以及無風險資產的利率。隨機控制的領域在1970年代開始大幅發展,有不少人應用在金融上。Robert Merton用隨機控制來研究安全資產以及風險資產的最佳投資組合[7]。Merton投資組合問題以及布莱克-舒尔兹模型改變了金融文獻的特質。有影響力的相關數學教科書包括Wendell FlemingFleming及Rishel合著的教科書[8]、以及Fleming和Soner合著的教科書[9]。Jerome Stein將這些技巧應用在2007年–2008年環球金融危機[10]。
在最後日期T的淨值期望值對數的最大值,和財富成份的隨機過程有關。在連續系統中,伊藤引理是主要分析工具。若是要探討在時間(0,T)內凹函數積分的最大值,會使用動態規劃。這裡沒有類似較舊的文獻的確定等效關係,因為控制變數的係數(所選資產份額所獲得的回報)也是隨機性的。
- ^ Definition from Answers.com. [2018-09-05]. (原始内容存档于2019-03-31).
- ^ 2.0 2.1 2.2 2.3 Chow, Gregory P. Analysis and Control of Dynamic Economic Systems. New York: Wiley. 1976. ISBN 0-471-15616-7.
- ^ 3.0 3.1 Turnovsky, Stephen. Optimal Stabilization Policies for Stochastic Linear Systems: The Case of Correlated Multiplicative and Additive disturbances. Review of Economic Studies. 1976, 43 (1): 191–94. doi:10.2307/2296614.
- ^ Mitchell, Douglas W. Tractable Risk Sensitive Control Based on Approximate Expected Utility. Economic Modelling. 1990, 7 (2): 161–164. doi:10.1016/0264-9993(90)90018-Y.
- ^ Turnovsky, Stephen. The stability properties of optimal economic policies. American Economic Review. 1974, 64 (1): 136–148. JSTOR 1814888.
- ^ Hashemian; Armaou. Stochastic MPC Design for a Two-Component Granulation Process. IEEE Proceedings. 2017: 4386–4391. Bibcode:2017arXiv170404710H. arXiv:1704.04710 .
- ^ Merton, Robert. Continuous Time Finance. Blackwell. 1990.
- ^ Fleming, W.; Rishel, R. Deterministic and Stochastic Optimal Control. 1975 [2018-10-01]. ISBN 0-387-90155-8. (原始内容存档于2021-04-28).
- ^ Fleming, W.; Soner, M. Controlled Markov Processes and Viscosity Solutions. Springer. 2006.
- ^ Stein, J. L. Stochastic Optimal Control and the US Financial Crisis. Springer-Science. 2012.