Boyang's blog

分享生活,交流知识

0%

两大因果框架\(^{[1]}\)

因果科学中,目前使用范围最广的模型有两个,一个是著名统计学家DonaldRubin教授在1978年提出的潜在结果模型(Potential Outcome Model);另一个是图灵奖获得者Judea Pearl教授在1995年提出的结构因果模型(Structural Causal Model,SCM)。这两个框架在不同的领域都有不同侧重的应用:计算机领域更多的是采用Pearl的框架;社会科学、计量经济学、流行病学等领域主要采用的则是Rubin的这套框架,这两套框架的本质其实是相同的,都是在观测数据中推测出因果关系,但采用的思想原理有所不同:SCM的关键在于图模型,来源于贝叶斯网络,将Bayes网络加上外部干预,用来定义外部干预的因果作用和描述多个变量之间的因果关系,利用因果网络不仅能定量评价因果作用,还能定性确定混杂因素,用于从数据挖掘因果关系;RCM的关键在于潜在结果,来源于统计学,该模型主要用在原因和结果变量已知的前提下,定量评价原因变量对结果变量的因果作用。

Figure1 Judea Pearl, Donald Rubin

阅读全文 »

符号标识

\[\begin{matrix} \xi = \{ s_{1},a_{1},\ldots,s_{t},a_{t} \}\tag{1} \\ \end{matrix}\]

\[\begin{matrix} R_{\lambda} = \sum_{}^{}{r_{\lambda}(s_{t},a_{t})}\ \tag{2} \\ \end{matrix}\]

最优化公式

\[\begin{matrix} Max\ \sum_{Path\xi_{i}}^{}{- p\left( \xi_{i} \right)lgp\left( \xi_{i} \right)}\ \ \tag{3} \\ \end{matrix}\]

\[\begin{matrix} s.t.\ \sum_{Path\xi_{i}}^{}{p\left( \xi_{i} \right)f_{\xi_{i}}} = \widetilde{f}\tag{4} \\ \end{matrix}\]

\[\begin{matrix} \sum_{Path\xi_{i}}^{}{p\left( \xi_{i} \right) = 1}\tag{5} \\ \end{matrix}\]

阅读全文 »

最大因果熵逆向强化学习

  1. 马尔科夫决策过程 Markov decision process (MDP)

定义1: 马尔可夫决策过程定义为一个元组\(M = \left( S,A,P_{T},R,P_{0},S_{\phi} \right)\)

\(S\):有限或无限状态集合

\(A\):有限或无限的动作集合

\(P_{T}\):状态转移概率分布,\(P_{T}(S_{j}|A_{i},S_{i})\)表示智能体在状态\(S_{i}\)采取动作\(A_{i}\)后转移到状态\(S_{j}\)的概率

\(R\)\(R(S,A)\)表示立即奖励函数

\(S_{\phi}\):最终状态集合

阅读全文 »