まっどさいえんちすと

日本語が苦手なのでブログで練習します。パエリアが大好き

統計的因果推論~反事実推定

まず相関と因果関係が大きく異なることを意識しましょう。

結構みじかなものです。「この仕事を今日仕上げたら、明日はどういう一日なるか?」

これも完全な統計的因果推論です。

逆に反事実の推論とは、御察しの通り

「この仕事、今日やらなかった、けどもしやっていたら、明日はどうなっていたのだろう?」

という自分がやったことと反対のことが起きた時に、どういう因果が推論できるか。ということです。

 

機械学習やっていると、「因果と相関」をこんなに軽視しても良いもんかと思います。

例えば「お菓子の食べる量から糖尿病の発症を予測する」モデルを作ると、

無茶苦茶に言えば、糖尿病だからお菓子を食べたくなるのではないか?とも思えるわけです。

 

だからといってデータだけ、特に観察研究から因果関係については確立できない。と諦めてしまいがちですが、諦めずに研究したいですね。

 

統計的因果推論でKeyとなる概念をいくつか紹介します。

まず回帰分析の誤解

「AのときにBである」と「AすればBになる」これは違う二つです。

回帰分析は前者ですが、後者は回帰分析ではないです。

 

観察研究とは欠損値の扱い問題である[英語でImputation]

結局我々が因果を推論するときには、ランダム化比較試験しかないが、それは結局欠損しているかもしれない変数を打ち込んでいるだけです。

 

さてこの程度の知識を入れておけば、下の論文は読めるでしょう。

 

去年Deep Learningを使って因果推論を扱う論文が初めてでました。

[1511.05121] Deep Kalman Filters

これは簡単に言えばVAEを使って反事実推定を行ってます。

「この患者にA薬を投与したが、B薬を投与したらどうだろうか?。しかしすでにA薬を投与してしまってるので、B薬を投与した結果は永遠にわからない」

こんな感じです。