2024年2月19日 星期一

因果革命

看完了《因果革命》,是Judea Pearl以一般大眾為讀者講述因果革命的著作。書中先介紹推論發動機藍圖,由九項要素組成︰


1. 「知識」是推理者對查詢項目的過往經驗,隱藏在推理者思想中,模型不會明確說明。
2. 「假設」是研究者根據現有知識清楚說明的敘述。
3. 「因果模型」描述因果關係,作者其後會以因果圖說明。
4. 「可驗證含意」計算資料符合模型假設的程度。
5. 「查詢」是以因果詞彙寫成的科學問題,例如其後說明的do演算法機率是甚麼。
6. 「被估量」是以資料估計的統計量,用來回答查詢,但前提是必須經推論發動機檢定。
7. 「資料」是被估量的輸入成份,作者其後會說明只靠資料本身不能找出因果關係。
8. 「統計估計值」是從樣本中得出的輸出,以統計方法可以調整至接近實際全體值。
9. 如果模型正確、資料充足,就可以得出因果查詢的「答案」。

理解因果至少必須掌握三層級的認知能力︰觀看、實行與想像。觀看探知環境中的規律看出不同變項的關係;實行預測刻意改變環境的效果,選擇適當的介入行動;想像讓人知道工具有效的原因,並預計反事實情況下的結果。因果階梯第一層探討眼前的世界,第二層探討可見的全新世界,第三層探討看不見的世界。

統計學與機器學習在因果階梯的第一層,具備強大運算能力但不具智慧。介入屬第二層,不只需要觀察,還要改變現狀,這無法以被動取得資料來回答。沒有因果模型,無法回答關於介入的問題。因果階梯第二層的基本查詢可寫成P(Y|do(X)),也就是介入X後某個Y值的機率。例如改變牙膏價格後,以某價格賣出牙線的機率是多少,可寫成P(牙線|do(牙膏))。反事實屬因果階梯第三層,在事件已發生後,推論假如是另一情況會怎樣,理解為甚麼現實結果會是那樣。物理定律是反事實推論的例子,以任何假定的輸入值都可推論出輸出值。

因果圖可用於呈現因果關係及其演算法。假設行刑隊收到命令槍決囚犯,以因果圖呈現過程如下︰


其中CO、C、A、B、D都是真假變項。以因果圖可以解答關聯問題,例如當囚犯死亡為真,下令執行是否為真,依據邏輯答案為「是」。在因果階梯向上爬提出介入問題,就先要打破規則,去除指向介入變項的箭頭。例如假設A沒有隊長下令就自行開槍(介入項),以因果圖表示如下︰


去除指向A的箭頭,並設定A為真,可得出介入(A沒有命令下開槍)必定造成囚犯死亡的結論。

對於反事實問題,例如假設囚犯已死亡,即D為真,可以推斷CO、C、A、B均為真。但假如A當時決定不開槍會怎樣?這個虛構世界中C指向A的箭頭擦去,以因果圖表示如下︰


去除指向A的箭頭,並設定A為假,可推斷士兵B會殺死囚犯,所以虛擬世界的囚犯也會死亡。

因果圖看似是花很多工夫回答十分明顯的問題,但重點是這種方式可讓電腦選擇性違反邏輯,讓電腦也能進行因果推理。因果圖傳達的知識比機率分布呈現強固性,在機率大幅改變後因果圖結構不會改變,新資料可套用在被估量上,產生新的估計值。

機率關係一碰到干擾因素就會改變,補救方法是運用do運算符號,當P(Y|do(X))>P(Y),則X是Y的原因。這個定義可透過因果圖轉化為可以運算。

自卡爾‧皮爾森後,統計學與「因果」分道揚鑣,只說明變項之間的相關。西瓦爾‧萊特在1920年發表天竺鼠研究,以圖形表達遺傳與發育對天竺鼠的影響,並以數學語言(路徑系數)呈現實際的因果知識。萊特繪製的路徑圖之一是關於幼鼠出生體重,設X=出生體重,Q=產前生長速度(無法觀察),P=懷孕時間,L=同窩幼鼠數目,A=其他生長速率原因(無法觀察),C=其他懷孕時間原因,表示如下︰


要查詢懷孕時間 P對出生體重X的直接影響,先要去除同窩幼鼠數目 L造成的偏差。通過測定配對(P,X)、(L,X)與(L,P)後,解出方程式可求得P對X的路徑系數。

萊特的研究方法在1920至60年間幾乎被忽視,作者認為是因為路徑分析與因果推論需要科學思考,而統計學不鼓勵科學思考,偏好「套裝」程序。自1960年代起,社會科學將路徑分析改為結構方程建模(SEM),研究者對內部運作不感興趣。萊特在1983年再次發表論文,指出沒有模型無法進行路徑分析,繪製因果圖必須依據使用者對因果過程的個人理解。

貝斯法則提供逆機率問題的通解。假設有事件S與T,P(T)代表T發生的機率,P(S)代表S發生的機率,P(S︱T)代表已知T發生下S的機率, P(T︱S)代表已知S發生下T的機率,則︰

P(S︱T) P(T) = P(T︱S) P(S)

在貝氏法則中,「已知我已知」是經驗主張,受知識邏輯而不是頻率與比例邏輯規範。已知T後對S的置信度,永遠不會低於發現T之前對S與T兩者的置信度。貝氏法則的事前機率由資料估算,並以新證據修改假設置信度。

作者在1985年以貝斯網路命名一種機器學習的計算法,由節點與連接組成,連接分為三種基本類型︰

1. A→B→C,這類連接稱為鏈或中介,例如「起火→冒煙→警報」,B為中介變項,將關於C的資訊與A隔離。當冒煙=1,不論起火的值是0或1,警報的值都是1,換言之,已知冒煙的值後,起火與警報條件獨立,讓機器可專注相關資訊,捨棄其餘資訊。

2. A←B→C,這類連接稱為分叉,B為A與C的共同原因或干擾因子。干擾因子可在A與C沒有直接因果連結下產生統計相關,例如「鞋子尺寸←兒童年齡→閱讀能力」。將兒童年齡條件化後,可以消除這類假性相關,例如只觀察七歲的兒童。如果周圍還有其他因果路徑,也必須列入考慮。

3. A→B←C,這類連接稱為衝突,例如「才華→成名←外貌」,如果才華與外貌無關,將成名條件化會使A與C變成相關,例如只觀察著名演員(成名=1),才華與外貌會呈現負相關,即使在一般大眾中兩者無關。這類負相關稱為衝突偏誤或自圓其說效應。

在貝氏網路中,每個節點的條件機率依據親代指定。例如要表現在機場轉盤拿到行李的機率,以因果圖表示如下︰


假設機場所有行李都會在十分鐘內卸下轉盤,行李在飛機上的機率是50%,轉為貝氏網路的條件機率表,則表示如下︰

機率→

已知↓

轉盤 

轉盤 

行李在飛機上

經過時間



0

100

0

1

100

0

2

100

0

3

100

0

4

100

0

5

100

0

6

100

0

7

100

0

8

100

0

9

100

0

10

100

0

0

100

0

1

90

10

2

80

20

3

70

30

4

60

40

5

50

50

6

40

60

7

30

70

8

20

80

9

10

90

10

0

100



假如經過x分鐘,還是沒有拿到行李,那麼行李在飛機的機率是多少?參照機率表,會得出1分鐘後,機率為(90/(90+100))%=47%,5分鐘後,機率為(50/(50+100))%=33%,十分鐘後就會是零。

貝氏網路應用例子包括DNA比對與通訊雜訊處理。貝氏網路無法處理「微調」或分辨觀察與實行的差別,或者分辨 A→B→C鏈與 A←B→C分差,因果圖則可以模擬條件化作業能否產生A與C的相關,預測介入效果,回答為甚麼的問題。

干擾因子會令因果效應出現偏差,例如下圖中Z是干擾因子,影響X→Y的因果效應,以致無法分辦真正效果與假性效果。


統計學透過對照干擾因子調整干擾偏差,但因為不探討因果性,分不清甚麼變項應該對照,只是越多越好。運用有科學根據的因果圖,找出足夠的去干擾因子,再以去干擾因子執行調整,就可以表示用經計算出X→Y的因果效應。

統計學去干擾的原理是隨機對照實驗(RCT)。作者指出, 從因果圖了解RCT為何不受干擾偏差後,就不需要視RCT為因果分析最佳標準。隨機化能切斷所有與隨機化變項間的連結,包括不知道或無法量測的連結。假設在一般情況下的因果圖如下︰


透過隨機化指定肥料,RCT的模擬世界會變為下圖,以計算肥料對產量的效應︰


在不可能進行RCT的情況,非實驗性研究可運用do運算子提出因果圖假設所提出的因果性。干擾偏差是指P(Y|X)與P(Y|do(X))的差異。在因果圖中,X→Y的干擾因子Z,定義是「Y與Z相關,而且相關路徑沒有經過X」。

以中介變項(A→B→C的B)或分叉變項(A←B→C的B)及其後代執行對照可關閉A→C的資訊管道,以衝突變項(A→B←C的B)及其後代執行對照可開啟A→C的資訊管道。在更長的管道中︰

A←B←C→D←E→F→G←H→I→J

如果其中一個連接被阻斷,J就無法透過這條路徑找到關於A的資訊。阻斷方法如以B執行對照、以C執行對照、不以D(衝突)執行對照、以E執行對照等。假如不執行任何對照,這條路徑是阻斷的,因為D與G都是衝突。將衝突執行對照會開啟原本關閉的管理,將所有可測量變項都用作對照並不正確。

要去除X→Y的干擾,只需阻斷兩者間的非因果路徑,但不阻斷或擾亂因果路徑。更精確地說,阻斷所有後門路徑,也就是以指向X的箭頭為起點,由X至Y的路徑後,就可去除X→Y的干擾。書中其中一例如下︰


當中後門路徑X←B←C→Y需要阻斷,可以C執行對照。假如以 B執行對照,則X←A→B←C→Y路徑會開啟(B在這路徑中是衝突,對照後會開啟路徑),需要進一步以A執行對照。

在因果革命出現之前,1950-60年代吸煙是否導致肺癌引起過激烈爭議。反對吸煙導致肺癌的最重要說法是,有不明因素同時導致尼古丁成癮與肺癌,這類干擾現在可以藉因果圖消除,但當時的科學家沒有這種方法。為說明吸煙導致癌症的理論正確,1960年代美國衛生總署採用一連串非正式指導方針,名為希爾準則。希爾準則最初有五項︰一致性(不同群體的多項研究結果相仿)、關聯強度(包括劑量反應效果︰吸煙越多、風險越高)、關聯特異性(特定因素有特定效果)、時間關係(原因先於效果)、連貫性(生物上可信、吻合實驗與時間序列等)。希爾準則最後說服了醫學界,但對未來的因果研究,這些準則依然不足。

在「蒙提霍爾悖論」中,假設遊戲要選擇三道門之一,要選的是其中一道有汽車的門、而另一道門有山羊、最後一道門甚麼都沒有,在選擇一號門後,知道門後有甚麼的主持人打開三號門,門後是山羊,這時主持人問要不要換選二號門,換另一扇門選中門後汽車機率會由之前1/3增加至2/3。以因果圖看蒙提霍爾悖論顯示如下︰


主持人「打開的門」是玩家「選擇的門」與「汽車位置」的衝突,取得「打開的門」這個變項的資訊(也就是主持人打開山羊的門後),衝突條件化會造成親代之間的假性相依︰如果之前選一號門,汽車位置在二號門的機率是一號門的兩倍,反之亦然。這種相依純粹是貝氏條件化產物︰任何假設一旦通過可能威脅其正確性的檢驗,這個假設的可能性就會提高。這種相關沒有原因,違反我們的常識,就像視覺幻象一樣造成系統性錯誤。

辛普森悖論是指在每一子分類下的相對機率分布,與合併整體後的相對機率分布相反,以一組虛構資料為例︰


對照組(不服用藥物)

處理組(服用藥物)

心臟病

無心臟病

心臟病

無心臟病

女性

1

19

3

37

男性

12

28

8

12

全體

13

47

11

49


在上例中,不論女性或男性,服用藥物組別的心臟病比率都較高,但數字合併後,反而是不服用藥物組別的心臟病比率比較高。直覺以為當A/B>a/b以及C/D>c/d,那麼(A+C)/(B+D)>(a+c)/(b+d),但這樣的直覺並不正確。作者認為,這種情況應該稱為辛普森逆轉,而不是根深柢固想法出現衝突的悖論。

上例中性別對服用藥物的比例與心臟病罹患率都有影響,這可以藉因果圖表示如下︰


因而性別是藥物→罹患心臟病路徑的干擾因子,必須以干擾因子執行調整。例如分別觀察男性與女性的資料,再取其分布機率平均值,假設男女比例相同,則不服用藥物組別中,男性心臟病比例為30%,女性為5%,兩數平均為17.5%;服用藥物組別中,男性心臟病比例為40%,女性為7.5%,兩數平均為23.75%。對比不服用藥物組別的17.5%與服用藥物組別23.75%,可見服用藥物增加心臟病罹患率。

即使數字完全一致,但因果模型有別,則處理資料的方法也有差異。例如上例組別由性別變成血壓︰


對照組(不服用藥物)

處理組(服用藥物)

心臟病

無心臟病

心臟病

無心臟病

低血壓

1

19

3

37

高血壓

12

28

8

12

全體

13

47

11

49


假設已知血壓是心臟病可能原因,藥物據稱可以降低血壓,要找出藥物對心臟病風險的影響,以因果圖表示如下︰


由於血壓是中介變項,不是干擾因子,不需要劃分資料,以血壓條件化反而會令藥物→罹患心臟病其中一條因果路徑失效。以整體資料得出結論,藥物對降低心臟病資料有效。

羅德悖論與辛普森悖論相似,後來修改過的羅德悖論查詢不同飲食對學生體重增加幅度的影響,顯示如下圖︰


WI代表起初體重,WF代表最後體重,學生分別在不同食堂用餐,起始體重較輕的學生較多在食堂A用餐,較重的學生較多在食堂B用餐。整體而言所有學生體重都沒有增加,但在每個最初體重組別中(例如W0),在食堂B用餐組別的體重增加都高於食堂A組別。

此例以因果圖表示如下︰


可見WI是D(飲食)與WF的干擾因子,分析時應以起始體重執行對照,推論在食堂B用餐的學生體重增加較多。

當資料有足夠變項組,可以阻斷介入與結果間的所有後門路徑,就可藉調整公式以干擾因子執行對照,按照去干擾因子的分層(例如性別比例)加權。在數字值的變項中,處理變項X、結果變項Y、與干擾因子Z的關係方程式可寫成Y = aX + bZ + c,a就是X在調整Z後的回歸係數。如果Z是唯一的干擾因子,a就是X對Y的平均因果效應,前提是因果路徑圖代表可信的真實情況,以及Z應該符合後門準則。回歸調整只適用於線性模型,無法建立非線式交互作用模式。

當有無法阻斷的後門路徑,就無法進行後門調整。另一種調整方法是前門調整,以某種吸煙基因、吸煙、焦油與癌症的關係為例︰


由於不知道吸煙基因是否存在,無法蒐集相關資料阻斷後門路徑。解決方法是改為注意前門路徑,即「吸煙→焦油→癌症」,推理過程如下︰

1. 估計吸煙對焦油的平均因果效應,因為「吸煙←吸煙基因→癌症←焦油」路徑已被癌症衝突阻斷,不用做後門調整,直接觀察P(焦油|吸煙)與P(焦油|不吸煙)的差,就是吸煙對焦油的平均因果效應。
2. 估計焦油對癌症的平均因果效應,後門路徑「焦油←吸煙←吸煙基因→癌症」可藉由調整吸煙阻斷,以後門調整公式得出P(癌症|do(焦油))與P(癌症|do(無焦油)),兩者的差就是焦油對癌症的平均因果效應。
3. 透過在P(癌症|do(焦油))與P(癌症|do(無焦油))兩種情況,在do(吸煙)下的機率分別執行加權,可以計算出吸煙導致癌症的總機率;同樣的兩種情況以do(不吸煙)下的機率分別執行加權,可得出不吸煙導致癌症的總機率。兩者的差就是吸煙與不吸煙對癌症的平均因果效應。

設X代表吸煙、Y代表癌症、Z代表焦油,前門調整以公式表示如下︰

P(Y | do(X)) = Σz P(Z = z, X) Σx P(Y | X = x, Z = z) P(X = x)

後門公式如下︰

P(Y | do(X)) = Σz P(Y | X, Z = z) P(Z = z)

前門調整能以無法觀察、甚至不知道的干擾因子執行對照,而且可以觀察人在自然狀態的行為,作者認為前門調整可以成為隨機對照試驗的有力競爭者。

消除P(Y | do(X))中的do運算子有三項規則。規則一,觀察與Y無關的變項W,則Y的機率不會改變,以符號表達為︰

P(Y | do(X), Z, W) = P(Y | do(X), Z)

規則二,當一組變項Z可以阻斷從X到Y的所有後門路徑,則以Z執行條件化後,do(X)等於觀察資料中的see(X),以符號表達為︰

P(Y | do(X), Z) = P(Y | X, Z)

規則三,只要從X到Y沒有任何路徑,只有指向前方的指頭(X→Y),則︰

P(Y | do(X)) = P(Y)

引用前述吸煙、吸煙基因、焦油與癌症關係的例子,設s=吸煙,c=癌症,t=焦油,以這三項規則推導出前門公式的步驟如下︰


在接受線性假設下,運用工具變項可以做出與前門調整相同的方法,找出X對Y的影響。設工具變項為Z,未知干擾因子為U,X、Y、Z、U的因果圖如下︰


由於Z與X沒有受到干擾,所以Z對X的因果效應(a)可由Z對X的回歸線斜率rZX估計得出。同樣,由於路徑Z→X←U→Y被X的衝突阻斷,所以Z對Y的因果效應(ab)等於Z對Y的回歸線斜率rZY。因此a=rZX,ab=rZY,可得出X對Y的因果效應b=rZY/rZX

在反事實因果模型中,假如X指定為x值,Y對個體u所採用的值,以符號可寫為YX=x(u),或簡化成YX(u)。以公司員工薪水為例,設EX為工作經驗年數、ED為教育程度(為簡化以0=高中畢業、1=大學畢業、2=研究所畢業)、S為薪水、u為員工,各員工的資料如下︰


工作經驗

教育程度

薪水

員工(u)

EX(u)

ED(u)

S0(u)

S1(u)

S2(u)

愛麗絲

6

0

$81000

?

?

伯特

9

1

?

$92500

?

卡洛琳

9

2

?

?

$97000

大衛

8

1

?

$91000

?

恩斯特

12

1

?

$100000

?

法蘭西斯

13

0

$97000

?

?

其他







假如愛麗絲是大學畢業生,會有多少薪水?換句話說,S1(愛麗絲)是多少?以資料比對或線性回歸都無法解答反事實問題,關鍵在於經驗有可能取決於教育程度,以因果圖表示為︰


薪水(S)以教育程度(ED)、經驗(EX)為函數最符合的線性方程式為︰

S = $65000+2500*EX+5000*ED +US

US代表影響薪水的未觀察變項。由於S沒有箭頭指向EX,EX線性方程中S的係數為0,EX的線性方程為︰

EX = 10-4*ED+UEX

UEX代表影響經驗的未觀察變項。

要回答 SED=1(愛麗絲)是多少需要進行三個步驟︰

1. (外展) 以愛麗絲與其他員工的相關資料,估算愛麗絲專屬的US(愛麗絲)與UEX(愛麗絲)。已知EX(愛麗絲)=6、ED(愛麗絲)=0,可得US(愛麗絲)=$1000、UEX(愛麗絲)=-4。

2. (行動) 使用do運算子,依據提出的反事實假設修改模型,設定ED(愛麗絲)=1。由於沒有箭頭指向教育程度,在此例中不需要去除箭頭,但較複雜模型中可能會影響之後計算。

3. (預測) 以修改過的模型,根據US(愛麗絲)、UEX(愛麗絲)與新設定ED(愛麗絲)的值,計算SED=1(愛麗絲)。SED=1(愛麗絲) = $65000+2500*2(即︰10-4*1[新的ED(愛麗絲])+(-4)[UEX(愛麗絲)])+5000*1[新的ED(愛麗絲))+1000[US(愛麗絲)] = $76000

這三個步驟可綜合為YX(u) = YMx(u),也就是使用模型MX去除指向X的箭頭,計算其結果Y(u),得出潛在結果YX(u)。

作者以法律為例說明機率反事實論證︰

假設知道太平門被堵塞(X=1)且某人死亡(Y=1),那麼如果X為0,此人存活的機率是多少?

以符號表示,上面要評估的機率是P(YX=0=0 | X=1, Y=1),也可以稱作X=1為Y=1的必要性機率(PN)。在法律上,刑法採用近因原則,即結果之發生不應太過遙遠或偶然,難以歸因於抗辯人的責任或其行為效果。作者指這是一種充分性機率(PS),以符號表達為P(YX=1=1 | X=0, Y=0)。作者認為,當PS太小,Y=1就不應歸責於被告。

以本書最初的行刑隊例子來說,A士兵或B士兵開槍都足以導致囚犯死亡,但兩者本身都非必要,所以PS=1,PN=0。加入不確定性,例如假設A士兵有pA機率沒有擊中目標,則他的PS是他擊中目標導致死亡的機率,即1-pA;他的PN則取決於B士兵沒有擊中目標的機率。

區分PS與PN有助於理解溫室氣體與氣候變化的關係。以2003年歐洲熱浪為例,PS低至約0.0072,表示當年無法預測這次事件,PN則是0.9,代表沒有溫室氣體,這次熱浪很可能不會發生。極低PS值需要放在更長遠背景來看,時間拉長,其他造成熱浪機制產生影響,PN因而降低。由於有更多時間產生隨機值,加上溫室氣體濃度持續提高,PS會不斷提高,即極端天氣出現機率持續上升。

中介分析探討中介變項是否能完整解釋處理變項的效應,區分直接與間接效應,這與反事實陳述有關。以性別、學系、錄取結果的因果圖為例︰


如果要封閉性別到結果的間接路徑,需要使學系保持恆定,再改變性別變項。但以學系執行條件化,在學系有干擾因子下(例如圖中的居住州),就會條件化學系這一衝突,開啟「性別→學系←居住州→結果」的後門路徑。不保持中介變項(此例中為學系)恆定,而以中介變項執行條件化,作者稱為「中介謬誤」,可能導致分析翻轉。

直接效應可以do運算法定義。假設有處理X、結果Y與中介M三個變項,對照直接效應(CDE(0))以符號表示為︰

CDE(0) = P(Y=1 | do(X=1)), do(M=0)) - P(Y=1 | do(X=0)), do(M=0))


CDE(0)中的0代表規定中介變項值為0,也可以規定中介變項值為1,計算出CDE(1),但過度對照實驗可能會扭曲原本的情況。另一方法是隨意指定X的值,計算出自然直接效應(NDE),以符號表示為︰

NDE = P(YM=M0=1 | do(X=1)) - P(YM=M0=1 | do(X=0))

以學系例子說明,前面一項代表女性學生如果選擇自己喜歡的學系(M=M0),同時謊報為男性(do(X=1))時被錄取的機率。

自然直接效應無法以do計算法估算,必須以中介方程式去除反事實下標。計算間接效應不能封閉直接路徑,因而沒有「對照」版本,但有「自然」版本的自然間接效應(NIE),同樣以反事實定義。作者以寵物犬在其他寵物寄宿時較接受家居訓練的事為例︰


作者想問的是,已知其他寵物在家,小狗改變了行為,但如果其他寵物不在家,應該有甚麼結果。同時,如果其他寵物不在家,但小狗關在籠子或接受看管,應該有甚麼結果。這種自然間接效應以符號表達為︰

NIE = P(YM=M1=1 | do(X=0)) - P(YM=M0=1 | do(X=0))

第一項是已知沒有其他寵物在家(X=0),但把中介變項設定為有其他寵物(M=M1)時的值,居家訓練成功(Y=1)的機率;後一項則是沒有其他寵物在家的「正常」(M=M0)情況下,居家訓練成功的機率。反事實M1必須每隻小狗分別計算,不同狗隻對關籠子或看管的需求可能不同,不適用do計算法。假設M與Y之間沒有干擾,可以去除NIE中的反事實,產生它的中介方程式,計算出NIE。

線性因果模型不考慮各變項的交互作用。以線性因果模型分析,整體間接效應就是每條路徑的間接效應總和,整體效應則是直接效應與整體間接效應的總和。巴隆—肯尼法依此評估中介,比較包含中介變項與排除中介變項的線性方程,兩者有明顯差別就是中介的證據。問題在於,路徑效應相加與路徑系數相乘在非線性模型中不成立。

作者跳出線性理想世界,以反事實表達直接與間接效應,寫成中介方程式。假設變項之間沒有干擾,且M為處理X與結果Y的中介變項,則自然間接效應為︰

NIE = Σm[P(M=m | X=1)] - P(M=m | X=0)] * P(Y=1 | X=0, M=m)]

乘項前面的式子代表X對M的效應,後面的式子代表X=0時M對Y的效應,這方程式代表兩個非線性效應的乘積。與前面的NIE方程式不一樣,此方程式沒有下標與do運算子,可以由觀察資料估算。

作者在最後一章再次討論人工智慧,指出深度學習對特定工作相當有效,但完全不具透明性。如果機器人不透明,人類就無法與之溝通。深度學習的理論限制是,無法超越因果階梯的第一層,影響它在受多重因果力掌控的環境中運作。在強AI中,因果模型是必須品,應該能理解「我應該採取其他行動」這個陳述,其反事實詮釋是「我做了X=x,結果是Y=y。但假如我採取其他行動,如X=x',則結果會更好,如Y=y'」。

當人們要求機器擁有執行X=x的意圖、察覺這個意圖,但決定執行X=x',就是要求機器擁有自由意志。自由意志幻覺可大幅降低機器人與人類間溝通的不確定性,強AI必須了解與選擇各意圖有關的詞彙,或許最好「相信」自己有自由意志,因此能觀察自己的意圖,採取不同的行動。作者相信,反事實演算法已跨出一大步,讓人類以運算方法產生意識與自主能動性。讓思考機器有自主能動性的程式至少應有三部份︰世界的因果模型、本身程式的因果模型,以及記錄意圖與外在事件間對應方式的記憶體。