2016年6月6日 星期一

Superforecasting

看完了Superforecasting,探討預測各種注意事項與限制。本書反複強調各種看似二元對立的特徵其實只是程度之分,例如未來是否可預測這問題,視乎我們試圖預測甚麼、時間離現在多遠及甚麼環境條件下都有分別。

作者從組織團隊參與預測比賽得勝的經驗中,找到所謂超級預測者(superforecasters,他們比職業情報人員預測更準確)的特點,除了智能、數字分析能力與社會知識達一定水平外,超級預測者最重要的特質是其思考方式,他們思想開明、細心、謹慎,並能自我檢討與不斷專注。

作者以醫學歷史的發展為例,表示任何經驗未經質疑,缺乏紀錄與驗證,沒有隨機控制測試,這種做法並不科學,就如同醫師長年以來因自信而認為放血有助治病。直覺判斷是由心理學稱為系統一的神經系統負責,這種直覺判斷不會處理證據的品質,令人快速下結論,以面對自然界緊急的危險情況。即使我們不知道自己為何下某種判斷,大腦也會有自我解釋的傾向,導致倉卒達成清楚而自信的結論。

要評估預測是否準確需要在當時紀錄並在事後檢測,但許多在公開場合的預測卻不容易這樣評價,原因在於這些預測沒有精確的定義,例如「佔市場重要部份」不代表任何數字;它們通常沒有時間框架,例如「短期內」不知是指幾個月還是幾年;更重要的是它們無法轉換為機率預測,例如「可能」不知是指20%還是60%會發生。

預測不能只以一次結果是否準確來評價,因為75%會發生的預測也是指25%不會發生,即使最後事情沒有發生,也不代表這預測不當,只有預測的長期紀錄才可以評價預測是否有價值。評價預測是否有價值的條件包括其是否校準(calibration),即70%會發生的預測是否在眾多例子當中真的有70%會發生;預測堅決(resolution)也是評價預測的條件,在事情的確發生的情況下,90%會發生的預測比60%為佳,反之,事情沒有發生,10%會發生的預測比40%為佳。這種評價條件可以用Brier scores以數字方式表現,0代表完美預測,0.5代表與隨機估計差不多,2則代表完全不正確。Brier scores本身並不足以判斷預測品質,需要配合指標(benchmarks),即與「跟去年一樣」、「沒有改變」等簡單模型對比,也要與其他預測者的Brier scores對比。

作者一項研究分析專家的預測準確程度,發現許多專家的預測與隨機亂選準確程度差不多,但有些專家表現則比較好。表現較差的專家通常為作者所稱的hedgehogs,他們以某種大意念來扭曲現實,也令他們對自己的預測更自信。表現較好的專家則是作者所稱的foxes,他們較少認為事情「肯定如此」,也認為現實較複雜,可以有許多不同角度。作者也重申hedgehogs與foxes並不是完全對立的極端,我們或多或少都有兩邊的特質,也會在不同場合中偏向其中一邊。

不同人對同一議題可能有各種正確與錯誤的想法,錯誤的想法各有不同方向,累積起來會多少互相抵消,正確的想法則方向一致,聚集起來會更為正確。聚集完全無知的人意見只能得到無知,聚集略懂的人意見結果可以很可觀,而聚集懂得許多不同事物的人意見則最為有效。但在預測本身會影響結果的情況下聚集意見則較為困難,例如Richard Thaler的2/3遊戲要參加者估計的是所有預測的平均的三份之二,理性答案是0,但實際情況並不一定如此,因為不是所有參與者都認為其餘參與者都是完全理性。

作者以國家情報部門的情況指出,預測的問責(accountability)可以有兩方面,它可以是對國會等有關機構解釋它們為何這樣預測,但這種問題沒有意義;有意義的問責是指有系統地紀錄預測的準確程度,而國家情報部門並沒有在這方面努力。

談及作者組織的超級預測者群體,作者指即使依靠運氣每年都會有人預測成績超乎水準,但運氣好的表現會在下一年回歸平均值。然而超級預測者每年都能保持水準,甚至表現在下一年有進步,反映超級預測者的表現不單靠運氣,也有技巧的因素在內。

作者的數據顯示指超級預測者的智能與知識比平均高,但最好的超級預測者在這兩方面並不是最高水平的一群,也不至於是天才之列。智能與知識對預測有少許幫助,但不是決定因素。超級預測者預測時會將預測細分成更易理解的問題,並以類似狀況為外在觀點建立基礎機率,之後以內在觀點找出此事的特點,建立假說,提出預測機率,自我評估,以「蜻蜓眼」的方式整合不同觀點,保持開放觀點,隨時調整自己的預測。

超級預測者有一定數理能力,但預測時卻不常會用複雜的數學模型,重要的是要時刻以機率來思考。系統一大多數情況只會產生是與否的答案,最多在不確定時多一個「或許」。超級預測者則需要精細地理解40%可能與60%可能有明顯差別,在事情發生後不管預測是否正確,也需要理解事情是怎樣達到這種結果,會不會有別的情況導致不同結果,這樣才可以檢討自己的機率預測是否恰當。

面對最新消息時調整預測有兩項挑戰︰反應過小與過度反應,反應過小是指輕視原來重要的消息,以致預測調整不足,容易在自己對先前預測投入過多時出現,例如軍方認為自己做法正確,忽略其他情況的情報;相反,過度反應則是對旁枝末節過於著緊,因而過份調整預測, 容易在對預測投入不足時出現,例如股票市場。超級預測者的竅門之一是每次小幅度調整機率預測(例如5%),但調整次數較頻密,以平衡新消息與已有預測的影響。然而作者也提醒讀者預測沒有既定公式,這種做法並不適用於所有預測,有時確實需要因為新消息大幅調整觀點。

超級預測者認為透過努力與勤奮人是可以進步的,不太相信人先天就會受到限制而不能學到某些新技能,例如數字分析能力。作者指超級預測的過程就在於以下做法︰嘗試、失敗、分析、調整、再嘗試(try, fail, analyze, adjust, try again),不嘗試就永遠不知道事情怎樣運作,沒有清楚認識自己是否與如何失敗就無法從失敗中學習,歸納教訓以作調整,沒有不斷嘗試的毅力就不會不斷力求進步。

總結超級預測者的個人特質,在哲學思想上,他們謹慎、謙虛、不訴諸本質,認為現實並非總是如此,未來總是不確定;在能力與思考風格上,他們思想積極開明、有知性上的興趣,喜歡認識不同事物、能夠自我反省、有數字觸覺;在預測方法上,他們實際、擅於分析不同觀點、能整合不同角度、以機率思考、會因事實改變而更新預測、注意人的認知與情緒偏見;在工作準則上,他們相信人有可能成長、能夠堅毅完成應做的工作。

作者在預測競賽中也安排超級預測者組成團隊,結果發現團隊的表現比單打獨鬥更佳,「超級團隊」(superteams)的特點包括能尊重地提出質疑、思想開明、建立出分享情報與觀點的文化,而且成員背景各有不同,有利團隊將意見聚集後再極端化(extremitizing,例如75%可能的預測極端化至90%,預測正確的話Brier Scores就會更高)。

領導者在預測中的兩難,在於一名良好預測者需要相當謹慎,以機率思考,考慮到不同觀點,但一名決策者需要堅定、有信心地執行決策。作者認為思考者(thinkers)與執行者(doers)之別也是虛假的二元對立,領導者需要同時扮演這兩種角色,他要找出甚麼是正確的行動,然後徹實地執行。領導者也不需要過度限制現場人員執行目標的方式,良好團隊需要執行的個人在知性上靈活應對。領導者不但需要自己平衡思考與執行兩者,也需要建立聆聽相反意見的文化,令其他人願意說出不同的觀點。作者也故意以十九世紀至二戰時的德軍,指出德軍優秀的預測與執行能力,與其背後目標是否邪惡無關,道德與能力並沒有關係。

作者指系統一的錯覺並不能消除,不論經過多少訓練,感覺正確的直覺結論總會出現,如同視覺錯覺一樣,即使在明知錯誤時依然會發生,只能在錯覺出現後質疑它。超級預測者是否真的可以對抗這種天生的認知錯覺?作者與研究認知錯覺已久的Daniel Kahneman討論後,以不同時間框架詢問預測者同一預測,觀察預測者對於預測時間是否敏感,Kahneman稱之為scope sensitivity。問題是敘利亞的阿薩德政權會否倒台,時間框架分別是三個月與六個月 ,結果發現一般預測者對時間並不敏感(三個月︰40%,六個月︰41%),但超級預測者對於時間框架較長的預測確實能給予較高機率(三個月︰15%,六個月︰24%)。儘管結果並非完美,但確實反映出超級預測者能夠理解時間框架的意義。

另一對超級預測者的質疑來自Nassim Taleb的黑天鵝理論,Taleb認為歷史是「跳躍的」,由稀少、難以預測卻影響重大的事件左右,這種黑天鵝事件無法以預測競賽的方式事先預測。作者則認為「完全可以用特定公式預測」與「完全不可能預測」也是虛假的二元對立,事件是否能預測是程度之分。此外,歷史既會由黑天鵝左右,也會由累積的改變影響,後者的例子如十九世紀每年1%生產力增長變成二十世紀2%增長累積帶來巨大改變,兩者沒有高下之分,僅僅是不同而已。預測的重要也在於黑天鵝事件影響需時,或許黑天鵝事件不可預測,但其出現後的影響則有可能預測,例如1789年7月14日巴士底監獄事件發生後許久,我們才知道這件事與後續的事件構成法國大革命。

作者指超級預測者並不一定是超級發問者,能夠提出好問題的人似乎需要hedgehogs的思維,以大意念找出事情各種根本動力。但在發問之後,理性聲音則需要明確的測試檢視不同想法,這需要嚴謹地為各種說法評分。作者指公開評分的競賽反映會令參實者更為思想開明,理解自己可能會出錯,也對預測更為專注。

書中附錄列出希望超級預測者的十誡︰

1. 限定範圍——選擇既非不可能預測,也非人所皆知的問題
2. 細分——將問題分成細部,再作分析
3. 平衡內外觀點——事情總有不獨特之處可作基準,也總有獨特之處可作調整
4. 平衡面對新消息的反應過小與過度反應
5. 尋找各種左右結果的因素
6. 分辨儘量多的懷疑程度——以數字機率思考問題
7. 平衡自信不足與過度自信、審慎與決斷
8. 找出自己錯誤的原因,但要注意後見之明偏誤
9. 與他人共同全力發揮——在團隊中理解他人觀點、準確發問並建設性的質疑
10. 在不斷深入與反複思考的嘗試中平衡不同錯誤
11. 不應視十誡為十誡,要隨機應變

作者再次說明,規則總有需要打破的時候。