各種書摘: 精準預測

看完了《精準預測》，作者是FiveThirtyEight的創辦人Nate Silver，本書談預測的條件與限制。原本的書名是The Signal and the Noise，訊號與雜訊，依作者的話來說，「訊號就是真理。雜訊會使我們分心，遠離真理」(p. 31)。

第一章談美國按歇證券評級嚴重失誤，作者談及評等機構將風險與不確定性混為一談︰

.....你可以把風險標上價格。比如說，除非你的對手抽到中間牌湊成順子，不然這一把你就會贏；這種狀況發生的機率剛剛好是十一分之一。這就是風險。

......另一方面來說，「不確定性」是難以衡量的風險。......你粗略地評估可能會差個一百倍、一千倍；沒有什麼好方法可以知道。這就是不確定性。風險可以讓自由市場經濟轉動得更快，不確定性則使之慢慢停頓。

評等機構化腐朽為神奇的方式，就是粉飾不確定性，使之看起來或感覺是風險。新的證券會受到極大量系統不確定性的影響，於是他們就拿這些證券，宣稱他們估量得出這些證券的風險有多高。不只如此，在所有可能的情況中，他們提出的卻是令人震驚的那種，說這些投資幾乎毫無風險(pp. 44-45)。

作者指這次金融危機由三幕組成︰第一幕是房市泡沫，房貸大增，第二幕是金融機構藉房貸證券過度槓桿，第三幕則是政府預測失誤，低估失業率上升幅度。屋主高估樓價、銀行相信評等機構、經濟學家相信金融體系不會出大問題、決策者以為金融危機後經濟會快速復甦，作者認為都是預測者未能考量其樣本外的事件導致︰

預測家常常抗拒不去想這些樣本外的問題。我們擴充樣本，把離我們的時空更遙遠的事件納進來的時候，常常就表示我們會碰上一些案例，在其中我們所習慣的一些關係不會像我們習慣的那樣固定不動。這個模型似乎會變得沒那麼強大。......給人的印象沒那麼深。我們被迫要承認，我們對世界的理解沒有像我們原先以為的有那麼深。我們個人與專業的誘因幾乎總是會阻止我們這樣做。

我們忘了——或者說我們刻意忽視——我們的系統是世界的簡化(p. 62)。

第二章提到電視節目名嘴的預測正確率與丟銅板差不多，政治專家的判斷也不那麼準確。作者也提及刺蝟與狐狸兩類人，刺蝟是以涵蓋廣泛的單純模型來解釋現象，喜歡從資訊中尋找秩序；狐狸則靠各種小想法與手段處理問題，認為宇宙有些事太複雜本來就無法預測。從蘇聯專家的預測分析來看，狐狸的表示比刺蝟好︰

雖然靠著經驗，狐狸可以預測得更好，但刺蝟則相反︰他們拿到越多額外的憑據，他們的表現就越差。.....刺蝟可以掌控的事實越多，他們就越有機會更動、操弄這些事實，以符合他們的偏見(p. 76)。

作者創立的網站最初也是做選舉預測，有不錯的紀錄，雖然也不是沒出錯過。作者指其預測的原則有三︰一是用機率思考，例如說候選人有90%機會勝出，是指類似情況下長遠而言有90%情況是當選，換句話說，也有10%機會落選，預測中總是有現實世界的不確定性。二是在有更新、更好資訊時修正預測，例如離選舉日較近的民調通常比較可靠，取得這些資訊後就應更新預測，使之更符合現實。三是尋求共識，也就是參考其他人的預測，並不斷問自己問題，整合不同類型的資訊。萬靈丹的預測模式往往經不起時間考驗，量化資料以外也應顧及質化資料。作者指︰

只要有人的判斷，就有偏見的可能。要更客觀的方法，就是去認清我們的假設在預測中發揮的影響，並質疑自己這些假設。政治中有我們的意識形態傾向，我們習慣於從雜亂的資料中編造出有條有理的論述，我們身處這兩者之間，要做到這點尤其困難。

......簡而言之，你必須學會如何像狐狸一樣思考。狐狸般的預測者會看清，在預測世界的進展時，人類的判斷有不足之處。知道這些不足之處可以幫他們多做一些正確的預測(p. 93)。

題外話，FiveThirtyEight的推特頭像就是一頭狐狸。

第三章是談棒球預測，《魔球》出版後棒球已日趨注重數據分析，作者指好的棒球預測系統需做到三點︰說明球員統計數字的脈絡、分辨球技與運氣及了解球員的老化曲線。只看重統計分析並不足夠，球探也能看到統計數字不易看出的資訊，例如守備能力與衡量球員的心理質素。作者指棒球預測因沒有一勞永逸，因為競爭激烈總是要不斷創新︰

在大部分競爭激烈的行業中，跟運動一樣，最好的預測者都要不斷創新。要採用「利用市場效率不足」這樣的目標很容易。但這樣並不能真的給你一個計畫，讓你知道怎麼找到不足之處，然後決定這些代表的是全新的開始還是錯誤的線索。要想到別人沒想過的東西很難。要想到好的想法更難——而你想到的時候，很快就會有人複製。

......好的創新者通常想得非常大，而且也想得非常小。在問題最微小的細節裡、別人很少會花功夫去看的地方，常常能找到新的想法。有時你做最抽象、最哲學性的思考，思考世界為什麼是這樣，主流典範是否有替代之道，這時就會找到新想法。

.....關鍵在於發展工具和習慣，好讓你會更常到正確的地方去找想法和資訊——一旦找到這些之後，就要磨練這些技巧，用輸贏去掌控它們(pp. 131-132)。

第四章討論氣象預報，隨電腦運算速度以倍數增加，氣象預報近二十年已大幅改善，然而氣象預報依然不容易，因為氣象系統是動態的，即某時間點的行為會影響其未來行為，也是非線性的，即系統遵循等比而非等差的關係。換句話說，初始條件稍為不同，預測得出的結果就很不一樣，在任何測量工具都不可能完全精確下，預報就不可能具決定性，而只能是機率性。例如說明天降雨機率為40%，就是指氣象預報以不同初始參數的各次模擬中，有40%出現風雨。

氣象預報也不只是靠電腦，氣象預報員會靠他們的視覺修正電腦預測，可以讓降雨預測改善25%，溫度預測改善10%。颶風預測誤差在二十五年前平均達560公里，但在人與機器不斷改進下，現在誤差已減少為平均160公里，足夠在72小時前疏散受影響區域。

提到檢驗預報的標準︰

預報最重要的檢驗標準之一——我會主張這是最重要的唯一一條——稱為校準(calibration)。在所有你說有百分之四十降雨機率的狀況中，有多少次真的下了雨？如果長期來說，確實有百分之四十的次數下了雨，這就表示你的預報校準得不錯。如果結果只有百分之二十或是百分之六十的次數下了雨，那就沒有校準好。

校準在許多領域都很難達到。你必須要用機率來思考，這種事我們大多數人(包括大多數的「專家」預報員)都不擅長。校準常常會懲罰過度自信——大多數的預報員這個特質都非常明顯——校準在需要許許多多的資料，用來充分評估——預報員已經發布過數百種預測的各種狀況(p. 161)。

作者以美國的氣象預報分析，國家氣象局的校準相當好，氣象頻道的校準除了降雨機率較低時會稍微誇大外——因為預報沒下雨但實際下雨會令觀眾印象不佳——其他時間也不錯，但地方電視台的校準則相當差。

二零零五年卡特里娜的颶風預報相當準確，幾乎五天前就預報新奧爾良可能受襲。可惜政府因各種原因延遲發出強制疏散令，發出後指示不清也不是所有居民都聽到，造成新奧爾良千多人死亡，作者指︰

從卡崔娜學到的教訓之一，就是準確性是預報員最好的原則。把政治、個人榮耀或政治利益放在預報的事實之前，是預報的原罪。有時候是因為好意才這樣做，但這樣總是會讓預報變得更糟。颶風中心盡可能努力避免讓這些東西危及他們的預報。相對於本書中所有的預報失誤，他們光是在過去的二十五年內，讓預報準確性提升了百分之三百五十，這也許不是巧合(pp. 168-169)。

第五章談地震預測，在地震學中，預測與預報有不同用法︰

預測和預報在不同的領域有不同的用法；在某些狀況中這兩個詞可以互換，但在某些學科中這兩者有所區別。沒有什麼領域比地震學對這種區別更敏感。如果你跟一位地震學家說的話︰

1. 「預測」是具體明確的陳述，講的是地震會在何時何地發生︰七月二十八日會有大地震襲擊日本京都。

2. 同時，「預報則是機率的陳述，通常時程較長︰南加州接下來三十年有百分之六十的機率會有大地震。

地質調查局的官方立場是地震無法預測。然而，地震是可以預報的(pp. 178-179)。

這種預報用的工具是古騰堡—芮克特法則(Gutenberg-Richter law)，即地震發生頻率與強度的對數成反比，也就是冪次律分佈(power-law distribution)，例如規模六地震發生頻率是規模七地震的十倍。作者指︰

這些預報沒辦法轉化成可以行動的智慧...... 地質年代橫跨數個世紀或上千年；人的一生只能用年來數算(p. 184)。

至於地震預測，即事前預測地震何時在何處發生，難處在於地震學家對地殼了解不多︰

混沌理論是可受馴服的惡魔——氣象預報員就這樣做了，至少做到一部分。但是氣象預報員在理論上對地球大氣的了解，比地震學家對地殼的了解要多很多。他們多少知道氣象怎樣運作，一直了解到分子的層級。地震學家沒有這種優勢(p. 193)。

資料雜訊太多、理論發展不足的系統——就像地震預測還有部分的經濟學和政治學——會發生的狀況，是種兩個步驟的過程。首先，大家開始把雜訊當成訊號。其次，這個雜訊會用假警報污染期刊、部落格和新聞報導，漸漸破壞良好的科學，讓我們沒有辦法了解系統真正的運作方式(p. 194)。

在統計學上，將雜訊當成訊號的做法稱為過度配適(overfitting)︰

過度配適這個名稱，來自於統計模型與過去的觀察有多「配適」。配適程度可能太不嚴謹——這叫配適不足(under-fitting)——在這種狀況中，你會沒辦法捕捉到那麼多的訊號。也或者可能太過嚴厲——過度配適的模型——這代表你配適的是資料中的雜訊，而不是發現資料潛在的結果。在實務上後面這種錯誤普遍得多(p. 195)。

如果我們不知道、或是不在乎關係的真實情況，就會有很多理由讓我們傾向於將模型過度配適。其中之一在於，依據預報人員使用的大多數統計檢定，過度配適的模型得分比較高。 ......但是過度配適的模型會得到這些額外的分數，靠的是作弊——配適的是雜訊，而不是訊號。在解釋現實世界上，其實表現得更糟。

......過度配適代表的是雙重打擊；這樣會讓我們的模型在書面上看起來比較好，但在現實世界的表現比較糟。因為後面這項特質，所以過度配適的模型如果拿來做真實的預測，最終還是會得到應有的懲罰。而由於前面那項，所以模型表面上看起來比較令人印象深刻...... 這樣會讓這個模型比較容易登上學術期刊，或是賣給客戶，把比較誠實的模型排擠出市場之外。但如果這個模型配適的是雜訊，就有可能會傷害到科學(p. 198)。

在二零一一年三一一地震前，日本東北地震頻率如果用過度配適的模型，就很容易會忽視超過九級大地震發生的機會，大約一萬三千年才有一次，因為1964年起當地就沒有八級以上的地震。但是以古騰堡—芮克特法則的直線模式預報，則是三百年會有一次，決策者注意這風險，也許就不會只將福島設計成最高可抵受八點六級規模地震。

第六章探討經濟預測為何往往出現非常大的誤差，例如美國一九九零、二零零一與二零零七年衰退，經濟學家甚至在衰退已開始時還是未能預測。作者指︰

比起其他犯這些錯誤的專家來說，經濟學家擁有的藉口也許比較少。一方面，他們的預測不只太過自信，而且在現實世界來說也相當糟糕，誤差常常距離實際的國內生產毛額數字非常遠，對經濟都太有影響了。另一方面，預測像國內生產毛額這樣的變項多年來一直有組織化的努力...... 經濟預測人員得到的回饋比大多數其他行業的人都多，但是他們沒有選擇要修正他們傾向過度自信的偏見。

......經濟學家相當了解理性——這表示他們也很懂得我們的動機怎麼運作。如果他們做出有偏見的預測，或許這就是個徵兆，顯示他們沒有什麼動機去做出好的預測(p. 217)。

經濟預測的困難在於，統計數字多達數萬甚至數百萬種，難以決定相關與因果關係的分別也難以分辨出某項變項是景氣落後指標還是前瞻指標。經濟指標也會影響經濟政策，政策也會影響經濟指標，難以分離出自變項與依變項作分析。

經濟也總是不斷改變，以往發現的變項關係現在可能不再出現，例如奧肯法則(Okun's law)指就業增加率大約是國內生產毛額成長率一半，但二零零九年的經濟表現不符奧肯法則。少見但歷時已久的數字也會遭受忽略，例如二零零七年金融危機前聯邦儲備體系沒想過衰退可以那麼嚴重，因為一九八零年中期後就沒出現這麼嚴重的衰退。

經濟資料本身也有相當大的不確定性，需要持續修訂，例如國內生產毛額初步估計誤差為正負4.3%，本來增加4.2%也可能修訂為減少0.1%，這樣不確定的起點令預測更為困難。

經濟與氣象預報一樣面對動態系統與初始條件不確定的問題，更棘手的是，經濟取決於人類行為的回饋圈，不像氣象學有清晰的理論支撐。作者認為，即使是巨量資料時代，缺乏理論仍然是問題，沒有理論就無法分辨訊號與雜訊︰

有那麼多資訊的時候，誰還需要理論呢？但是用這種態度面對預測，絕對是錯的，尤其是像經濟學這種領域，資料中的雜訊非常多。統計推論如果有理論的支持，或者至少深入想過根本的原因的話，會有力很多(p. 232)。

作者提議兩種減少經濟預測偏差的方法︰

如果我們要減少這些偏差——我們永遠不可能完全免除——有兩個基本的替代作法。第一種可以視為供應面的作法——為正確的經濟預測創造市場。另一種則是需求面的作法︰對不正確及過度自信的預測減少需求(p. 236)。

說得更廣一些，這樣表示，要認清某些人在預測中表現的信心程度不能完全顯示其正確性——相反的，這兩個特質之間常常是負相關。我們阻止預測人員完整明確地說明我們周遭世界固有的風險時，危險就會潛藏在經濟和其他地方裡(p. 239)。

第七章談流行病學預測，提到1976年H1N1在美國的恐慌，導致總統福特錯誤地倉卒推出疫苗，結果疫苗品質不良會引起基連巴瑞症候群，而H1N1也沒有爆發。二零零九年H1N1令全球擔憂大爆發，最後還是沒有特別嚴重。

流行病預測困難在於要用起始少數資料點外推，因為流行病是以等比級數擴散，最初估計的誤差範圍可以很廣︰

預測疾病傳播最有用的數字之一，是一個叫做基本傳染數的變項。這個數字通常用R0表示，測量的是未受感染的人口預估會因為單一感染的個人而得到疾病的數量(p. 252)。

問題是，要到某種疾病席捲某個社區，有足夠的時間可以仔細查看統計數字，才能形成可靠的R0估計值。所以流行病學家被迫要靠少數早期的資料點來做某種疾病的外推。另一種疾病關鍵的統計測量標準︰致死率，在初期的時候也同樣很難準確衡量。這是左右為難的窘境︰沒有這項資料，就沒辦法很準確的預測這種疾病，但是通常要到疾病開始發展了，才拿得到這些數據可靠的估計值(p. 253)。

疾病預測也會受自我實現與自我取消影響，媒體報導會令大家較能看出自己的症狀，醫生也較可能做這種診斷，通報個案增加，預測就自我實現；預測令大眾更加認識流感，採取措施預防，則會令流感數字減少，預測因而自我取消。

作者也認為傳染病的SIR模型需要很多假設，S(susceptitble)代表易受某種疾病影響，I(infected)代表已受感染，R(recovered)代表已經康復，流感是單向是從S到I到R，疫苗則是走捷徑直接從S到R。作者指︰

問題是，這個模型需要很多的假設才能運作得當，其中有些在實務上並不是非常實際。尤其是這個模型假設特定群體中的每個人行為方式都一樣——都一樣容易感染某種疾病，一樣可能接種疫苗，彼此之間隨意相互來往。種族、性別、年齡、性取向或宗教中都沒有分界線；大家的行為方式多少都雷同(p. 259)。

我的意思真的不是在說你永遠都應該選複雜的模型而不要選單純的模型；就如我們在本書中其他章節裡看到的，複雜的模型也會讓人誤入歧途。由於複雜的模型通常可以給人更精確(卻未必更正確)的答案，所以能觸動預測人員的過度自信，讓他們誤以為自己很擅長預測，其實並沒有。

然而，簡化雖然可以是模型的優點，但模型至少應該要是精密的單純(sophisticatedly simple)。像SIR這樣的模型，雖然在了解疾病方面很有用，但要幫人預測疾病進程的話，或許太遲鈍了(p. 263)。

另一種個體為本模型(agent-based modeling)越來越多用於疾病的預測上，困難在於除了需處理大量人口資料，還要模擬人們面對疾病時認為他們有多少風險，相應地又會怎樣行動，相關資料頗為缺乏。運用這種模型的團體之一表示，他們暫時是「為了解而做模型」，也就是個體為本模型可以用於做實驗，找出與傳染病有關的事，但目前還不可能幫助預測疾病爆發。作者認為這是負責任的做法︰

如果你沒辦法做好的預測又假裝你做得到，常常會造成傷害。我猜想流行病學家，還有醫學界的其他人都了解這一點，因為他們都堅守希波克拉底的誓言(Hippocratic oath)︰首先，必須不造成傷害。

討論統計模型的使用與濫用，以及預測應有的角色，大多數深思熟慮的作品都來自於醫療專業的人士。這樣講不代表經濟學家或地震學家做預測的時候就沒有什麼風險。但是由於醫學跟生死緊密連結，所以醫生常會比較恰如其份的謹慎。在這個領域裡，愚蠢的模型會要人命。這會讓人嚴肅以對。

然而，對奇普‧馬卡爾「為了解而做模型」這樣的想法還有些話要說。這本書的哲學是預測本身是手段也是目的。例如，預測在檢驗假設上，扮演了非常核心的角色，所以，在所有的科學中都一樣重要(pp. 268-269)。

第八章談運動賭博，從而帶出貝氏機率的思考方式。成功的預測人員都不相信可以完全正確預測未來，而是以機率思考其預測︰

成功的賭徒——還有任何一種成功的預測人員——都不是用穩賺不賠的賭注、完全可靠的理論和極為精確的測量這樣的方式來考量未來。這些是笨蛋的幻覺，是他們過度自信的警報。成功的賭徒認為未來是一點一點的機率，像股票行情一樣，每進來一點新的資訊就上下跳動。他們對這些機率的估計跟提供的可能性之間到達足夠的差異，他們就可能下注(pp. 277-278)。

這種收集證據越多就越接近真理的思考，就是湯馬斯‧貝耶斯(Thomas Bayes)提出的推論方式。其數學形式為︰xy/[xy+z(1-x)]，其中x是先驗機率，也就是某理論成立的初始估計機率；y是在新事件發生後，假設理論為真的條件下，這新事件發生的機率；z則是假設理論為偽的條件下，這新事件發生的機率。

舉例來說，女性四十多歲患乳癌的機會約為1.4%，假如乳房攝影檢查呈陽性，這位四十多歲女性患乳癌的機率是多少？研究顯示，女性沒有患乳癌而乳房攝影檢查呈陽性，即假陽性的機率約為10%，另一方面，女性患乳癌而乳房攝影檢查呈陽性的機會則是75%，將三項變項代入公式︰

x = 1.4%； y = 75%； z = 10%
xy/[xy+z(1-x)]
= 1.4% * 75% / [1.4% * 75% + 10% * (1 – 1.4%)]
= 9.6%

也就是說這位女性患乳癌的機率不到10%，所以許多醫生建議女性五十歲後再開始做乳房攝影，那時患乳癌的先驗機率(x)高得多。作者指貝氏定理給我們的啟發是︰

貝氏定理不是什麼神奇公式——在我們使用過的單純形式中，裡面包含的不過是加減乘除。我們必須要提供它資訊，尤其是我們對先驗機率的估計，它才能產生有用的結果。然而，貝氏定理確實要求我要用機率來看待這個世界，就算是談到我們不願意認為是機率問題的事情也一樣。這定理沒有要求我們採取立場，去認為這個世界本質上、形而上是不確定的...... 說得更確切些，貝氏定理處理的是認識論上(epistemological)的不確定，我們知識的限制(pp. 289-290)。

相對於貝氏定理的是頻率論，代表人物是羅納特‧艾爾默‧費雪(Ronald Aylmer Fisher)。頻率論的概念是從樣本推論母體會帶來抽樣誤差，也就是民調中常見的那個誤差多少百分比。作者的意見是以頻率論作預測有若干問題︰不過問預測最常出錯的人為誤差；將不確定性視為實驗中而不是了解現實世界能力中的部份；認為資多越多誤差會接近零，沒有顧及可能出現假正面研究結果；假設潛在不確定性呈鐘型曲線或常態分現；需要定義抽樣的母體，不適用於罕見事件。最重要的是，頻率論阻礙研究者考量他的假設基礎脈絡或可信程度，產生「達統計顯著意義」但明顯荒謬的發現。

作者指，貝氏定理表達出我們作預測時總有自己的判斷，但只要我們一開始不是那麼絕對，隨著時間推移，更多證據出現，我們對真理會趨向達成共識︰

就經驗而言，我們都有信念和偏見，是我們的經驗、我們的價值、我們的知識，或許還有我們的政治或專業理念之間的結合而建立起來的。貝氏學派的觀點中很棒的特色之一是，明白承認我們都有先驗的信念，會影響我們如何詮釋新的證據，從而對我們如何對周遭世界的改變做反應，做了很棒的敘述(p. 299)。

這不代表所有先驗的信念都一樣正確或一樣有根據。但是我認為，我們的信念永遠得不到完美的客觀、理性或準確。但我們可以努力不要那麼主觀、不要那麼不理性、不要那麼錯。依據我們的信念做出預測是檢驗我們自己最好(或許甚至是唯一)的方式。如果客觀這件事攸關我們超越個人環境、追求更偉大的真理的話，那麼檢驗我們個人的觀感有沒有跟更偉大的真理一致，預測就是最好的方法，我們之中最客觀的人就是做出最準確預測的人(p. 300)。

第九章談西洋棋電腦，當中提到卡斯帕洛夫與電腦深藍的對戰。西洋棋顯示出資訊處理能力的限制，其規則與資訊明確，沒有運氣成分，但人，甚至電腦程式，卻不可能處理所有的棋盤資訊，因此需要靠簡化來預測比實結果，這種方式在電腦設計中稱為「直觀」(heuristics)。棋賽在開局時電腦似乎有龐大的資料庫作後援，但開局走法據經驗大多數已歸納成幾種走法，人類也能應付。

到了中局，棋賽變數已不是人類可以處理，大師的做法是找好的下法，預測怎樣對自己有利，而不是尋找每一種可能。電腦因為運算速度較快，可以大略評估各種可能，再深入評估最重要的可能。但電腦偏好將目標量化，例如大師因戰略目標引誘電腦作有利的換子時，電腦就有可能會上釣。在終局，棋子較少，獲勝組合有限，電腦就較有利，能從資料庫中尋找正確的走法，怎樣一定會贏，怎樣會平手，不會有失誤，而人類則較容易走錯。

一九九七年卡斯帕洛夫與深藍對戰的第一局中，雖然卡斯帕洛夫獲勝，但深藍放棄前走了令人困惑的一著，似乎不是電腦程式會走的一步，令卡斯帕洛夫困惑。到第二局，卡斯帕洛夫受深藍壓制，以為深藍能提早算出二十步以上，就提早放棄比賽。之後三場卡斯帕洛夫都打得較穩妥，平局收場。最後一場，卡斯帕洛夫似乎深受壓力，早早犯錯，輸了這一局，也輸了整場對戰。

作者在二零一零年訪問深藍的設計者莫瑞‧坎貝爾，坎貝爾指深藍是專門設計來打敗卡斯帕洛夫，目標不在下完美的棋局，而是盡力令對手失去平衡。至於第一局令卡斯帕洛夫困惑的走法，坎貝爾說，其實是程式錯誤，程式算不出走法，就隨機選擇一種走法。這錯誤反而令卡斯帕洛夫高估深藍運算能力，在之後的局數都不敢進取行事。

有個西洋棋網站舉辦了一場「自由式」錦標賽，參實者可以用任何程式與網絡輔助他們，最後贏家既不是西洋棋大師，也不是最受推崇的軟體，而是業餘棋手以三種電腦程式加上自己的判斷獲勝。作者藉此指出科技並非萬能，設計電腦思考方式的始終都是人︰

如果你感覺到預測人員比較是依照字面上的意義——他真的認為電腦是種有意識的生物，或是模型有自己的心智——這也許就是個徵兆，告訴你他根本沒怎麼在思考。不管這個預測人員有什麼偏見或盲點，都必然複製到他的電腦程式去了。

我們都以為科技就一直是這樣——用來改善人類處境的工具。我們不應該把科技放在神壇上膜拜，也不應該恐懼科技。到目前為止還沒有，或許也永遠不會有人設計出像人類一樣思考的電腦。但是電腦本身是人類進步與人類聰明才智的展現︰如果這項智巧之器是人類設計的，那就不能完全算是「人造」智慧(p. 336)。

第十章談網上撲克熱潮，內容是德州撲克，作者自己也試過以此為生︰

我不知道我是不是一開始就是個很棒的玩家。但是競爭的門檻很低，而我統計學的背景給了我優勢。撲克有時會讓人覺得是種高度心理戰的比賽，一種意志的戰爭，對手都要看穿彼此的靈魂深處，完美地讀出對方的想法，找尋著洩漏別人牌面內容的可靠「破綻」。在撲克中是有一些這種成分，尤其是下注上限比較高的時候，但沒有你所想的那麼多。(撲克的心理因素大多以自我約束的形態出現。) 撲克其實是種非常數學的比賽，倚靠的是在不確定性之中做出機率性的判斷，這種技巧在任何種類的預測中都一樣重要(p. 341)。

戲劇性在最後一張牌才構成好牌組的機率其實相當少，德州撲克一般都是按照機率計算與觀察對手打法決定是否跟注及加注，說起來很容易，但實際應用需要許多工夫。作者認為他參與撲克的年代，即二千年代中期，努力與準確度關係類似80/20法則，也就是用20%努力可能打贏80%玩家，但要打敗最頂尖玩家就要再多80%努力。作者分析發現，贏家的利潤大多是從最差的10%玩家得來，假如最差的10%玩家不再參與，就只有最強的10%玩家能贏錢，其餘參與者都成為輸家。美國國會自2006年起開始打擊網上撲克，雜魚數量驟減，獲利更加困難，到2011年，司法部提出起訴令眾多線上撲克網站關門，網上撲克泡沫寫上句點。

長期參與撲克的人通常在一開始都會贏得多少錢，否則他們就不會繼續下去。但是短期成功可以是因為技術，也可以是因為運氣，問題是假如玩家總是覺得自己應該贏錢，以最初的好結果來評估自己，那就不會檢討自己的表現。作者認為在評估表現時應超過結果為導向的思考，更加專注於過程︰

在美國，我們生活在一個非常以結果為導向的社會裡。如果有人有錢有名或長得美，我們常會認為這些東西是他們應得的。事實上，這些因素通常是會自我強化的︰賺錢帶來更多賺錢的機會；出了名，人就有更多的方法操弄他們的名望；審美的標準會隨著好萊塢年輕女明星的長相而改變。

......有時候我們會朝另一個方向，考量了太多運氣的事，我們會為真的很糟糕的預測找藉口，宣稱那些是運氣不好。但就像預設好的一樣，就如同我們在預測的時候察覺到的訊號比實際上的多，預測成功了，我們後來檢討的時候，也常常會不顧根據，比較歸功於技巧。

解決之道一部分在於我們評估預測的時候要更加嚴格。某次預測的技巧有多好，這種問題通常可以用實徵的方法來處理；某些領域比其他領域更快可以得到長期的結果。但是解決之道的另一個部分——資料雜訊非常多的時候，有時這是唯一的解決之道——就是更專注於過程，而不是結果。如果預測的樣本雜訊太多，無法判斷預測人員有多好，我們就可以問，他所運用的態度與天分，是不是就是我們所知長期來看與預測成功有相關的那些(pp. 373-374)。

我們打撲克的時候可以控制我們的決策過程，但掌控不了牌要怎麼出現。如果你正確地察覺到了對手的虛張聲勢，但他拿到了一張幸運的牌，最後還是贏了這一局，那你應該要開心而不是生氣，因為你已經盡量把這一局打好了。諷刺的是，你越不注意你的結果，就能得到更好的結果(p. 375)。

第十一章討論股市預測與效率市場假說，作者指採取所有人預測的平均值誤差通常比單獨預測少，大概少15-20%，但有三件事要注意，一，即使較好的平均預測也不一定代表好，二，這種平均需要大家都作獨立預測，三，最好的預測也不一定比平均預測差。

聰明人是否真可以打敗市場，尤金‧法瑪(Eugene Fama)的效率市場假說認為，長遠而言，個別投資人的表現不會比市場好，這項假說有三種形式，弱、半強與強︰

第一種，是效率市場假說的弱式效率(weak form)。這個主張是說，股市的價格無法只靠分析過去的統計模式來預測。換句話說，圖表分析家的技術注定是要失敗的。

效率市場假說的半強式效率(semistrong form)則更進一步。這個主張認為基本面分析——意即實際去看公司財務報表、商業模式、宏觀經濟條件等等可以公開取得的資訊——也注定會失敗，而且也不會產出可以穩定擊敗市場的收益。

最後則是效率市場假說的強式效率(strong form)，這點主張就算是私有的資訊——內幕的秘密——也會很快就融入市場價格之中，不會產生高於平均的收益(p. 390)。

包括法瑪本人都不是真的相信強式效率，但弱式與半強式效率存在與否則引起爭議。效率市場假說並不是不允許個別投資人獲利超過市場的利潤，但投資人要冒成比例的額外風險。交易成本也為效率市場假說提供空間，有些投資策略，例如股票下跌時就抽走所有資金，到有一天上漲就把錢重新放進去，本來是勝過單純持有股票的，但在交易成本0.25%的情況下，因為交易次數太多，就反過來要虧本。

對效率市場假說較大的挑戰是股市泡沫，即股價持續上升，幅度超越歷史平均許多，也似乎能在事前預測。效率市場假說認為股價的錯誤會自行修正，但像是在科網股泡沫時，本益比超乎尋常地高，部份公司也沒有可行的行業策略，股價卻節節上升，似乎沒有自行修正。

這種看到股價大幅上漲仍然跟著買的做法有幾項原因，首先是交易人許多都不是用自己的錢投資，如果在泡沫還持續一段時間，而交易人看跌，那他就會備受客戶與上司指責；假如交易人跟隨大勢看升，而泡沫爆破，那交易人最多都是與其他人犯同樣的錯，還有機會保住自己的工作。理性的交易人為自己著想，自然有誘因跟隨群眾。

資訊時代令我們比起獨立自主分析，找出其他想法與我們相近的人會更有安全感，引起從眾行為。更麻煩的是，交易人總是有過度自信傾向，認為自己對股市有獨特見解，因而交易次數過多、收益減少，令奇怪地股價波動。與泡沫抗衡在實務上也相當困難，賣空並不容易，損失也沒有上限，而且借股人隨時可以收回股票，泡沫還未爆破賣空人就可能撐不下去。

效率市場假說指價格是對的，這帶出一項疑問︰如果所有交易人都依真實資訊下注，市場又有效率到個人不可能打敗，那交易就賺不到錢，也就根本沒有市場。數據分析也顯示，有個別投資人的確比市場平均表現較好，而大多數一般的投資人，則在升市時投資、崩盤時放售，結果是高買低賣。

作者認為泡沫不可能完全避免，但有部份可以察覺︰

察覺泡沫似乎不是那麼希望渺茫。我覺得我們不可能打擊率百分之百，甚至百分之五十，但是我認為我們可以有所進展。近年來的一些泡沫，尤其是房市泡沫，都有許許多多的人提早很多就察覺到了。而像席勒的本益比之類的檢驗方法也過去也一直是很可靠的泡沫指標。

我們可以試著用立法的方式來解決這個問題，但這樣可能會讓事情變特棘手。如果在某些狀況中需要更多的法令規定，那麼對賣空的約束——這樣讓泡沫更難爆開——幾乎必然會造成反效果。

然而如果我們認定市場不可能犯錯、價格永遠是對的，如果我們從這個推測出發，那很明顯的，我們永遠都沒辦法察覺到有泡沫出現。市場會掩蓋我們某些瑕疵，平衡掉我們某些缺陷。要勝過市場的預測並沒有那麼簡單。但有時候價格還是會錯(p. 421)。

之前摘要過《理性市場的神話》這本書，對效率市場假說的歷史發展有更深入描寫。

第十二章談全球暖化，科學家對全球暖化幅度的預測可能有誤差，但作者指全球暖化的起因則是相當清楚︰溫室效應。由於人類活動令二氧化碳大氣濃度增加是不爭事實，這會加強溫室效應，大氣中的水蒸氣也會隨著二氧化碳濃度上升而增加，從而加強溫室效應，讓暖化更嚴重。作者認為，健康的懷疑態度不是在事實與理論中找合心意的證據︰

氣溫的資料雜訊很多。暖化的趨勢可能會證實溫室效應假說，或者也可能是由週期因素引起的。暖化的終止可能會損害這個理論，或者也可能表示這個狀況是資料中的雜訊模糊了訊號。

但就算你像貝氏學派的推理會要你做的那樣，相信幾乎所有的科學假設都應該用機率來思考，對於明顯有力的因果關係所支持的假說，我們也應該有更大的信心。新發現的證據似乎對這個理論有負面影響，那我們是應該降低我們對假說可能性的估計，但要在其他我們對這星球與氣候所了解(或以為我們了解)的其他東西所構成的情境下來權衡。

健康的懷疑態度必須從這個基礎出發。這種態度必須依照理論的整體效力，來權衡新證據的效力，而不是在事實和理論裡亂翻一通，找尋立論和意識形態上的方便之處，就像辯論中變得偏頗、政治化時那種挑剔挖苦的作法一樣(p. 431)。

對全球暖化預測較科學的懷疑方向有三︰預測人員的共識率跟準確度無關、全球暖化的複雜性令預測徒勞無功、預測不足以說明全球暖化問題中固有的不確定性。

作者指，共識不是指投票決定多數，反而是投票的替代方案，共識包含的是經過商議過程後大體上的一致。在科學中，出版文章、研討會、檢驗假設、爭論研究結果就是這種商議過程。氣候科學家大多數都同意，氣候變遷正在發生與這是人類活動結果。他們之間有疑問的是，某個電腦模型的模擬表現是否準確，某些模型是否有編碼錯誤等技術問題。

氣候預測比氣象預報更加複雜，預測規模長達八十到一百年，如何平衡模型複雜程度，盡量捕捉訊號而避免雜訊，作者認為沒有標準答案，只有靠經驗修正︰

任何預測模型的目標都在於捕捉到的訊號要盡量的多，雜訊要盡量的少。要達到正確的平衡不會總是那麼簡單，而我們這樣做的能力會受到理論的功效和資料的質量所左右。

......在氣候預測中，狀況更不明確︰有關溫室效應的理論很有力，可以支持更複雜的模型。然而氣溫資料的雜訊很多，對模型不利。哪種考量會獲勝呢？我們可以評估氣候科學中不同預測方法的成敗，用經驗來證明這個問題，最重要的，一如往常，是這些預測在現實世界的表現如何(p. 443)。

氣候預測中的不確定性有三種︰初始條件的不確定性，即短期的因素，如氣溫隨日子變化、聖嬰—南方震盪週期令聖嬰年北半球更溫暖、太陽週期與火山釋放硫降低氣溫。預設狀況的不確定性，指在一段長時間內，溫室氣體濃度可能因人類行為而改變。結構的不確定性，則是氣候科學家對氣候系統的動態可能了解不足，錯誤會隨時間而自我加強。三種不確定性加起來最少的，大約在提早二十至二十五年的氣候預測中。

基於氣候預測相當複雜，除預測模型外，也需要有合理的基準案例作備用計劃。氣候預測的基準案例是只考慮二氧化碳濃度與氣溫的模型，在預測1990-2010的氣溫變化上相當準確。另外也可以計算二氧化碳濃度與氣溫改變的關係估計值，估計二氧化碳加倍造成的暖化在攝氏二到三度之間。

氣候預測也是政治爭議所在，作者認為，氣候科學家不應捲入這些政治爭論中︰

在科學裡，我們很少看到所有的資料點都朝向一個精確的結論。真正的資料雜訊很多——就算理論很完美，但訊號的效力會改變。而在貝氏定理之下，沒有理論是完美的。更確切地說，這是種進展中的工作，永遠都需要進一步地改良和檢驗。科學懷疑論的重點就在於此。

在政治中，我們不能給對手一點寬容。如果有人說了某些大家不願面對——但是是真的——的話，會被視為失言。一整套經濟、社會和外交政策的議題，彼此間沒有什麼本質上的關係，對這些議題卻有一整組信念，要黨員展現相同的堅信程度。

......正因為這樣的辯論可能會持續數十年，所以氣候科學家最好從這街頭毆鬥中抽身，免得跨越了無可挽回的界線，從科學進入政治。在科學中，有問題的預測比較容易曝光——而真理比較可能會佔上風。在政治裡，這個領域中真理沒有任何優惠的地位，那就誰也不能確定了。

......如果我可以在想法的競賽和政治的死鬥中做選擇，那我知道我會寧願參加哪種戰鬥——尤其如果我認為我的預測正確的話(p. 467)。

第十三章討論恐怖主義預測，作者指像九一一這類攻擊，問題在於事前連想也沒想過這種事會發生，當然不可能事先預測︰

某種可能性對我們來說不熟悉的時候，我們甚至連思考都不會。我們反而對之產生某種心理上的盲目。

......這種症狀在預測上的版本，會要求我們去做最違反我們天性的一件事，承認我們有所不知(pp. 477-478)。

如果我們因為對這世界的知識並不完美而感到挫折，完全沒有辦法做出預測，問題就來了。未知而不自知是我們連想都沒想過的意外狀況。我們對這狀況有某種心理障礙，或者我們的經驗不適合想像這個狀況，就彷彿這個狀況甚至不存在一樣(p. 479)。

像九一一這樣大規模的攻擊可能難以想像，但是用數學方式表達，或許就不會否定這種可能。恐怖攻擊頻率與死亡人數的對數大致呈反比關係，換句話說，與地震強度及頻率的關係一樣，呈冪次律分布︰

談到預測未來風險的規模時，冪次律有些重要的性質。特別是冪次律指出，比社會最近經歷過的事件還要糟糕得多的災難，就算很罕見，也是完全有可能的。例如，恐怖主義的冪次律預測，從一九七九年到二〇〇九年這三十一年的期間，北歐國家(未必是美國)遭遇到至少上百人死亡的恐怖攻擊，大約會有六次。(這跟實際的數據很接近︰這段期間實際上有七次)。同樣的，這也代表有上千人遇害的攻擊大約每二十二年就會發生一次。這也表示像九一一事件這種規模的事，將近三千人遇害，大約每四十年就會發生一次(p. 489)。

作者認為，預測像恐怖攻擊那樣專門攻擊意想不到地方的事件，需要承認預測的不確定，並運用想像力︰

就像九一一委員會所推論的，攻擊前最重大的失誤來源就是我們缺乏想像力。我們在做預測的時候，在好奇心後懷疑態度之間必須求取平衡。兩者必須相容。我們越是熱切的想詳細檢查和檢驗我們的理論，我們就越容易接受我們對這世界的了解並不確定；我們越願意承認完美的預測並不可能，就越不會活在失誤的恐懼中，就有更多的自由能讓我們的心靈自由流動。越是知道我們不知道什麼，就越能多做出一些正確的預測(pp. 504-505)。

在結論作者提出幾項貝氏定理的啟發︰用機率思考、認清近似狀況與現實的分別、注重細節、承認預測時總是有先驗信念、做很多預測並檢驗它們以日漸改進，並接受我們既有能預測的事，也有不能預測的事。

2015年6月9日 星期二

精準預測

2015年6月9日星期二