2013年3月15日 星期五

合作的競化

這次介紹的是《合作的競化》,其實甚麼是「競化」呢, The Evolution of  Cooperation 直譯「合作的演化」不就好了。本書討論重複囚徒困境中策略如何演變,囚徒困境的運作如下︰

在囚徒困境實局裡,有兩名參與者(player)。每個參與者有兩個選擇,即合作或背叛。每個參與者都必須在不知道對方下一步會如何回應的情況下,做出選擇。無論對方怎麼做,背叛產生的收穫都會比合作高。困境在於如果雙方都背叛,彼此的收穫都會比合作時差,本書分析將以這個簡單的賽局為基礎。

......如果兩個參與者都選擇合作,雙方都得到相當不錯的結果。雙方各得到一個獎勵 (R-Reward),作為相互合作的收穫 。在圖一具體的例子裡面,R是3分。......如果一名參與者選擇合作,但另一個選擇背叛,背叛的參與者受到誘惑 (T-Temptation) 而背叛 ,合作的參與者得到了 笨蛋 (S-Sucker) 的收穫 。在這個例子中,T和S分別是5分和0分。如果這兩個參與者都選擇背叛,兩個參與者都是1分,作為相互背叛的懲罰(P-Punishment)(pp. 30-31)。


囚徒困境不過是以一種抽象的公式來代表一些非常常見、而且十分有意思的情形,在這些情形中,個人最有利的選擇卻會導致彼此互相背叛,可是彼此合作其實對雙方都有利。根據囚徒困境定義的條件,這四個不同可能的結果之間有幾個關係存在。第一個關係是四個收穫的高低次序,參與者最好的收穫是T,也就是在另一方參與者合作時背叛的誘惑。最糟糕的收穫是S,也就是對方背叛時自己卻合作的笨蛋。其他兩個結果,基於假設,相互合作的獎勵R會比相互背叛的懲罰P好。這樣一來,四個收穫從最好到最差的優先排序,為T、R、P和S。


囚徒困境定義的第二部分是,參與者輪流利用對方,以至於無法擺脫他們的困境。這個假設意味著利用的機會均等,以及被利用的結果對於個別參與者而言,沒有彼此合作的結果來得理想。因此,彼此合作的收穫假設大於誘惑和笨蛋的平均收益。這個假設,再加上四個收穫的排名順序,構成了囚徒困境的定義(pp. 32-33)。


換句話說,即T>R>P>S,而且R+R>T+S。

至於重複囚徒困境,即參與者可能再次對上時,考量策略時則要顧及未來︰

參與者可能再次對上的事實,則可能促使合作成局。這種可能性意味著,現在的選擇不僅決定了這一局的結果,也會影響參與者在日後賽局中的選擇。因此,未來可能為現在蒙古陰影,從而影響目前的策略形勢。


但是未來的重要性沒有目前來得高。原因有二,首先,由於參與者收穫的時間落到未來,所以他們對其價值的重視程度往往較低。第二,參與者未來不會再碰面的機會總是有的。當一個參與者或另外一方搬家、調職、死亡或破產時,雙方持續的關係便可能因而終結。


基於這些原因,參與者對於下一步行動的收穫的考量,總是小於目前的這一步。有個方法可以把這個因素自然地納入考慮,那就是累計賽局中每一步的收穫,讓參與者下一步行動對其目前策略存有些許的價值。下一步行動相對於目前這一步的權重(或重要性)將以w表示。它代表每一步的收穫相對於前一步的折扣程度,因此,稱之為折扣參數(discount parameter)(pp. 35-36)。


在重複囚徒困境中,只要w夠高,就沒有可獨立於其他策略的最好策略︰

事實上,在囚徒困境賽局裡面,效果最好的策略直接取決於另一方參與者使用何種策略,特別是,對方採用的策略是否留下發展相互合作的餘地。這一原則的基礎在於,下一步相對於當前這一步的權重夠大,讓未來的行動占有一席之地。換言之,折扣參數w必須夠高,未來之於總收穫計算的重要性才會大。不過,如果你不可能再遇上對方,或者如果你不關心未來的收穫,那麼你不妨現在就背叛,也不用擔心未來的後果。

這帶出了第一個正式的命題。不幸的是,如果未來是重要的,那就沒有一個最好的策略。

命題1 ︰如果折扣參數w夠高,那就沒有最好的策略可以獨立於另一方所使用的策略之外(pp. 38-39)。
使用囚徒困境框架的好處是︰


一、參與者的收穫完全無須是可比較的。
二、收穫不必要是對稱的。
三、參與者的收穫不需要用絕對的尺度衡量,僅須衡量彼此的相對值。
四、不需要以外界其他世界想要的角度看待合作。
五、沒有必要假設參與者是理性的。
六、參與者採取的行動甚至不一定是有意識的選擇。(pp. 41-42)


之後作者用電腦模擬各種策略在重複囚徒困境賽局的表現,結果以牙還牙獲得最好成績︰

以牙還牙程式的策略很簡單,以合作開始,之後視對手前一步的做法以牙還牙。在囚徒困境競賽裡面,或許要以這個決策規則最為知名,也是最熱門的討論話題。這套規則易於理解,而且容易設計程式。眾所周知,這套規則在人類對賽時,會帶動相當程度的合作。這套規則不易為人所利用,而且與自身對賽的表現良好。對於電腦競賽參賽作品而言,這些都是吸引人的特質。至於缺點,參賽者都知道,這種策略對於隨機規則太過寬鬆(p. 58)。


命題1說,沒有一個絕對的最佳規則能夠獨立於環境之外。以牙還牙實證的成功經驗,以及它在各式各樣環境裡的優秀表現,讓我們可以說它是一個非常強健的規則。它的成功一部分可能是因為,其他規則預期它的存在,而且設計成與它交手時有不錯的成績。要想與以牙還牙相處得好,必須與它合作,而這又有助於以牙還牙。即使是像測試者這類尋求占便宜的規則,遇上以牙還牙時,也迅速道歉。任何試圖利用以牙還牙的規則,只會傷害自己。以牙還牙之所以能夠受惠於不為人所利用的特質,因此它符合三項條件︰

一、遇到以牙還牙的可能性十分顯著。
二、一旦遇上,很容易識別以牙還牙。
三、一旦確認,很容易感受到以牙還牙的不可利用性。


因此,以牙還牙因本身的清晰度而受惠。


另一方面,以牙還牙也對利用其他規則的可能性視而不見。這種利用手段有時候確實成效豐碩,但是在各式各樣的環境裡面,企圖利用別人會造成多方面的問題。首先,如果抱持僥倖的心理背叛某個規則,看能不能蒙混過關,要是碰到的是會被激怒的規則,那麼便有遭報復的風險。其次,一旦相互報復成立,很難抽身。以及最後,試圖確定無反應的規則(如隨機規則或過於不合作的規則)和放棄與這些規則合作的機會,往往錯誤導致放棄與其他比較耐心的規則(如以牙還牙)合作的機會。能夠利用可利用的規則而無需付出太高的代價,是第二輪競賽裡面沒有任何參賽作品能夠圓滿完成的任務。


以牙還牙的成功之所以具有強健性,原因在於它的善良、報復、寬容和明確清晰的組合。它的善良避免陷入不必要麻煩的困境。它的報復阻嚇對方在任何時間堅持嘗試背叛。它的寬容有助於恢復相互合作。它的清晰度讓對方容易理解自己,從而促進長期的合作(pp. 81-83)。


之後作者用以牙還牙及總是背叛策略分析甚麼條件令策略集體穩定,即其他策略單體入侵不會比原有群體策略表現更好︰

命題2 。若且唯若(if and only if)w夠大,那麼以牙還牙是集體穩定的。w的臨界值是T、R、P和S這四個回報參數的函數。


這一命題的意義是,如果人口中的每個個體都在與其他人合作(因為每個個體使用的是以牙還牙策略),只要未來對現在有足夠影響力,沒有人可以使用任何其他的策略獲得更好的成績。換句話說,使以牙還牙無法被入侵的是,折扣參數w相對於以四個回報參數的條件夠高(p. 89)。


命題3 。只有當W夠大,任何可能是首先合作的策略才可能是集體穩定的。


原因是,一個策略要能是集體穩定,必須在任何挑戰者入侵時保護自己,總是背叛策略也包括在內。......為了使人口平均分數不致低於總是背叛的挑戰者,互動時間必須夠長,足以在未來的步數裡抵消誘惑(T)的獲益。


命題4 。一個善良的策略要能是集體穩定的,它必須被對方的第一個背叛激怒。


原因很簡單。如果一個善良的策略並沒有被第n步的背叛激怒,便不會是集體穩定的,因為它可能被只在第n步背叛的規則入侵(pp. 92-93)。


命題5 。總是背叛始終是集體穩定的。


如果其他參實者肯定會背叛,你永遠合作就沒有意義了。使用總是背叛的人口在每一步裡都將分別得到P。如果沒有人會合作,表現就不可能超過這個水準。畢竟,任何合作的選擇只會產生笨蛋的回報(S),未來也根本沒有機會獲得補償(p. 94)。


如果總是背叛無法以單體入侵善良策略,也不能以群集方式入侵︰

命題6 。以牙還牙之類最大限度區分的策略,可以最小p值(人口比例)入侵總是背叛的策略。


以牙還牙顯然是最大限度區分的策略。它從第一步就合作,但是一旦與總是背叛合作,將再也不會有下次。另一方面,它與另一以牙還牙者將有持續不斷的合作。因此,以牙還牙非常善於區別自己的攣生和總是背叛,這個屬性允許它以最小的可能的群集,入侵壞蛋的世界。


命題7 。如果一個善良的策略不可能被單一個體入侵,那也不會被任何由個體組成的群集入侵。


群集所採策略的分數是由兩部分組成的加權平均︰它與其他同類互動時的分數以及它與主要策略互動時的分數。這些組成都小於或等於主要的善良的策略得分。因此,如果主要的善良的策略不能被單一個體入侵,那麼也不為群集所侵(pp. 98-99)。


這些命題總合起來就組成合作演化的圖像︰

即使在一個無條件背叛的世界,合作還是可以成局。如果只有零星、沒有機會彼此互動的個體試圖展開合作,合作就無法順利發展。但是一小群區別分明的個體只要彼此有互動(即使比重微不足道也可以),就可能形成合作。此外,如果善良的策略(那些從不首先背叛的策略)逐漸被幾乎每個個體接納,之後這些個體可以慷慨地對待任何其他個體。藉由彼此友善對待,採善良規則的人口便可以任何策略善加保護自己,免於任何其他策略的群集入侵,效果不輸他們保護自己不受單一個體的入侵。但是善良的策略必須是可以被激怒的,其群集的力量才能穩定。因此,在沒有中央控制的利己主義者世界中,依靠互惠的個體群集方能互相合作(p. 100)。


接著作者開始應用上述的合作演化理論,譬如第一次世界大戰西部戰線壕溝戰中敵人間合作不互相攻擊︰

這些機制的演化,既不是盲目的突變,也不是適者生存。他們了解其行為的間接影響,體現了我所稱的回響原則︰「為對方提供不適,只是以一種迂迴的方式提供給自己」。這些策略是根據思考和經驗。士兵們了解到,要與他們的敵人保持相互克制,克制的基礎必須在於展現實力和若遭挑釁會被激怒的意願。他們也了解到,合作必須建立在互惠之上。因此,策略的演化是基於深思熟慮,而不是盲目的適應。演化也不涉及適者生存。雖然無效的策略意味著更多的傷亡,但更換策略通常意味著部隊自己能夠生存下去。


壕溝戰和平共存系統的起源、維護和摧毀,都符合合作演化的理論(pp. 115-116)。


生物間的合作也能以合作演化理論解釋︰

這種方法之於生物界各種具體應用,係根據以下這兩種合作演化的條件。基本上,個體的背叛行為絕對沒有僥倖逃脫的可能性,對方必能有效地報復。背叛的個體無法消失於無名的大海之中。高等生物體的辨識能力良好,可以避免這樣的問題,但比較低等的生物則得仰賴各種機制,而這些機制會大幅度限制它們可以有效互動的不同個體或宿主數量。另外一個有效報復的重要條件在於,相同兩個個體再次互動的或然率w必須夠高(p. 135)。


合作演化理論的發現為個體如何在重複囚徒困境獲得好表現提供四項建議︰

一、不要羨慕(嫉妒)


在非零和世界中,你們只需反求諸己,無須過度在意自己的表現是否超過對手。在你們與許多不同的對手互動時,這個道理尤其真切。只要自己的表現理想,則讓其他個別個體的表現同樣理想、甚至超過一點點也無妨。無須對別人的成功心生嫉妒,因為在長期性的重複囚徒困境裡,對方的成功其實是你本身表現理想的先決條件(pp. 148-149)。


二、不要成為第一個背叛者


競賽和理論結果都顯示,只要對方合作,合作便是值得的。


第二章的競賽結果非常驚人。規則表現如何最好的預測方法,就是看它是否善良,亦即會不會第一個背叛。


......第三章理論的結果也讓我們從另一種方式,了解善良的規則表現為什麼會這麼好。由於善良規則的表現如此之好,所以由善良規則組成的人口是最難入侵的類型。此外,善良規則構成的人口不但能抵禦某個突變規則的入侵,也能抵禦任何其他規則之群集的入侵(pp. 150-151)。


生態分析顯示,策略若只能在表現不佳的對手競賽時才能獲得高分,最終必定會邁向自我毀滅的過程。箇中的寓意在於,不善良的策略一開始看起來似乎前途光明,但長遠下來,卻可能使得本身賴以成功的環境毀於一旦(p. 154)。


三、對合作回報合作,對背叛回報背叛


事實上,以牙還牙黑白分明,精於區分善意回應本身初始合作以及沒有回應的規則。以第三章介紹的含義來說,以牙還牙黑白分明的程度甚至是最大的。因此,這種能力讓以牙還牙策略能如命題6所示,以再小不過的群集入侵壞蛋的世界。此外,它會以背叛回報背叛,以合作回報合作,所以具備可激怒性。誠如命題4所示,對於以牙還牙這樣善良的規則而言,可激怒性其實是它們抵禦入侵所需的條件。


以牙還牙策略在反應另外一方背叛的行為上,展現出懲罰和寬恕的平衡。以牙還牙每次遭逢對手背叛之後,總是只背叛一次,而其在競賽中的表現也非常成功。由此引出一個問題︰總是一報還一報是不是最有效的平衡。


......寬恕最理想的精確程度取決於環境。特別是,如果主要風險在於無休止的相互報復,那麼慷慨寬恕是適當的。但是,如果主要危險在於對方善於利用隨和的規則,那麼過度寬恕則會付出昂貴的代價。儘管在特定環境中難以精確拿捏平衡點,但競賽的證據顯示,對背叛施以接近一報還一報的回應,在各種不同的背景環境中都可能十分有效。因此,對其他參賽者的背叛和合作都施以相同的回報,是個不錯的建議(pp. 156-157)。


四、不要太聰明


這次競賽結果顯示,人們在囚徒困境的情況往往自作聰明。複雜度極高的規則表現並未超過簡單的規則。事實上,所謂極大化的規則因為容易引起相互背叛,因此表現往往很差。


......想讓自己的分數最大化的規則,把其他參賽者視為環境中不會變動的一個部分,在有限的假設下,不論它們多麼精於計算,都會忽略了這方面的互動。在雙方互相回應的過程中,你會根據對方的舉動做出回應,對方也會回應你的動作,一直循環下去;所以在你們為對方舉止建立模型的時候,如果忽略了這個過程,那麼就算建模做得再好,對你們都沒有好處。要想非常成功,這會是一條十分艱困的路。當然,在這兩次競賽的提交作品中,這些多少較為複雜的規則表現都不是十分出色。


......部分競賽規則還有另外一個過於聰明的地方︰它們運用的或然率策略過於複雜,以致無法為其他純粹隨機選擇的策略辨別。換言之,複雜性過高看起來可能完全沒有章法可言。如果你採用的策略看似隨機,那麼其他參賽者會覺得你是沒有反應的。如果你沒有反應,其他參賽者也沒有動機與你合作。因此,複雜到難以捉摸的地步是非常危險的(pp. 158-160)。


作者也提出五項改變環境以促進合作的方法,一、擴大未來的影響力,包括延長互動週期及增加互動頻率;二、改變回報,令合作更吸引;三、教導人們關心他人福利;四、教導互惠,既關心自己也關心他人;五、改進辨識能力,以增強合作的信心,並避免錯誤帶來無休止的互相報復。

將領土(territory)的概念加入互動中,集體穩定的策略依然能抵禦入侵︰

假設使用新策略的單一個體被引入某個鄰近地區,這裡每個人都使用一個本地策略。如果該地每個人最後都轉採新的策略,那麼我們可以說新的策略「領土」性地入侵這個本地策略。如果當地策略不受任何其他策略「領土」性地入侵,那麼我們可以說本地策略是「領土穩定」的 (territorially stable)。


所有這一切導出一個相當有力的結果︰對一個策略來說,「領土穩定」不比「集體穩定」難。換句話說,在領土性的社會系統裡面,策略自我保護、以免為入侵者接管所需要的條件,不會比在每一個人都有同樣機會遇到任何其他人的社會體系更嚴格。


命題8 ︰如果一個規則是集體穩定的,那麼便是領土穩定的(p. 199)。


不同社會結構揭示出合作演化的不同面向︰

一、隨機混合被用來作為結構的基本類型。循環競賽和理論命題展示了,基於互惠的合作就算處於社會結構最微乎其微的環境中,照樣可以怎樣地蓬勃發展。


二、參與者群集經過研究之後顯示,合作的演化一開始可以怎樣展開。雖然新來者在整個本地人環境中的比例極小,群集讓新來者至少有些機會可以遇上別的新來者。即使新來者大部分是與不合作的本地人互動,一小群使用互惠策略的新來者還是可以入侵壞蛋人口。


三、當參與者除了過去從彼此互動所得的資訊之外,對彼此更加了解時,人口就會開始出現區分。如果參與者有標籤顯示他們的成員身體或個人屬性,定型成見和地位等級便得以發展。如果參與者可以觀察到彼此與他人的互動,就能建立名聲;而名聲的存在可以創造一個以致力阻嚇霸道者為特徵的世界。


四、就敦促大多數公民遵守法規而言,政府本身也有策略方面的問題。這個問題不但是在特定情況下,該選擇什麼策略才有效,而且也關係到如何設定標準,才能兼具吸引公民遵守,以及對社會有利。


五、領土系統經過研究後顯示,如果參與者只與鄰居互動、和模仿比他們更成功的鄰居,會發生什麼情形。研究顯示,他們與鄰居的互動,可以使特定策略的傳播形成很有意思的模式,而且這些在某些環境中得分特別好的策略,即使在其他環境中表現不佳,還是能夠蓬勃成長(pp. 206-207)。


最後作者以合作成局的時間作結︰

如何實現合作的報酬有個核心問題︰在試誤中學習過程是緩慢和痛苦的。條件可能都對長期發展有利,但是我們也許沒有時間等待盲目過程中緩慢推往互惠互利的策略。或許如果我們加強對這一過程的理解,便可運用遠見,加速合作的演化(p. 232)。

至於附錄中證明各項命題的數學公式,就不詳提了。