Chúng ta đã thấy rằng trong một trò chơi PD một lần duy nhất thì chỉ có duy nhất một cân bằng Nash NE là sự phản bội chung. Tuy nhiên điều này có thể không duy trì được nữa khi các tay chơi mong muốn gặp lại nhau trong các trò chơi PD tương lai. Hãy tưởng tượng rằng bốn công ty khi tất cả đều thực hiện các cải tiến đồng ý với nhau giữ giá cao bằng cách hạn chế cung. (Tức là họ thành lập một cartel.) Điều đó sẽ chỉ thực hiện được khi mỗi công ty duy trì được hạn ngạch xuất đã được thỏa thuận. Một cách rất đặc trưng là mỗi công ty có thể tối đa hóa lợi nhuận của mình bằng cách không tuân thủ hạn ngạch đã được cam kết trong khi các công ty khác quan sát được công việc của họ, vì thế sau đó nó bán nhiều đơn vị ở mức giá thị trường cao hơn mức cartel qui định hầu như nguyên vẹn đó. Trong trường hợp một lần duy nhất toàn bộ các công ty sẽ cùng chung động cơ này để bỏ cam kết và cartel ấy sẽ lập tức sụp đổ. Tuy nhiên các công ty mong muốn đối mặt với nhau trong cạnh tranh trong một giai đoạn dài. Trong trường hợp này mỗi công ty biết rằng nếu nó vi phạm thỏa thuận của cartel thì các công ty khác có thể trừng phạt nó bằng cách định giá dưới giá trong một thời gian dài đủ để loại bỏ cái thắng lợi ngắn hạn của nó. Tất nhiên các công ty trừng phạt sẽ chịu thiệt thòi ngắn hạn trong giai đoạn định giá dưới giá. Nhưng những thiệt thòi này cũng đáng để chịu nếu họ mong muốn tái lập cartel và để tối đa hóa mức giá về lâu dài.
Một chiến lược đơn giản và rất nổi tiếng (nhưng không nhất thiết là tối ưu, ngược lại với cái huyền thoại phổ biến rộng khắp) trong việc bảo vệ sự hợp tác trong các trò chơi PD lặp lại được gọi là tit-for-tat. Chiến lược này bảo cho mỗi tay chơi cách hành xử như sau:
i) Luôn luôn hợp tác ở vòng đầu
ii) Sau đó thực hiện bất cứ hành động nào mà đối thủ của bạn thực hiện ở vòng trước.
Một nhóm tay chơi tất cả đều chơi trò tit-for-tat sẽ không bao giờ thấy bất cứ một sự bội ước nào. Vì trong một tập hợp nơi mà những người khác chơi tit-for-tat, thì tit-for-tat đáp trả duy lý đối với mỗi tay chơi, mỗi tay chơi tit-for-tat đều là một cân bằng Nash NE. Bạn vẫn thường thấy một số người biết đôi chút về lý thuyết trò chơi (nhưng không đủ) nói cứ như đây là nơi kết thúc của câu chuyện. Thực ra thì không phải như vậy.
Có hai điều phức tạp ở đây. Trước hết, các tay chơi phải không chắc chắn về việc là khi nào thì hành động của họ kết thúc. Giả sử các tay chơi biết khi nào thì vòng cuối cùng sẽ đến. Trong vòng đó, người chơi sẽ là người duy lý để bội ước, vì không có sự trừng phạt nào có thể thực hiện được. Bây giờ chúng ta hãy xem vòng cuối cùng-thứ hai. Trong vòng này, các tay chơi cũng không phải đối mặt với bất cứ sự đe dọa trừng phạt nào, vì họ biết thế nào họ cũng sẽ bội ước ở vòng cuối cùng. Vì vậy họ bội ước ở vòng cuối cùng thứ hai. Nhưng điều đó có nghĩa là họ không phải đối mặt với đe dọa trừng phạt ở vòng cuối cùng thứ ba, và cũng bội ước ở đó. Chúng ta có thể đơn giản lặp đi lặp lại điều đó qua cây trò chơi cho đến khi chúng ta đạt được vòng đầu tiên. Vì hợp tác không duy lý trong vòng đó nên trò chơi tit-for-tat không còn là một chiến lược duy lý, và chúng ta đạt được cùng một kết quả - sự bội ước chung – như trong trò chơi PD một lần duy nhất vậy. Vì vậy hợp tác chỉ là có thể trong trò chơi PD lặp lại mà ở đó số lần lặp lại mong muốn là vô định. (Tất nhiên, điều này áp dụng cho nhiều trò chơi trong đời thực).
Nhưng giờ đây chúng tôi xin giới thiệu một rắc rối thứ hai. Hãy giả định rằng khả năng của những người chơi để phân biệt sự bội ước khỏi sự hợp tác là không hoàn hảo. Hãy xem xét trường hợp của chúng ta về cái cartel thực hiện các cải tiến đã nói. Giả sử các tay chơi thấy rõ thị trường sản phẩm xuống giá. Có lẽ đó là vì một thành viên trong cartel đã bội ước. Hoặc có lẽ đã nảy sinh ra một tình trạng khủng hoảng cầu ngoại sinh. Nếu các tay chơi tit-for-tat mắc lỗi ở trường hợp thứ hai thay cho trường hợp thứ nhất thì họ sẽ bội ước, vậy là tình trạng tăng phản ứng dây truyền những bội ước chung mà từ đó chúng có thể không bao giờ khôi phục lại được, vì mỗi tay chơi sẽ đáp lại cái bội ước đầu tiên mà họ gặp phải, vậy là bội ước ngày càng tăng thêm, vv....
Nếu các tay chơi biết rằng có thể xảy ra tình trạng giao tiếp sai lệch như vậy thì họ phải viện đến các chiến lược tinh vi hơn. Đặc biệt họ cần chuẩn bị để đôi khi phải liều thực hiện các bội ước để kiểm tra các suy luận của họ. Tuy nhiên họ không được đối xử quá tha thứ, vì sợ những tay chơi khác phát hiện được rằng tối ưu duy lý có thể giúp khai thác thông qua những bội ước cố ý. Nói chung các chiến lược tinh vi đều có vấn đề. Vì đối với những người chơi khác chúng khó suy luận hơn nên càng ngày họ càng sử dụng nhiều xác suất giao tiếp sai. Nhưng giao tiếp sai lại là cái tạo ra những cân bằng hợp tác trong trò chơi lặp lại để tháo gỡ ở ngay vị trí đầu tiên! Đạo lý của vấn đề này là ở chỗ các trò chơi PD thậm chí ngay cả những trò chơi lặp lại cũng rất khó thoát ra được. Các tay chơi duy lý tìm mọi cách để tránh các tình huống PD, mà không dựa vào các mưu chước tinh quái để cố thoát ra khỏi chúng.
Các màn kịch chính trị xã hội thực và phức tạp đôi khi cũng là những ví dụ rất sáng rõ cho những trò chơi đơn giản như PD. Hardin (1995) đã đưa ra một phân tích về hai trường hợp chính trị rất thực (và rất bi kịch) mới đây là cuộc nội chiến Yugoslavia 1991-1995, và sự diệt chủng tại Rwanda như là những trò chơi PD ẩn bên trong các trò chơi phối hợp. Một trò chơi phối hợp xuất hiện khi tiện ích của hai hoặc nhiều tay chơi được tối đa hóa bằng cách thực hiện cùng một việc, và ở nơi mà đối với họ sự phù hợp quan trọng hơn cái mà cả hai bên cùng làm.
Một ví dụ tiêu biểu thể hiện qua các qui tắc đi đường: “Tất cả đều lái xe bên trái” vừa là những kết quả thuộc các cân bằng Nash, lại vừa không hiệu quả hơn kết quả khác. Trong các trò chơi phối hợp “thuần túy”, thậm chí việc sử dụng các tiêu chuẩn cân bằng lựa chọn nhiều hơn cũng không ích gì. Chẳng hạn giả sử rằng chúng ta yêu cầu các tay chơi suy lý theo qui tắc Bayes (xem phần 3 ở trên). Trong các hoàn cảnh này, bất cứ chiến lược nào là lời đáp hiệu quả nhất đối với bất cứ vector nào của các chiến lược hỗn hợp có sẵn trong cân bằng Nash thì đều được gọi là có thể duy lý hóa. Có nghĩa là một tay chơi có thể phát hiện ra một tập hệ thống các niềm tin cho những tay chơi khác đến mức mà bất cứ một lịch sử trò chơi nào đi theo một đường dẫn cân bằng thì cũng đều phù hợp với tập hệ thống đó. Các trò chơi phối hợp thuần túy đều được đặc trưng bởi những vector không-duy nhất của các chiến lược có thể duy lý hóa. Trong những tình huống như vậy, các tay chơi có thể cố tiên đoán những cân bằng bằng cách đi tìm những tiêu điểm, có nghĩa là các đặc điểm của một vài chiến lược mà họ tin là quan trọng nhất đối với các tay chơi khác, và họ tin là những tay chơi khác cũng sẽ tin là quan trọng nhất đối với họ. (Chẳng hạn nếu hai người muốn gặp nhau vào một ngày nhất định trong một thành phố lớn nhưng lại không thể liên lạc được với nhau để sắp xếp về thời gian và địa điểm, thì có lẽ cả hai phải rất nhạy bén đi đến các quảng trường nổi tiếng nhất ở trung tâm thành phố vào buổi trưa). Không may là trong nhiều trò chơi chính trị và xã hội do con người thực hiện (và đôi khi cả những con thú khác) thì các thuộc tính bề mặt mang tính sinh học mà con người tự phân loại thành các nhóm chủng tộc và dân tộc đều tỏ ra có hiệu quả cao như những đặc điểm đó. Phân tích của Hardin về các cuộc diệt chủng là dựa vào sự thật này.
Theo Hardin, không phải các thảm họa ở Yugoslavia, cũng không phải các thảm họa ở Rwanda là những trò chơi mà người ta bắt đầu với chúng. Có nghĩa là không phải là tình thế, mà là phe phái, chính hầu hết mọi người bắt đầu bằng cách đối chiếu sự hủy hoại của người khác với sự hợp tác chung. Tuy nhiên cái logic chết người của sự phối hợp, được tiếp tay làm bậy một cách chu đáo của các chính khách đã tạo ra các trò chơi PD một cách sôi động. Một số cá nhân người Serbs (Hutus) đã được cổ vũ để lĩnh hội các quyền lợi cá nhân như là những gì đúng đắn nhất thông qua việc đồng nhất với các lợi ích nhóm của người Serbs (Hutus). Có nghĩa là họ nhận thức rằng một số hoàn cảnh của họ chẳng hạn như những hoàn cảnh liên quan đến cạnh tranh về việc làm thực sự có hình thức giống hệt các trò chơi phối hợp. Vì vậy họ đã hành động sao cho có thể tạo ra được các tình huống mà trong đó điều này cũng là thật đối với những người Serbs (Hutus) khác. Rốt cuộc, một khi đủ người Surbs đồng nhất tư lợi với quyền lợi nhóm thì sự đồng nhất đó trở nên hầu như là hoàn toàn chính xác, vì (1) mục đích quan trọng nhất đối với mỗi người Serb là thực hiện một cái gì đó na ná như mỗi người Serb khác sẽ làm, và (2) hầu hết những gì mà người Serb phải làm để có thể phối hợp lại thì chính là loại trừ người Croats (Tutsi). Có nghĩa là các chiến lược liên quan đến hành vi loại trừ như vậy được lựa chọn như là một kết quả của việc xác định được các tiêu điểm hiệu quả. Chính tình huống này đã làm nảy sinh trường hợp là quyền tư lợi của một cá nhân – và bị đe dọa về phương diện cá nhân - người Croat (Tutsi) được tối đa hóa một cách tốt nhất bằng việc phối hợp lại dựa trên bản sắc-nhóm Croat (Tutsi) quả quyết, chính là thứ làm tăng thêm sức ép đối với người Serbs (Hutus) để họ phối hợp lại, vv….Cần lưu ý rằng đó không phải là một khía cạnh của việc phân tích này, một khía cạnh mà những người Serbs hoặc Hutus bắt đầu các công việc của họ; quá trình đó có thể hoàn toàn mang tính thuận nghịch (ngay cả khi nó không diễn ra trong thực tế). Nhưng kết quả thì lại thật là khủng khiếp: người Serbs và Croats (Hutus và Tutsis) hình như càng ngày càng đe dọa nhau khi họ cùng chạy đua tự vệ, cho đến khi cả hai đều thấy bắt buộc phải hành động trước để ngăn chặn đối thủ và đánh phủ đầu. Nếu Hardin đúng – và vấn đề ở đây không phải là nhất quyết rằng ông ta đúng hay không, mà điều cần thiết là phải chỉ ra rằng tầm quan trọng mang tính thế giới của việc quyết định xem những tác nhân trò chơi nào thực sự đang chơi – sau đó sự hiện diện duy nhất của một áp lực bên ngoài (NATO?) cũng sẽ không thay đổi được trò chơi, thay đổi được thế cờ mà sự phân tích theo quan niệm của Hobbes, vì áp lực đó có thể đã không đe dọa bên này hai bên kia bằng bất cứ cái gì tồi hơn cái khiến cho tay chơi này e ngại tay chơi kia. Cái cần thiết chính là sự chia lại các thang giá trị của các lợi ích, là thứ (người ta có thể cho rằng) đã xảy ra ở Yugoslavia khi quân đội Croatian bắt đầu chiến thắng một cách quyết định, trong cái thời điểm mà những người Serbs Bosnia quyết định rằng các lợi ích cá nhân/nhóm của họ được đáp ứng tốt nhất bằng sự hiện diện của các lực lượng giữ gìn hòa bình của NATO. Trong khi cuộc xung đột ở Rwanda đã kéo theo vào đó các quốc gia láng giềng (Congo) mà những phát triển chính trị và quân sự đã làm cho nó thay đổi.
Tất nhiên vấn đề không phải là ở chỗ hầu hết những trò chơi lặp lại đều dẫn tới thảm họa. Cơ sở sinh học của tình bạn ở con người và ở động vật có lẽ phần nào là một hàm logic của các trò chơi lặp lại. Tầm quan trọng của khoản nhận được thông qua sự hợp tác trong các trò chơi tương lai hướng dẫn những con người mong muốn tương tác với nhau trở nên ít ích kỷ hơn sự cám dỗ sẽ gợi ý trong các trò chơi hiện tại. Hơn nữa, việc chăm sóc cho những lợi ích và tình cảm chung đem đến những mạng lưới của các tâm điểm xung quanh những gì mà sự phối hợp có thể được tạo thêm điều kiện thuận lợi.
5. Cam kết
Trong một số trò chơi, các tay chơi cải thiện các kết quả của họ bằng cách thực hiện các hành động làm cho họ không thể thực hiện được những gì là hành động thành công nhất của mình trong các trò chơi vận động đồng thời tương ứng. Những hành động như vậy được coi như là các cam kết, và chúng có thể được coi là các thay thế cho sự tăng cường ngoại sinh trong các trò chơi gắn chặt với các cân bằng không hiệu quả-Pareto.
Hãy xem xét kỹ lưỡng cái ví dụ giả định sau đây (đây không phải là một trò chơi PD). Giả sử bạn sở hữu một mảnh đất nằm kề một cái mỏ, và tôi muốn mua nó để mở rộng thêm mảnh đất của tôi. Chẳng may bạn lại không muốn bán với cái giá mà tôi muốn mua. Nếu chúng ta đồng thời thay đổi – bạn thông báo một giá bán còn tôi thì cũng độc lập đưa cho nhân viên của tôi một cái giá hỏi mua lúc đầu – sẽ không có sự mua bán trong trường hợp này. Vì vậy tôi có thể cố gắng thay đổi các động cơ của tôi bằng cách thực hiện một vận động mở trong đó tôi tuyên bố rằng tôi sẽ xây dựng một nhà máy xử lý nước thải có mùi thối trên mảnh đất của tôi, bên cạnh mảnh đất của bạn trừ khi bạn bán miếng đất đó, bằng cách ấy giảm giá của bạn. Giờ đây chúng ta quay trở lại với trò chơi vận động tuần tự. Tuy nhiên cho đến bây giờ vận động này vẫn không thay đổi được điều gì cả. Nếu bạn từ chối ngay cả khi tôi đe dọa, sau đó tôi cũng chẳng quan tâm gì đến vấn đề đó nữa, bởi vì trong khi phá bạn, tôi cũng phá chính bản thân tôi. Vì khi bạn biết điều này thì bạn cũng sẽ lờ đi lời đe dọa của tôi. Lời đe dọa của tôi là không đáng tin, một câu chuyện vớ vẩn.
Tuy nhiên tôi vẫn có thể làm cho câu truyện của mình đáng tin bằng cách cam kết với chính bản thân mình. Tôi có thể ký một hợp đồng với một số nông dân bằng cách hứa cung cấp cho họ nước thải đã xử lý (phân bón) từ nhà máy của tôi, nhưng bao gồm một điều khoản thoát trong hợp đồng giải thoát tôi khỏi trách nhiệm chỉ khi tôi có thể mở rộng gấp đôi mảnh đất của tôi và đưa nó vào một mục đích sử dụng khác. Giờ đây lời đe dọa của tôi là đáng tin: nếu bạn không bán, tôi sẽ cam kết xây dựng một nhà máy xử lý chất thải. Vì bạn biết điều này nên giờ đây bạn có một động cơ để bán mảnh đất của bạn cho tôi để thoát khỏi sự phá sản đó.
Loại trường hợp này bộc lộ một trong nhiều khác biệt cơ bản giữa logic của sự tối đa hóa tham số và phi tham số. Trong các tình huống tham số, một tác nhân có thể không bao giờ bị chơi xấu bằng cách có nhiều lựa chọn hơn. Nhưng ở đâu các hoàn cảnh là phi tham số thì chiến lược của một tác nhân có thể bị ảnh hưởng vào sở thích của người khác nếu các lựa chọn rõ ràng là hạn chế. Sự kiện đốt thuyền của Cortez (xem phần I) tất nhiên là một ví dụ về trường hợp này, một ví dụ có thể được sử dụng để tạo ra cái ẩn dụ thông thường.
Một ví dụ khác sẽ minh họa cho điều này, cũng như minh họa cho tính có thể ứng dụng của các nguyên tắc các loại trò chơi. Trong trường hợp này chúng ta sẽ xây dựng một tình huống tưởng tượng, một tình huống không phải là một trò chơi PD – vì chỉ duy nhất một tay chơi có động cơ để bội ước – nhưng là một song đề xã hội đến mức mà cân bằng Nash của nó lại không có sự cam kết thì chính là Pareto-cấp thấp so với một kết quả có thể đạt được với một phương thức cam kết. Hãy giả định rằng hai chúng ta cố gắng săn trộm một con linh dương hiếm trong một vườn quốc gia để bán cho nhà trưng bày. Một người trong chúng ta phải lùa con vật chạy về hướng người kia đang đợi để bắn nó và đưa nó vào một chiếc xe tải. Tất nhiên bạn hứa chia cho tôi khoản tiền thu được. Tuy nhiên lời hứa của bạn là không đáng tin cậy. Khi bạn đã nhận được tiền, bạn không có lý do gì để ném món tiền đi mà lại bỏ được vào túi toàn bộ giá trị của nó. Cuối cùng tôi không thể oán trách cảnh sát sao lại không bắt giữ cả tôi. Nhưng giờ đây hãy giả sử rằng tôi bổ sung thêm một vận động tiếp theo vào trò chơi. Trước khi săn tôi lắp vào xe tải một chiếc chuông báo động mà tôi có thể tắt nó chỉ bằng cách bấm vào một mã số. Chỉ có mình tôi biết mã số đó. Nếu bạn cố tách ra khỏi tôi thì chuông sẽ kêu và cả hai chúng ta sẽ bị bắt. Vì biết rõ về điều này nên bạn có động cơ để đợi tôi. Vấn đề quyết định cần lưu ý trong tình huống này là bạn muốn tôi lắp chuông vì điều đó làm cho lời hứa chia tiền của bạn cho tôi là đáng tin cậy. Nếu tôi không làm thế bằng cách làm cho lời hứa của bạn không đáng tin cậy thì chúng ta sẽ không thể đồng ý để trước hết là thử cái tội lỗi đó, và cả hai chúng ta sẽ bỏ mất một dịp kiếm được tiền. Vậy là bạn được hưởng lợi từ sự giàng buộc của tôi đối với bạn.
Chúng ta có thể kết hợp phân tích của mình về PD và các phương cách cam kết trong thảo luận về việc ứng dụng đầu tiên làm cho lý thuyết trò chơi trở nên nổi tiếng bên ngoài các cộng đồng học thuật. Tác dụng làm cân bằng hạt nhân giữa các Siêu cường trong Chiến tranh lạnh đã được nghiên cứu một cách thấu đáo bởi thế hệ đầu tiên của các nhà lý thuyết trò chơi, trong đó có nhiều người phục vụ cho Bộ quốc phòng Mỹ. Xem (Poundstone 1992 để biết chi tiết về phương diện lịch sử). Cả Mỹ và Liên Xô đều duy trì chính sách sau. Nếu một bên tiến hành tấn công trước thì bên kia đe dọa trả đũa bằng một cuộc phản công hủy diệt. Cặp chiến lược thuận nghịch này vào cuối những năm 1960s đã có khuynh hướng thực sự làm cho thế giới căng thẳng theo cách “Sự huỷ diệt Được bảo hiểm Chung - ‘Mutually Assured Destruction’, or ‘MAD’). Các lý thuyết gia trò chơi phản ứng rằng MAD quá mát (điên) vì nó làm cho Nan đề Người tù trở thành kết quả của một sự thật là những đe dọa đối địch nhau là không thể tin được. Giả sử Liên Xô khởi sự tấn công trước chống lại Mỹ. Trong thời điểm đó, tổng thống Mỹ đối mặt với tình huống sau. Đất nước ông đã bị hủy diệt. Ông không thể làm cho nó hồi sinh lại được bằng cách làm cho thế giới căng lên, vì vậy ông không có động cơ để thực hiện lời đe dọa của mình, là thứ mà giờ đây đã thất bại rõ ràng.Vì người Nga biết rõ điều đó nên họ sẽ phớt lờ lời đe dọa và tấn công trước! Tất nhiên người Mỹ cũng ở vào tình trạng tương tự. Mỗi cường quốc sẽ nhận ra động cơ này của phía bên kia, và vậy là sẽ đoán trước được cuộc tấn công nếu họ không tiến hành trước. Vì vậy cái mà chúng ta sẽ chờ đợi, vì nó là một cân bằng Nash duy nhất nên nó là cuộc chạy đua giữa hai cường quốc để trở thành kẻ tấn công đầu tiên.
Việc phân tích lý thuyết trò chơi đó đã gây ra một nỗi kinh hoàng thực sự và sự hoảng sợ đối với cả hai bên trong thời gian Chiến tranh lạnh, và được cho là đã tạo ra một số cố gắng to lớn trong việc xây dựng các phương cách cam kết chiến lược. Chẳng hạn một số giai thoại ỡm ờ rằng Tổng thống Nixon đã bắt CIA cố gắng chứng tỏ cho người Nga biết rằng ông ta điên khùng hoặc say rượu đến mức mà họ tin rằng ông ta sẽ tiến hành tấn công trả thù ngay cả khi ông ta không hề còn quan tâm đến nó nữa. Tương tự như vậy, KGB Sôviết cũng tiết lộ để khẳng định rằng đã có những báo cáo chi tiết về y học thổi phồng tình trạng suy nhược thần kinh tương tự của Brezhnev. Cuối cùng thì sự cân bằng chiến lược làm cho các nhà phân tích thuộc Lầu năm góc quan tâm trở nên rất phức tạp và có lẽ đã bị sụp đổ bởi những thay đổi trong các chiến thuật triển khai tên lửa Mỹ. Họ trang bị cho các hạm đội tàu ngầm với số tên lửa đủ để phá hủy Liên Xô. Điều này đã làm cho mạng lưới truyền thông của họ ít tính đáng tin, và bằng cách làm như vậy, họ đã đưa ra được một yếu tố về tính bất định có liên quan về phương diện chiến lược. Có lẽ tổng thống có thể ít được đảm bảo tiếp cận được với các hạm đội tàu ngầm và ngừng ra lệnh tấn công nếu bất cứ tên lửa nào của Liên Xô xuất hiện trên màn hình rađa ở Bắc Canada. Tất nhiên giá trị của vấn đề này trong việc phá vỡ tính cân bằng tùy thuộc vào việc người Nga có nhận thức được về vấn đề tiềm tàng hay không. Trong bộ phim kinh điển của Stanley Kubrick Tiến sĩ Strangelove, thì thế giới bị phá hủy bởi một sự tình cờ vì người Nga chế tạo ra một chiếc máy cho ngày phán xử cuối cùng nó sẽ tự động ấn nút phát động cuộc chiến tranh hủy diệt bất chấp quyết định của người lãnh đạo của đất nước họ theo đuổi đến cùng đối với răn đe MAD, nhưng sau đó lại giữ bí mật về nó! Kết quả là khi một đại tá Mỹ rõ ràng là bị điên đã phóng các tên lửa vào Nga theo ý muốn của anh ta, thì tổng thống Mỹ phải cố thuyết phục đối tác Sô viết của mình rằng cuộc tấn công đó là không hề cố ý, và thủ tướng Nga đã bẽn lẽn nói với ông về chiếc máy tự động bí mật của họ. Giờ đây có thể cả hai lãnh đạo sẽ không làm gì, mà chỉ nhìn vào sự mất hết tinh thần khi thế giới bị căng cứng sợ hãi vì một sai lầm trong lý thuyết trò chơi.
(Nên có một cuộc thảo luận với đầy đủ trách nhiệm về tác dụng cân bằng trong Chiến tranh lạnh đề cập đến các lý thuyết gia trò chơi đầu tiên hầu như chắc chắn đã mắc sai lầm trong việc xây dựng mô hình Chiến tranh lạnh như một Nan đề Người tù một lần duy nhất. Một mặt trò chơi cân bằng hạt nhân bị mắc kẹt trong những trò chơi lớn hơn có tính chất phức tạp cao hơn. Mặt khác, người ta vẫn chưa biết rõ là đối với một trong hai siêu cường khi hủy diệt siêu cường kia mà lại tránh được tự hủy diệt mình trong thực tế là một kết quả được xếp loại cao nhất. Nếu cả hai trường hợp đều không như vậy thì trò chơi ấy không phải là một trò PD.
Cam kết đôi khi có thể được đảm bảo thông qua giá trị đối với một người chơi về tăm tiếng riêng của người đó. Chẳng hạn một chính phủ liều lĩnh đàm phát với bọn khủng bố để đảm bảo việc giải thoát con tin trong một tình huống đặc biệt có thể cam kết với một chiến lược “con đường trên cát” vì mục đích duy trì một tăm tiếng về tính bền bỉ có mục đích giảm thiểu động cơ các cuộc tấn công trong tương lai. Một ví dụ khác được hãng hàng không Qantas của Australia cung cấp. Qantas chưa bao giờ phải chịu bất cứ sự cố nào và nó luôn luôn quảng cáo về vấn đề này. Điều này có nghĩa là các máy bay của nó an toàn hơn trung bình ngay cả khi cái lợi thế đầu tiên chỉ là một con toán thống kê, vì giá trị khả năng của nó để khẳng định một kỷ lục hoàn hảo xuất hiện khi khả năng đó còn tiếp tục, vì vậy mà mang lại cho Hãng các động cơ liên tục để chịu các chi phí cao hơn trong việc đảm bảo an toàn cho các chuyến bay của nó.
Bất cứ điều kiện nào cũng phải đảm bảo nếu các hiệu quả của tăm tiếng là một cam kết. Trước hết trò chơi phải được lặp lại với tính bất định liên quan đến vòng chơi nào là cuối cùng. Trò chơi PD lặp lại có thể được sử dụng để minh họa cho tầm quan trọng của nguyên tắc này. Hợp tác có thể là một chiến lược thống trị trong các trò chơi PD lặp lại vì một tay chơi có thể đạt được nhiều hơn từ tiếng tăm của anh ta nhờ hợp tác, thông qua việc kích thích các hy vọng của sự hợp tác với người khác hơn là anh ta có thể đạt được nhờ sự bội ước chỉ trong một vòng chơi. Tuy nhiên nếu các tay chơi biết trước vòng chơi nào sẽ là vòng cuối cùng của họ thì cân bằng đó đã được làm sáng tỏ. Trong vòng cuối cùng, tăm tiếng không còn giá trị, và vì vậy cả hai tay chơi đều bội ước, vì vậy ở đây tăm tiếng trở nên vô giá trị và họ sẽ lại bội ước. Điều đó làm cho tăm tiếng trở nên vô giá trị trong vòng cuối cùng thứ ba, vv….Quá trình đó lặp đi lặp lại đến vòng đầu tiên, vì vậy không hề có một sự hợp tác nào. Vấn đề này có thể được khái quát hóa để ấn định điều kiện cơ bản nhất về khả năng đối với việc sử dụng các hiệu quả tăm tiếng như là những phương thức cam kết: giá trị của tăm tiếng đối với người vun trồng nó phải lớn hơn cái giá trị mà anh ta hy sinh nó trong bất cứ vòng nào. Vì vậy các tay chơi có thể thiết lập cam kết bằng việc giảm giá trị của mỗi vòng sao cho sự cám dỗ bộ ước trong mỗi vòng không bao giờ đủ cao để làm cho nó trở thành duy lý. Chẳng hạn các bên tham gia một hợp đồng có thể đổi nghĩa vụ của họ bằng các khoản tiền lãi nhỏ để giảm động cơ bội ước cho cả hai phía. Vì vậy các nhà xây dựng trong các dự án xây dựng có thể được thanh toán nhiều lần theo tháng, hoặc theo tuần. Tương tự như vậy Qũi tiền tệ Quốc tế thường miễn nợ cho các chính phủ bằng khoản nhỏ, vì vậy giảm được động cơ của các chính phủ vi phạm các điều kiện cho vay khi tiền đã nằm trong tay họ; và các chính phủ có thể thực sự thích các cách sắp xếp như vậy để giảm các sức ép chính trị đối với việc sử dụng không tuân theo các điều khoản qui định.
6. Lý thuyết Trò chơi Tiến hóa
Gintis [2000, 2009] mới đây đã cảm thấy có lý do chính đáng trong việc tuyên bố một cách táo bạo “lý thuyết trò chơi là một ngôn ngữ phổ quát cho việc thống nhất các khoa học hành vi”. Cách nói như vậy có vẻ khác thường, nhưng lại hoàn toàn hợp lý. Binmore (1998, 2005) đã xây dựng mô hình lịch sử xã hội như là một loạt những hội tụ vào các cân bằng hiệu quả ngày càng tăng trong các trò chơi giao dịch đụng độ ngắt đoạn theo các phần trong đó một vài người cố thay đổi thành các cân bằng mới bằng cách bỏ các đường dẫn cân bằng tĩnh như là kết quả của các tai biến giai đoạn. (Chẳng hạn Stalin đã cố thay đổi xã hội của ông thành một tập hợp các cân bằng trong đó người ta quan tâm nhiều hơn đến cái cường quốc chính trị, quân sự và công nghiệp tương lai của đất nước họ hơn là quan tâm đến cuộc sống riêng của họ. Ông đã không thành công; tuy nhiên các nỗ lực của ông thực sự đã tạo ra một tình huống mà trong một vài thập kỷ nhiều người Sô viết đã gán tầm quan trọng không đáng kể cho cuộc sống của những người khác dưới mức bình thường). Hơn nữa các ứng dụng lý thuyết trò chơi vào các đề tài hành vi đã mở rộng vượt khỏi vũ đài chính trị.
Chẳng hạn vào năm 1969, nhà triết học David Lellog Lewis đã xuất bản cuốn Qui ước (Convention: A Philosophical Study, 1969, Havard University Press), trong đó khung khái niệm của lý thuyết trò chơi đã được áp dụng vào một trong những vấn đề cơ bản của tri thức luận thế kỷ XX, bản chất và mức độ của các qui ước thống trị ký hiệu học và mối quan hệ của nó với sự biện minh cho các niềm tin mang tính định đề. Cuốn sách này đã đứng được như một trong những tác phẩm kinh điển của triết học phân tích, và danh tiếng của nó hiện đang ngày càng nổi bật khi chúng ta ngày càng thức tỉnh về ý nghĩa vạch đường của nó. Việc sử dụng ví dụ đơn giản này có thể đưa lại cho chúng ta một sự hiểu biết rất cơ bản. Từ “gà” là để chỉ những con gà và từ “đà điểu” là để chỉ những con đà điểu. Chúng ta cũng sẽ không trở nên tốt hơn hay xấu hơn khi “gà” lại chỉ đà điểu, và “đà điểu” lại để chỉ gà; tuy nhiên chúng ta sẽ trở nên xấu đi nếu một nửa trong số chúng ta sử dụng một cặp từ theo cách thứ nhất, và một nửa theo cách thứ hai, hoặc nếu tất cả chúng ta tùy tiện sử dụng chúng để qui vào những con chim không biết bay nói chung.
Tất nhiên các tri thức này đã có trước Lewis; nhưng điều mà ông nhận ra là ở chỗ tình huống này mang hình thức logic của một trò chơi phối hợp. Vì vậy trong khi những qui ước đặc biệt có thể mang tính võ đoán thì các cấu trúc tương tác duy trì chúng và làm cho chúng bền vững thì lại không võ đoán. Hơn nữa các cân bằng liên quan đến việc phối hợp về các ý nghĩa-danh từ lại có vẻ là có một yếu tố võ đoán chỉ vì chúng ta không thể phân loại chúng theo cân bằng Pareto; nhưng Millikan (1984) đã ngầm chỉ ra rằng về phương diện này chúng không điển hình cho các phối hợp ngôn ngữ. Nói chung các loại cân bằng Nash khác nhau trong các trò chơi phối hợp thường thường đều có thể được phân loại. Ross & LaCasse (1995) đã đưa ra ví dụ sau. Trong một thành phố, những người lái xe phải điều phối dựa vào một trong những cân bằng Nash liên quan đến hành vi của họ ở chỗ có đèn giao thông. Tất cả phải đi gấp khi đèn vàng và dừng lại để đợi đèn xanh hoặc đi chậm lại khi đèn vàng hoặc vọt lên khi chuyển sang đèn xanh. Cả hai mô hình này đều là cân bằng Nash trong đó một khi cộng đồng đã phối hợp vào một trong số cân bằng đó thì không một cá nhân nào có một động cơ để vi phạm: những người nào đi chậm lại khi có đèn vàng trong khi những người khác lại lao vào họ thì họ sẽ bị đâm vào đuôi xe, trong khi những người khác vọt lên khi đèn vàng trong sự cân bằng khác thì sẽ có nguy cơ va chạm với vọt lên nhanh khi đèn xanh. Vì vậy, khi một mô hình giao thông thành phố đặt trên một trong những cân bằng này thì nó sẽ có khuynh hướng dừng lại ở đó. Tuy nhiên cả hai tình trạng trên đều không phải là những trung lập-Pareto, vì cân bằng Nash thứ hai cho phép nhiều xe rẽ trái trong mỗi chu kỳ (theo luật tay lái bên phải), là loại giảm mức độ cổ trai và cho phép tất cả các lái xe hy vọng đạt hiệu quả cao hơn trong giao thông.
Những qui ước về các tiêu chuẩn bằng chứng và tính duy lý có vẻ thuộc về đặc trưng này. Trong khi có nhiều sự bố trí có thể là cân bằng Nash trong các trò chơi xã hội của khoa học, vì các môn đệ của Thomas Kuhn muốn nhắc chúng ta rằng không thể có chuyện tất cả mọi cân bằng này đều dựa vào đường cong trung hòa Pareto. Những đề tài này đã được thể hiện rõ ràng trong nhận thức luận hiện đại, trong triết học khoa học, triết học ngôn ngữ mà tất cả đều là di vật của lý thuyết trò chơi theo cách của Lewis (chí ít thì cũng gián tiếp). (Người đọc có thể phát hiện ra nhiều ví dụ ứng dụng và qui chiếu hơn trong các tập văn liệu lớn hơn, trong Nozick 1998). Tuy nhiên Lewis đã giới hạn sự chú ý của mình vào lý thuyết trò chơi tĩnh trong đó các tác nhân chọn các chiến lược là những hàm tiện ích cố định ngoại sinh. Như một kết quả của sự giới hạn này, việc lý giải của ông có thể chỉ cho chúng ta thấy tại sao các qui ước này lại quan trọng và bền vững, nhưng nó lại làm nảy sinh một vấn đề khó khăn và có lẽ không hiệu quả đối với một lý thuyết tổng quát về tính duy lý. Có hiện tượng đó là vì như chúng ta đã thấy ở phần 3 ở trên, trong các trò chơi kết hợp (và các trò chơi khác) có rất nhiều cân bằng Nash, cái được coi là một giải pháp chính là cái nhạy cảm cao với các phỏng đoán được thực hiện bởi các tay chơi về các niềm tin và khả năng tính toán của một tay chơi khác. Điều này gây ra một sự chú ý đáng kể, đặc biệt là từ các nhà triết học về những mối liên hệ của nhiều loại khác biệt mơ hồ trong các chuẩn mực của tính duy lý chiến lược. Tuy nhiên nếu như lý thuyết trò chơi thực sự giải thích được các hành vi tự nhiên và lịch sử của nó theo cái cách do Gintis (2000) gợi ý thì chúng ta cần một lý giải nào đó về cái có tính hấp dẫn về những cân bằng trong các trò chơi thậm chí ngay cả khi không có bất cứ nhà phân tích hoặc nhà tính toán duy lý nào ở xung quanh để xác định chúng. Việc thực hiện cái qui chiếu đối với đề tài của Lewis khi ngôn ngữ của con người đã được phát triển thì lại không có bất cứ một trọng tài nào ở bên ngoài để phân xử và bố trí cho hiệu quả Pareto. Vì vậy để hiểu được chủ nghĩa lạc quan của Gintis về việc tiếp cận được với lý thuyết trò chơi chúng ta cần phải mở rộng sự chú ý của mình vào các trò chơi mang tính tiến hóa.
Các lý thuyết trò chơi đã được ứng dụng một cách thành công vào sinh học tiến hóa mà trong đó các loài và/hoặc các gen được đối xử như là những tay chơi từ công trình tiên phong của Maynard Smith (1982) và những người cộng tác với ông. Lý thuyết trò chơi tiến hóa (hoặc động) đã kích thích cho sự mở rộng của toán học mới một cách đáng kể để có thể ứng dụng vào nhiều môi trường trừ môi trường sinh học. Vì vậy mà Skyrms (1996) đã sử dụng lý thuyết trò chơi tiến hóa để cố gắng trả lời các câu hỏi mà ngay cả Lewis cũng chưa đặt được câu hỏi, về các điều kiện mà ngôn ngữ, các khái niệm về công lý, khái niệm về tài sản tư nhân, và những hiện tượng chung không được thiết kế khác đã thu hút mối quan tâm của các nhà triết học. Điều mới đối với lý thuyết trò chơi tiến hóa chính là các vận động không được lựa chọn bởi các tác nhân duy lý. Thay vào đó, các tác nhân này lại được cứng hóa (hard-wired - kiểm soát bằng các mạch điện tử) một cách điển hình bằng những chiến lược đặc biệt và sự thành công đối với một chiến lược được xác định trong khuôn khổ số bản copies mà một chiến lược tự để lại để chơi trong các trò chơi của những thế hệ tiếp theo. Vì vậy bản thân các chiến lược cũng là những tay chơi và các trò chơi mà họ chơi thì năng động chứ không tĩnh tại.
Việc thảo luận về vấn đề này gắn liền với các luận điểm của Skyrms. Chúng ta hãy bắt đầu bằng việc giới thiệu động học sao chép. Trước hết hãy xem xét lựa chọn tự nhiên đã họat động như thế nào để thay đổi các giống loài động vật, bằng cách biến đổi, tạo ra và hủy diệt các loài. Cơ chế cơ bản là sinh sản khác biệt. Bất cứ động vật nào có các đặc điểm có thể di truyền làm tăng số lượng con cái mong muốn của chúng trong một môi trường nhất định thì đều có khuynh hướng để lại nhiều con cái hơn những loài khác chừng nào môi trường vẫn còn tương đối bền vững. Thế hệ con cái ấy sẽ kế thừa những đặc điểm đã được nêu ra. Vì vậy tỷ lệ của những đặc điểm này trong cư dân của chúng sẽ tăng dần khi các thế hệ lần lượt qua đời. Một số đặc điểm này có thể đi đến cố định, có nghĩa là cuối cùng chúng kế tục toàn bộ cư dân (cho đến khi nào môi trường thay đổi).
Lý thuyết trò chơi có thể tiếp cận với vấn đề này như thế nào? Thông thường một trong những khía cạnh quan trọng nhất của một môi trường sinh vật sẽ là những khuynh hướng hành vi của những sinh vật khác. Chúng ta có thể nghĩ về mỗi loài như là đang “cố gắng” tối đa hóa tính thích ứng (= số cháu chắt mong muốn) thông qua việc xác định các chiến lược tối ưu của những loài khác. Vì vậy lý thuyết tiến hóa là một lĩnh vực khác của việc ứng dụng cho phân tích phi tham số.
Trong lý thuyết trò chơi động, chúng ta không còn nghĩ về các cá thể như là sự lựa chọn những chiến lược khi chúng vận động từ một trò chơi này đến một trò chơi khác. Có điều đó là vì các lợi ích của chúng ta là khác nhau. Giờ đây chúng ta ít quan tâm đến việc phát hiện ra các cân bằng của những trò chơi đơn hơn là phát hiện ra những cân bằng bền vững, và việc chúng thay đổi ra sao theo thời gian. Vì vậy giờ đây chúng ta xây dựng mô hình các chiến lược tự thân khi chơi với nhau. Một chiến lược được coi là “tốt hơn” chiến lược khác khi nó để lại nhiều bản sao của nó cho những thế hệ tiếp theo, khi trò chơi sẽ được chơi lại. Chúng ta nghiên cứu những thay đổi trong việc phân phối các chiến lược trong cư dân như là trật tự của việc mở rộng các trò chơi. Đối với lý thuyết trò chơi động, chúng tôi giới thiệu một khái niệm cân bằng (theo Maynard Smith 1982). Một tập chiến lược theo một tỷ lệ đặc biệt (chẳng hạn 1/3:2/3, ẵ, 1/9:8/9, 1/3:1/3:1/6:1/6 – luôn luôn có tổng là 1) ở một ESS (Evolutionary Stable Strategy) cân bằng ngay trong trường hợp (1) không cá nhân nào chơi một chiến lược lại có thể cải thiện được tính thích ứng tái sinh sản của nó bằng cách chuyển sang một trong những chiến lược khác theo tỷ lệ, và (2) không một biến dị nào chơi một chiến lược khác lại hoàn toàn có thể tự mình hình thành (“xâm lược”) trong cư dân.
Các nguyên tắc của lý thuyết trò chơi tiến hóa được lý giải tốt nhất thông qua các ví dụ. Skyrms bắt đầu bằng việc khảo sát các điều kiện trong đó một ý nghĩa công lý được hiểu như là một khuynh hướng để coi những phân chia bình đẳng các nguồn là công bằng trừ khi những xem xét về mặt hiệu quả gợi ý khác đi trong những trường hợp đặc biệt – có thể xuất hiện. Ông đề nghị chúng ta xem xét một cư dân trong đó các cá thể gặp nhau đều đặn và phải thương lượng về các nguồn.
Bắt đầu với ba loại cá thể:
a. Những người ưa công bằng luôn luôn yêu cầu một nửa các nguồn
b. Những người tham lam luôn luôn yêu cầu nhiều hơn một nửa. Khi một người tham lam đối mặt với một người tham lam khác thì họ lãng phí các nguồn vào việc tranh giành nó.
c. Những người khiêm tốn luôn luôn yêu cầu ít hơn một nửa các nguồn. Khi một người khiêm tốn đối mặt với một người khiêm tốn khác thì họ lấy ít hơn toàn bộ các nguồn có sẵn và lãng phí một số lượng nào đó.
Mỗi cuộc đọ sức đơn lẻ nơi mà tổng số cá thể yêu cầu tổng cộng lên đến 100% thì là một cân bằng Nash của cái trò chơi cá nhân đó. Tương tự như vậy, có thể có nhiều cân bằng động. Giả sử rằng những người tham lam yêu cầu 2/3 tổng số các nguồn và những người khiêm tốn yêu cầu 1/3. Vậy thì có 2 phần là các chiến lược tiến hóa bền vững ESSs:
- Một nửa cư dân tham lam và một nửa khiêm tốn. Chúng ta có thể tính khoản được trả trung bình ở đây. Những người khiêm tốn lấy 1/3 các nguồn trong mỗi cuộc đối đầu. Người tham lam lấy 2/3 khi cô ta gặp người Khiêm tốn, nhưng lại không được gì khi cô ta gặp người tham lam khác. Vì vậy khoản nhận được trung bình của cô ta cũng là 1/3. Đây là một ESS bởi vì Người công bằng không thể xâm phạm đến kẻ khác. Khi người Công bằng gặp người Khiêm tốn anh ta nhận 1/2. Nhưng khi Người công bằng gặp Người tham lam anh ta không nhận được gì. Vì vậy cái khoản nhận được trung bình của anh ta chỉ là 1/4. Không có Người khiêm tốn nào có một động cơ để thay đổi các chiến lược, và cũng không có bất cứ Người tham lam nào làm như vậy. Một người Công bằng đột biến xuất hiện trong dân cư sẽ chơi kém nhất, và sự lựa chọn như vậy sẽ không cổ vũ cho sự truyền bá của bất cứ đột biến nào như vậy.
- Toàn bộ những người chơi đều là Người công bằng. Mỗi người luôn luôn nhận một nửa các nguồn, và không người nào có thể chơi tốt hơn bằng cách thay đổi thành một chiến lược khác. Những người tham lam tham gia vào cư dân này phải đối diện với những người công bằng và nhận một khoản được trả trung bình bằng 0. Những người khiêm tốn nhận 1/3 như trước, nhưng phần này lại ít hơn phần của người Công bằng là 1/2. Cần lưu ý rằng cân bằng (i) là không hiệu quả, vì khoản trung bình nhận được đối với toàn bộ cư dân thì nhỏ hơn. Tuy nhiên hệt như vậy các kết quả không hiệu quả có thể là các cân bằng Nash NE của các trò chơi tĩnh tại này, vì vậy chúng có thể là những cân bằng NE động của ESS.
Chúng tôi qui vào các cân bằng trong đó xuất hiện nhiều hơn một chiến lược với tư cách là những đa hình. Nhìn chung trong trò chơi Skyrms, bất cứ đa hình nào trong đó những Người tham lam yêu cầu x và Người khiêm tốn yêu cầu 1 – x thì đó là một ESS. Vấn đề là ở chỗ những lợi ích mà người nghiên cứu công bằng quan tâm lại chính là khả năng có thể xảy ra tương đối với những gì mà các cân bằng khác xuất hiện.
Điều này phụ thuộc hoàn toàn vào các cân xứng chiến lược trong tình trạng cư dân gốc. Nếu cư dân đó bắt đầu với nhiều hơn một Người công bằng thì có một xác suất nào đó mà Người công bằng sẽ đối diện với nhau, và lấy phần được chia trung bình có thể là cao nhất. Những Người khiêm tốn tự thân họ không ngăn cản sự mở rộng của những Người công bằng; chỉ có những người tham lam mới làm như vậy. Nhưng những người tham lam, tự thân họ lại phụ thuộc vào việc có những người khiêm tốn ở xung quanh để có thể tồn tại và trụ vững. Vậy là trong cư dân xuất hiện nhiều người công bằng hơn liên quan đến các cặp Tham lam và Khiêm tốn, thì những người công bằng ưu tú hơn sẽ chơi ở mức trung bình. Điều đó ám chỉ một hiệu quả ngưỡng. Nếu tỷ lệ những người công bằng rớt thấp dưới 33% thì khuynh hướng đối với họ sẽ là rơi vào tuyệt chủng vì họ thường không thể thỏa mãn nhau được. Nếu cư dân của những người công bằng tăng lên trên 33% thì khuynh hướng đối với họ sẽ là tăng đến mức ổn định vì những mối lợi gia tăng của họ khi họ có thể đáp ứng được cho nhau thì nó sẽ bù đắp cho những mất mát của họ khi họ gặp những người tham lam. Bạn có thể thấy điều này bằng cách lưu ý rằng khi mỗi chiến lược được sử dụng khoảng 33% cư dân thì tất cả đều nhận một khoản được trả là 1/3. Vì vậy bất cứ chiến lược nào vượt lên trên ngưỡng này về phía những người Công bằng sẽ có khuynh hướng đẩy họ đến cố định hóa. Kết quả này chỉ ra rằng bằng cách nào mà các điều kiện tương đối tổng thể nhất định đã cho, công lý như chúng ta đã định nghĩa có thể xuất hiện một cách năng động. Tin tức cho những người hâm mộ công lý sẽ trở nên đáng phấn khởi hơn nếu chúng ta giới thiệu lối chơi tương liên.
Cái mô hình mà chúng ta vừa mới xem xét giả định rằng các chiến lược không liên hệ gì với nhau, có nghĩa là xác suất mà mỗi chiến lược thỏa mãn một chiến lược khác là một hàm đơn của những tần số xuất hiện có liên quan trong cư dân. Giờ đây chúng ta hãy xem xét cái gì xảy ra trong trò chơi phân chia nguồn lực động của chúng ta khi chúng ta giới thiệu thế tương liên. Giả định rằng những người công bằng có đôi chút khả năng để phân biệt và tìm ra những người công bằng khác như là các bên đối tác tương liên. Trong trường hợp đó những người công bằng trung bình chơi tốt hơn và điều này phải có hiệu quả của việc làm thấp đi cái ngưỡng của họ để chuẩn bị đi đến cố định hóa. Một người xây dựng mô hình trò chơi động nghiên cứu các hiệu quả của mối tương liên và các giới hạn tham số khác bằng phương pháp vận hành các mô phỏng computer lớn trong đó các chiến lược cạnh tranh với nhau hết vòng nọ đến vòng kia trong môi trường ảo. Những cân xứng ban đầu của các chiến lược và bất kỳ cấp độ tương quan lựa chọn nào đều đơn giản có thể được thiết lập trong chương trình. Vậy thì người ta có thể nhìn vào động thái của nó trải ra theo thời gian, và đo lường tỷ lệ thời gian mà nó dừng lại trong bất cứ một cân bằng nào. Những tỷ lệ này được thể hiện bằng các kích cỡ tương đương của các vùng hấp lực đối với các cân bằng khả thể khác nhau. Các cân bằng là những điểm hấp dẫn trong một không gian động; một vùng hấp lực cho mỗi điểm như vậy là một tập hợp các điểm trong không gian mà từ đó cư dân kia sẽ hội tụ thành sự cân bằng đã được đặt ra.
Khi đưa mối tương quan vào mô hình của mình, trước hết Skyrms đã thiết lập mức độ tương liên ở một điểm rất nhỏ 1) điều đó làm cho vùng hấp lực cân bằng (i) để co rút lại bằng một nửa. Khi mức độ tương liên được thiết lập thành 2) vùng đa hình sẽ qui giản thành điểm mà ở đó cư dân kia bắt đầu trở thành đa hình. Vì vậy những số lượng tương liên rất nhỏ tăng lên đã tạo ra những số lượng tăng tỷ lệ lớn trong tính bền vững của sự cân bằng mà ở đó mỗi tay chơi đều chơi như một người công bằng. Một số lượng nhỏ mối tương liên tăng lên là một định đề hữu lý trong hầu hết các cư dân mà ở đó những người hàng xóm có khuynh hướng tương tác với một người khác và bắt chước một người khác (cả về phương diện di truyền hoặc vì những thiên hướng trở thành bản sao của nhau một cách cố ý), và vì về phương diện di truyền những động vật tương tự dường như thích sống trong các môi trường chung hơn. Vì vậy nếu sự công bằng có thể xuất hiện toàn bộ thì nó sẽ có khuynh hướng trở thành thống trị và bền vững. Hầu hết triết học chính trị đều bao gồm những cố gắng để sản xuất ra các lý lẽ định chuẩn diễn dịch nhằm thuyết phục một tác nhân không ưa công bằng rằng cô ta có những lý do để hành động một cách công bằng. Phân tích của Skyrms đã đưa ra một cách tiếp cận hoàn toàn khác. Người công bằng sẽ chơi tốt trong một trò chơi động nếu anh ta thực hiện những bước tích cực để bảo toàn sự tương liên. Vì vậy có một sức ép tiến hóa đối với cả những thể chế tiếp cận đạo đức của công lý và các thể chế công lý làm cho chúng xuất hiện. Hầu hết mọi người có thể nghĩ rằng những cách chia 50-50 là công bằng và duy trì một cách xứng đáng bằng sự thừa nhận cũng như bằng phần thưởng đạo đức và thể chế vì chúng ta là những sản phẩm của một trò chơi năng động thúc đẩy chúng ta suy nghĩ theo khuynh hướng này.
Đề tài được nhiều người quan tâm nhất từ các nhà lý thuyết trò chơi tiến hóa là lòng vị tha, được xác định là bất cứ hành vi nào của một sinh vật nhằm làm giảm đi khả năng truyền gen mong muốn cho các thế hệ sau trong một tương tác đơn, nhưng lại làm tăng khả năng đó cho kẻ tương tác khác. Điều đó rất thông dụng trong tự nhiên. Tuy nhiên đấu tranh sinh tồn Darwin đã xuất hiện thế nào? Skyrms nghiên cứu vấn đề này bằng cách sử dụng Nan đề Người tù động làm ví dụ của mình. Đây chỉ đơn giản là một loạt trò chơi PD trong một cư dân, trong đó một vài thành viên là những kẻ bội ước và một số là những người hợp tác. Các khoản được trả, khi luôn luôn ở trong những trò chơi động, được đo lường bằng khuôn khổ của những số lượng bản sao của mỗi chiến lược trong các thế hệ tương lai.
Chúng ta hãy coi U(A) là khả năng truyền gen trung bình của chiến lược A trong cư dân. Hãy coi U là khả năng truyền gen trung bình của toàn bộ cư dân. Vậy là sự cân xứng chiến lược A trong thế hệ tiếp theo thực sự là tỷ lệ U(A)/U. Vậy thì nếu A có khả năng truyền gen lớn hơn thì mức độ trung bình A của cư dân tăng lên. Nếu A có khả năng truyền gen thấp hơn mức độ trung bình của cư dân thì A giảm.
Trong trò chơi PD động mà ở đó mối tương tác là hiếm hoi (tức là không có tương liên), thì những tay chơi bội ước sẽ chơi tốt hơn mức độ trung bình của cư dân chừng nào có những tay chơi hợp tác xung quanh. Điều này kéo theo một thực tiễn là như chúng ta đã thấy ở phần 2.4, sự bội ước luôn luôn là một chiến lược thống trị trong một trò chơi đơn. Vì vậy 100% bội ước là ESS trong trò chơi động không có tương liên, phù hợp với cân bằng Nash trong trò chơi PD tĩnh một lần duy nhất. Tuy nhiên việc giới thiệu khả năng tương liên đã làm thay đổi tận gốc dễ vấn đề. Giờ đây chúng ta cần tính toán khả năng truyền gen trung bình của một chiến lược có xác suất nhất định của chiến lược có thể thỏa mãn nhau. Trong trò chơi PD động, những người hợp tác có xác suất thỏa mãn những người hợp tác khác cao thì chơi tốt hơn những người bội ước mà xác suất thỏa mãn những người bội ước khác cao. Vì vậy tương liên hỗ trợ cho sự hợp tác. Để có thể nói một điều gì đó chính xác hơn về mối quan hệ giữa tương liên và hợp tác ấy (và để có thể liên hệ lý thuyết trò chơi tiến hóa với các vấn đề trong lý thuyết quyết định, một vấn đề nằm ngoài phạm vi bài báo này), Skyrms đã giới thiệu một khái niệm kỹ thuật mới. Ông gọi một chiến lược là có thể chấp nhận về phương diện thích nghi nếu có một vùng xung quanh điểm cố định của nó trong không gian động từ bất cứ nơi nào trong vùng đó thì nó sẽ đi tới cố định. Trong trò chơi PD động, cả bội ước và hợp tác đều có thể được chấp nhận về phương diện thích nghi. Kích cỡ có liên quan của các vùng hấp lực nhạy cảm rất cao đối với các cơ chế mà sự tương liên đạt được. Để minh họa cho vấn đề này, Skyrms đã đưa ra một số ví dụ.
Một trong những mô hình của Skyrms đã giới thiệu mối tương quan bởi phương tiện là một bộ lọc theo cặp do sự tương tác. Giả sử rằng trong vòng 1 của trò chơi PD động các cá nhân kiểm soát nhau và tương tác, hoặc không, đều tùy thuộc vào cái mà họ phát hiện ra. Trong vòng chơi thứ hai và các vòng tiếp theo tất cả các cá nhân không chơi thành cặp trong vòng 1 thì hiếm khi cặp với nhau. Trong trò chơi này, vùng hấp lực cho sự bội ước là rộng lớn trừ khi có một tỷ lệ cao những người hợp tác trong vòng 1. Trong trường hợp này những người bội ước không thể chơi cặp trong vòng 1 được, sau đó họ hầu hết chơi cặp với nhau trong vòng 2 và dẫn nhau đến tuyệt diệt. Một mô hình thú vị hơn vì cơ chế của nó ít giả tạo, không cho phép các cá nhân lựa chọn các đối tác của họ, nhưng lại đòi hỏi họ tương tác với những đối tác gần gũi với họ nhất. Bởi vì những mối quan hệ di truyền (hoặc học văn hóa bằng cách sao chép) nên dường như các cá nhân tương đồng với các hàng xóm của họ hơn là không. Nếu nhóm cư dân hữu hạn này được dàn trận theo một phương (tức là dọc theo một tuyến) và tất cả những người hợp tác và những người bội ước hiếm khi đều được đưa vào các vị trí cùng với nó thì chúng ta sẽ có được động thái dưới đây. Những người hợp tác biệt lập có khả năng truyền gen mong muốn thấp hơn những người bội ước xung quanh và bị dẫn một cách cục bộ tới tuyệt diêt.
Các thành viên của các nhóm thuộc hai người hợp tác có một xác suất 50% tương tác với nhau, và 50% tương tác với những người bội ước. Kết quả là khả năng truyền gen mong đợi trung bình của họ vẫn nhỏ hơn khả năng của những người hàng xóm bội ước và họ cũng phải đối mặt với khả năng tuyệt diệt. Các nhóm ba người hợp tác tạo thành một điểm không bền vững mà từ đó cả sự tuyệt diệt lẫn sự phát triển đều ngang bằng nhau. Tuy nhiên trong các nhóm 4 người hoặc số người hợp tác nhiều hơn thì ít nhất là một sự đối đầu của một người hợp tác với một người hợp tác khác chí ít cũng đủ để đảm bảo thay thế nhóm nguyên gốc. Trong hoàncảnh đó, những người hợp tác tạo thành một nhóm thì chơI tốt hơn những người bội ước xung quanh và chi phí của họ tăng lên. Cuối cùng những người hợp tác hầu như đi đến cố định – nhưng không hoàn toàn. Những người bội ước đơn độc ở ngoại vi của cư dân làm hại những người hợp tác ở những vòng cuối cùng và sống sót như những cộng đồng “tội phạm” nhỏ. Vì vậy chúng ta thấy rằng lòng vị tha có thể không chỉ được duy trì bởi động thái của các trò chơi tiến hóa, mà với mối tương liên, nó thậm chí có thể phát triển và định cư ở những cư dân có về nguồn gốc là không có lòng vị tha.
Vì vậy động thái Darwin đưa ra những tin tức có chất lượng tốt cho sự hợp tác. Tuy nhiên cần phải nhớ rằng điều này chỉ đứng vững chừng nào các cá nhân còn bị mắc kẹt với các chương trình văn hóa hoặc tự nhiên của họ và không thể tái định giá các tiện ích cho chính bản thân họ. Nếu các tác nhân của chúng ta quá thông minh và linh họat thì họ có thể nhận ra rằng họ đang chơi các trò chơi PD và có lẽ tất cả đều bị thất bại. Cuối cùng trong trường hợp này, họ thực sự đưa bản thân mình đến tuyệt diệt – trừ khi họ phát triển những chuẩn mực đạo đức hiệu quả và bền vững nhằm củng cố sự hợp tác. Nhưng tất nhiên đây chỉ là những cái mà chúng ta mong muốn làm tiến triển trong các cư dân động vật mà các cấp độ khả năng truyền gen trung bình của chúng được liên kết chặt chẽ với các khả năng hợp tác xã hội thành công của chúng. Ngay cho dù như vậy thì các cư dân này cũng sẽ tuyệt diệt ngoại trừ chúng quan tâm đến các thế hệ tương lai vì một lý do nào đó. Nhưng không hề có những lý do chính đáng để chúng ta suy nghĩ về việc tại sao các tác nhân nên quan tâm đến các thế hệ tương lai nếu như mỗi thế hệ mới lại thay thế toàn bộ những thế hệ đi trước ở mỗi thay đổi của các nhóm người. Vì lý do này các nhà kinh tế sử dụng mô hình “trồng xếp thế hệ” khi xây dựng mô hình các trò chơi phân phối. Các cá nhân trong thế hệ 1 - những người kéo dài đến thế hệ 5 – sẽ tiết kiệm các nguồn cho thế hệ 3 là những người mà họ muốn hợp tác cùng; và đến thế hệ 3 thì các cá nhân mới sẽ quan tâm đến thế hệ 6; vầ vv….
7. Lý thuyết Trò chơi và Bằng chứng Hành vi
Trong các phần trước chúng ta đã xem xét một số vấn đề xuất hiện từ việc xử lý lý thuyết trò chơi cổ điển (không tiến hóa) như một lý thuyết định chuẩn là thứ thể hiện cho người ta về cái mà người ta phải làm nếu họ muốn trở thành duy lý trong các tình huống chiến lược. Vấn đề khó khăn như chúng ta thấy là hình như không có một khái niệm giải pháp mà chúng ta có thể dứt khoát phó thác cho mọi tình huống. (Trong các trò chơi loại hình mở rộng thuộc lĩnh vực thông tin hoàn hảo, cũng tồn tại vấn đề nghịch lý của sự qui nạp ngược). Tuy nhiên chúng ta lưu ý rằng sự khước từ này không áp dụng cho lý thuyết trò chơi được coi là một dạng toán học là thứ có thể dùng để mô tả hành vi thực. Vậy thì rất tự nhiên xuất hiện một câu hỏi: Có phải lý thuyết trò chơi đã thực sự giúp đỡ cho các nhà nghiên cứu kinh nghiệm chủ nghĩa thực hiện các phát hiện mới về hành vi (con người hoặc cái gì khác nữa)? Nếu vậy thì nói chung là cái gì là nội dung của những phát hiện này?
Khi ấn định câu hỏi này, chúng ta phải đứng trước một vấn đề tri thức luận trực tiếp. Không có các nào áp dụng lý thuyết trò chơi như là một thứ mà “mọi thứ đều bởi chính bản thân nó” một cách độc lập khỏi việc xây dựng mô hình các công nghệ. Khi sử dụng tiêu chuẩn thuật ngữ trong triết học khoa học, người ta có thể kiểm tra một mô hình lý thuyết trò chơi của một hiện tượng chỉ trong trường hợp người nọ sau người kia với “các định đề phụ” về hiện tượng được đặt ra. Tối thiểu thì điều này cũng xảy ra nếu ai đó tuyệt đối xử lý lý thuyết trò chơi thuần túy như một phép toán mà không có nội dung kinh nghiệm chủ nghĩa của riêng bản thân nó. Theo một nghĩa nào đó, một lý thuyết không có nội dung kinh nghiệm chủ nghĩa thì sẽ không bao giờ để ngỏ cho sự kiểm nghiệm; người ta có thể chỉ băng khoăn về việc là liệu các tiên đề của một lý thuyết là luôn nhất quán. Dù sao thì một lý thuyết toán cũng có thể được đánh giá liên quan đến tính chất hữu dụng mang tính kinh nghiệm chủ nghĩa. Một loại phê phán triết học đôi khi cũng được thực hiện bằng lý thuyết trò chơi, được lý giải như là một công cụ toán học để xây dựng mô hình các hiện tượng hành vi, có nghĩa là việc ứng dụng nó luôn luôn hoặc thường xuyên yêu cầu viện đến các định đề sai, giả hoặc thô giản về những hiện tượng này. Chúng ta hy vọng sự phê phán này có những mức độ sức mạnh khác nhau trong những khung cảnh ứng dụng khác nhau khi những định đề phụ là khác biệt nhau.
Hóa ra vấn đề là như vậy. Không có lĩnh vực nào thú vị trong đó những ứng dụng lý thuyết trò chơi lại hoàn toàn không gây tranh cãi. Tuy nhiên đã có những đồng thuận dễ dàng hơn về việc tại sao lại sử dụng lý thuyết trò chơi (cả cổ điển lẫn tiến hóa) để hiểu hành vi động vật không phải con người hơn là việc làm thế nào để triển khai nó nhằm lý giải và tiên đoán của mọi người. Trước hết chúng ta hãy xem xét một cách vắn tắt các vấn đề triết học và phương pháp luận đã xuất hiện xung quanh việc ứng dụng lý thuyết trò chơi trong sinh học không phải người, trước khi chúng ta chú ý đầy đủ hơn đến khoa học xã hội về lý thuyết trò chơi.
Việc xây dựng mô hình lý thuyết trò chơi ít gây tranh cãi nhất chính là việc ứng dụng loại hình cổ điển của lý thuyết vào việc xem xét các chiến lược bằng cách các động vật không phải là người nào tìm cách để đạt được các nguồn cơ bản thích hợp với trận đấu tiến hóa của chúng: các cơ hội để sinh sản các thế hệ tiếp theo tự thân chúng đều có vẻ là tái sinh sản. Vì vậy để tối đa hóa khả năng di truyền đáng mong muốn của chúng, các loài động vật phải tìm được các cân bằng tối ưu trong số các hàng hóa trung gian khác nhau, chẳng hạn như dinh dưỡng, tránh bị ăn thịt và có khả năng cạnh tranh với các đối thủ trong việc chọn bạn tình. Các điểm cân bằng tối ưu có hiệu quả trong số các loại hàng hóa này có thể thường được ước tính cho các loài đặc biệt trong các điều kiện môi trường đặc biệt, và dựa trên cơ sở của các ước lượng này, cả cân bằng tham số và cân bằng phi tham số đều có thể được phát sinh. Các mô hình thuộc loại này có một kỷ lục để lại dấu vết đầy ấn tượng trong việc dự đoán và lý giải các dữ liệu kinh nghiệm độc lập về những hiện tượng chiến lược như khai thác cạnh tranh, chọn bạn tình, bè phái, kình địch chị em anh em ruột, tập hợp thành bầy đàn, đề phòng động vật ăn thịt, ra dấu hiệu, chải chuốt cho nhau, phụ thuộc lẫn nhau (cộng sinh).
Còn nữa…
Tác giả: Don Ross là Giáo sư Triết học tại Đại học Alabama ở Birmingham, Giáo sư Kinh tế học tại Đại học Cape Town, Nam Phi. Công trình chủ yếu: Economic Theory and Cognitive Science: Microexplanation (MIT Press, 2005).
Nguyên văn: Game Theory, The Stanford Encyclopedia of Philosophy (Fall 2010 Edition), Edward N. Zalta (ed.), First published Sat Jan 25, 1997; substantive revision Wed May 5, 2010
References
Baird, D., Gertner, R., and Picker, R. (1994). Game Theory and the Law. Cambridge, MA: Harvard University Press.
Binmore, K., Kirman, A., and Tani, P. (eds.) (1993). Frontiers of Game Theory. Cambridge, MA: MIT Press
Binmore, K. (1998). Game Theory and the Social Contract (v. 2): Just Playing. Cambridge, MA: MIT Press.
Camerer, C. (2003). Behavioral Game Theory: Experiments in Strategic Interaction. Princeton: Princeton University Press.
Danielson, P. (ed.) (1998). Modelling Rationality, Morality and Evolution. Oxford: Oxford University Press.
Fudenberg, D., and Tirole, J. (1991). Game Theory. Cambridge, MA: MIT Press.
Gintis, H. (2004). Towards the Unity of the Human Behavioral Sciences. In Philosophy, Politics and Economics 31:37-57.
Guala, F. (2005). The Methodology of Experimental Economics. Cambridge: Cambridge University Press.
Krebs, J., and Davies, N.(1984). Behavioral Ecology: An Evolutionary Approach. Second edition. Sunderland: Sinauer.
Kreps, D. (1990). A Course in Microeconomic Theory. Princeton: Princeton University Press.
McMillan, J. (1991). Games, Strategies and Managers. Oxford: Oxford University Press.
Nash, J. (1950b). The Bargaining Problem. In Econometrica 18:155-162.
Nash, J. (1951). Non-cooperative Games. In Annals of Mathematics Journal 54:286-295.
Ormerod, P. (1994). The Death of Economics. New York: Wiley.
Rawls, J. (1971). A Theory of Justice. Cambridge, MA: Harvard University Press.
Robbins, L. (1931). An Essay on the Nature and Significance of Economic Science. London: Macmillan.
Ross, D. 2005. Evolutionary Game Theory and the Normative Theory of Institutional Design: Binmore and Behavioral Economics.In Politics, Philosophy and Economics, forthcoming.
Samuelson, L. (2005). Economic Theory and Experimental Economics. In Journal of Economic Literature 43:65-107.
Selten, R. (1975). Re-examination of the Perfectness Concept for Equilibrium Points in Extensive Games. In International Journal of Game Theory 4:22-55.
Sigmund, K. (1993). Games of Life. Oxford: Oxford University Press.
Smith, V. (1982). Microeconomic Systems as an Experimental Science. In American Economic Review 72:923-955.
Sober, E., and Wilson, D.S. (1998). Unto Others. Cambridge, MA: Harvard University Press.
Tomasello, M., M. Carpenter, J. Call, T. Behne and H. Moll (2004). Understanding and Sharing Intentions: The Origins of Cultural Cognition. In Behavioral and Brain Sciences, forthcoming.
Vallentyne, P. (ed.). (1991). Contractarianism and Rational Choice. Cambridge: Cambridge University Press.
von Neumann, J., and Morgenstern, O., (1947). The Theory of Games and Economic Behavior. Princeton: Princeton University Press, 2nd edition.
Weibull, J. (1995). Evolutionary Game Theory. Cambridge, MA: MIT Press.
Yaari, M. (1987). The Dual Theory of Choice Under Risk. In Econometrica 55:95-115.
Young, H.P. (1998). Individual Strategy and Social Structure. Princeton: Princeton University Press.
Người dịch: Hà Hữu Nga