Dilema tahanan

Dari Wikipedia bahasa Indonesia, ensiklopedia bebas

Dilema tahanan (DT) adalah contoh kanonis dari sebuah permainan yang dianalisis dalam teori permainan yang memperlihatkan mengapa dua individu mungkin tidak akan bekerja sama, bahkan jika demi kebaikan mereka sendiri untuk melakukan hal tersebut. Ia diciptakan pada mulanya oleh Merrill Flood dan Melvin Dresher yang bekerja di RAND pada tahun 1950. Albert W. Tucker memformulasikan permainan tersebut dengan imbalan hukuman penjara dan menamakannya dengan "dilema tahanan" (Poundstone, 1992), seperti cerita berikut:

Dua anggota geng kriminal tertangkap dan dipenjara. Setiap tahanan berada dalam ruangan tersendiri tanpa bisa saling berbicara atau menukar pesan. Polisi mengakui bahwa mereka tidak memiliki cukup bukti untuk menghukum pasangan tersebut. Mereka berencana menghukum keduanya satu tahun penjara dengan dakwaan terendah. Bersamaan dengan itu, polisi memberikan setiap tahanan sebuah penawaran Faustian. Jika salah satu dari mereka bersaksi melawan teman mereka, ia akan dibebaskan sedangkan temannya akan dihukum tiga tahun penjara. Oh, ya, ada udang di balik batu ... Jika kedua tahanan saling bersaksi, keduanya akan dihukum dua tahun penjara.

Dalam versi klasik permainan ini, kolaborasi didominasi oleh pengkhianatan; jika seorang tahanan memilih untuk tetap diam, maka tahanan lain mendapatkan balasan lebih baik dengan berkhianat daripada tetap diam (tanpa dihukum bukannya satu tahun penjara), tetapi jika seorang tahanan memilih untuk berkhianat, maka tahanan lain masih tetap mendapatkan imbalan yang cukup baik dengan berkhianat juga (dua tahun bukannya tiga tahun penjara). Karena berkhianat selalu memberikan imbalan lebih daripada berkooperasi, semua tahanan yang sepenuhnya rasional egois akan mengkhianati yang lainnya, dan satu-satunya hasil dari dua tahanan rasional egois adalah saling mengkhianati. Bagian yang menarik dari hasil ini adalah mengejar imbalan individu secara logika mengarah pada kedua tahanan berkhianat, tetapi mereka akan mendapatkan imbalan yang lebih baik jika mereka saling berkooperasi. Dalam dunia nyata, manusia memperlihatkan bias sistematis terhadap perilaku kooperatif dalam permainan ini dan permainan yang mirip lainnya, lebih dari apa yang diprediksi oleh model sederhana dari aksi "rasional" egoistis. [1] [2] [3] [4]

Ada juga versi "iteratif" dari permainan ini, di mana permainan klasik dimainkan terus menerus terhadap tahanan yang sama, dan akibatnya, kedua tahanan terus menerus memiliki kesempatan untuk menghukum yang lain berdasarkan pilihan mereka sebelumnya. Jika jumlah permainan yang dilakukan diketahui oleh pemain, maka (dengan induksi mundur) duah tahanan yang sepenuhnya rasional akan saling mengkhianati berulang kali, dengan alasan yang sama pada versi klasiknya. Dalam permainan yang panjang dan tak terbatas tidak ada strategi pasti yang optimal, dan pertandingan Dilema Tahanan telah dilakukan untuk mengadu dan menguji algoritme-algoritme.

Dalam penggunaan sehari-hari, label "dilema tahanan" bisa diterapkan pada situasi yang tidak harus benar-benar sama dengan kriteria formal dari permainan klasik atau iteratif: misalnya, permainan dengan dua entitas yang bisa mendapatkan keuntungan dari berkooperasi atau menderita dari kegagalan berkooperasi, tetapi menemukannya sulit atau membutuhkan biaya tinggi, tidak harus sesuatu yang mustahil, untuk mengkoordinasi aktivitas mereka untuk berkooperasi.

Strategi untuk dilema tahanan klasik[sunting | sunting sumber]

Permainan yang normal diperlihatkan seperti di bawah:

Tahanan B tetap diam (kooperasi) Tahanan B berkhianat (bertahan)
Tahanan A tetap diam (kooperasi) Setiapnya dihukum 1 tahun Tahanan A: 3 tahun
Tahanan B: bebas
Tahanan A berkhianat (bertahan) Tahanan A: bebas
Tahanan B: 3 tahun
Setiapnya dihukum 2 tahun

Di sini, tanpa memperhatikan apa yang orang lain pilih, setiap tahanan mendapatkan imbalan yang tinggi dari berkhianat (bertahan). Alasannya mengikutkan sebuah argumen dengan dilema: B akan memilih berkooperasi atau bertahan. Jika B berkooperasi, A seharusnya bertahan, karena menjadi bebas lebih baik daripada dipenjara 1 tahun. Jika B bertahan, A juga seharusnya bertahan, karena dipenjara 2 tahun lebih baik daripada 3 tahun. Jadi pilihan manapun, A seharusnya bertahan. Alasan yang sama juga akan memperlihatkan kenapa B juga harus bertahan.

Sebagai contohnya, Tahanan A bisa (seperti pada tabel imbalan di atas) mengatakan bahwa apapun yang dipilih tahanan B, tahanan A akan lebih baik bila 'berkhianat' (bertahan) daripada tetap diam (kooperasi).

Dalam teori permainan tradisional, beberapa asumsi terbatas berlaku terhadap perilaku tahanan. Diasumsikan bahwa keduanya memahami alur dari permainan, dan walaupun keduanya dari anggota geng yang sama, mereka tidak memiliki loyalitas terhadap satu sama lain dan tidak memiliki kesempatan untuk retribusi atau melakukan pembalasan di luar permainan. Yang paling penting, interpretasi yang sangat sempit dari "rasionalitas" diterapkan dalam mendefinisikan strategi-strategi pemilihan-keputusan dari tahanan. Dengan kondisi-kondisi dan imbalan seperti di atas, tahanan A akan mengkhianati tahanan B. Permainan ini simetris, sehingga tahanan B akan beraksi dengan cara yang sama. Secara keduanya "secara rasional" memilih untuk bertahan, setiap mereka memperoleh imbalan lebih rendah daripada jika keduanya tetap diam. Teori permainan tradisional membuat kedua pemain mendapatkan hasik yang buruk kecuali jika tiap-tiap mereka memilih untuk mengurangi hukuman teman mereka dengan biaya memberikan waktu lebih di penjara bagi mereka sendiri.

Bentuk umum[sunting | sunting sumber]

Struktur dari Dilema Tahanan tradisional dapat digeneralisasi dari bentuk tahanan aslinya. Misalkan dua pemain direpresentasikan oleh warna, merah dan biru, dan setiap pemain memilih baik itu "Kooperasi" atau "Bertahan".

Jika kedua pemain berkooperasi, mereka menerima imbalan, R, untuk kooperasi. Jika Biru bertahan sementara Merah berkooperasi, maka Biru menerima godaan, imbalan T sementara Merah menerima imbalan S, "si pecundang". Hal yang sama, jika Biru berkooperasi sementara Merah bertahan, maka Biru menerima imbalan si pecundang S sementara Merah menerima imbalan godaan, T. Jika kedua pemain bertahan, keduanya menerima hukuman imbalan P.

Hal ini bisa diekspresikan dalam Bentuk normal:

Matriks imbalan DT kanonis
Kooperasi Bertahan
Kooperasi R, R S, T
Bertahan T, S P, P

dan supaya permainan dilema tahanan menjadi bentuk kuat, kondisi berikut harus berlaku bagi imbalannya:

T > R > P > S

Hubungan imbalan R > P menyiratkan bahwa saling kooperasi lebih tinggi daripada saling bertahan, sementara hubungan imbalan antara T > R dan P > S menyiratkan bahwa bertahan adalah strategi dominan bagi kedua agen. Oleh karena itu, saling bertahan adalah satu-satunya ekuilibrium Nash dalam permainan (yaitu, satu-satunya hasil dari setiap pemain dapat lakukan lebih buruk dengan secara sepihak mengganti strategi). Dilemanya adalah saling kooperasi mengeluarkan hasil lebih baik daripada saling bertahan tetapi bukan hasil yang rasional karena pilihan untuk berkooperasi, pada tingkat individu, bukanlah rasional dari pandangan egoistis.

Dilema tahanan berulang[sunting | sunting sumber]

Jika dua pemain memainkan dilema tahanan lebih dari satu kali berurutan dan mereka dapat mengingat aksi sebelumnya dari lawan mereka dan mengubah strategi mereka berdasarkan aksi lawan, maka permainannya disebut dilema tahanan berulang (DTB).

Sebagai tambahan dari bentuk umum di atas, versi iteratif juga membutuhkan 2R > T + S, untuk mencegah pergantian kooperasi dan bertahan memberikan imbalan lebih besar daripada saling kooperasi.

Permainan DTB adalah dasar bagi beberapa teori-teori persekutuan dan kooperasi manusia. Dengan asumsi bahwa permainan tersebut dapat memodelkan transaksi antara dua orang yang membutuhkan kepercayaan, perilaku kooperatif dalam populasi bisa dimodelkan dengan versi permainan banyak-pemain dan berulang. Hal tersebut, konsekuensinya, telah menarik banyak ahli selama beberapa tahun. Pada tahun 1975, Grofman dan Pool memperkirakan jumlah artikel ilmiah yang ditujukan untuk ini lebih dari 2.000. Dilema tahanan berulang juga telah disebut sebagai "Permainan perang-damai". [5]

Jika permainan dimainkan pasti N kali dan kedua pemain mengetahui hal tersebut, maka secara teoretis optimasi permainan adalah bertahan di semua ronde. Satu-satunya kemungkinan ekuilibrium Nash adalah untuk selalu bertahan. Pembuktiannya adalah induktif: salah seorang pemain bisa bertahan pada akhir permainan, karena lawan tidak memiliki kesempatan untuk menghukum pemain. Oleh sebab itu, keduanya akan bertahan pada ronde terakhir. Maka, pemain tentunya juga akan bertahan pada ronde kedua terakhir, karena lawan pada akhirnya akan bertahan walau apapun yang terjadi, dan seterusnya. Hal yang sama berlaku jika lama permainan tidak diketahui tetapi memiliki batas atas yang diketahui.

Tidak seperti dilema tahanan biasa, dalam DTB strategi bertahan adalah kontra-intuitif dan gagal memprediksi perilaku dari pemain manusia. Dalam teori ekonomi biasa, bagaimanapun, hal ini merupakan satu-satunya jawaban yang benar. Strategi superrasional dalam DTB dengan N tetap adalah untuk berkooperasi melawan lawan yang superrasional, dan dengan batas N yang besar, hasil percobaan dari strategi-strategi sesuai dengan versi superrasional, bukan dengan teori permainan rasional.

Supaya kooperasi muncul antara pemain dalam permainan teoretis rasional, jumlah ronde N haruslah acak, atau tidak diketahui oleh pemain. Dalam kasus ini 'selalu bertahan' bukan lagi strategi dominan, hanya sebuah ekuilibrium Nash. Di antara hasil-hasil yang diperlihatkan oleh Robert Aumann di sebuah makalah tahun 1959, pemain rasional yang berulang kali berinteraksi dalam permainan yang panjang tak terbatas dapat mengalami hasil kooperatif.

Strategi bagi dilema tahanan berulang[sunting | sunting sumber]

Ketertarikan pada DTB disulut oleh Robert Axelrod dalam bukunya The Evolution of Cooperation (1984). Dalam buku tersebut dia melaporkan sebuah turnamen yang diorganisirnya lewat N langkah dilema tahanan (dengan N tetap) dengan setiap partisipan harus memilih strategi mutual mereka lagi dan lagi, dan memiliki ingatan akan pilihan lawan sebelumnya. Axelrod mengundang teman-teman akademis seluruh dunia untuk merancang strategi komputer untuk berkompetisi dalam turnamen DTB. Program-program yang diajukan memiliki keragaman kompleksitas algoritme, sikap permusuhan awal, kapasitas untuk memaafkan, dan seterusnya.

Axelrod menemukan bahwa saat turnamen tersebut diulang selama waktu yang lama dengan banyak pemain, setiapnya dengan strategi yang berbeda, strategi tamak condong kurang baik dalam jangka panjang sementara strategi altruistik malah lebih baik, dinilai murni dari keegoisan. Dia menggunakan hal ini untuk memperlihatkan mekanisme yang memungkinan bagi evolusi perilaku altruistik dari mekanisme yang awalnya murni egois, dengan seleksi alam.

Strategi deterministik yang menang adalah tit untuk tat, yang Anatol Rapoport kembangkan dan ajukan untuk turnamen. Ia adalah program paling sederhana, hanya memiliki empat baris kode BASIC, dan memenangkan kontes. Strateginya secara sederhana berkooperasi pada iterasi pertama permainan; setelah itu, pemain melakukan apa yang lawannya lakukan sebelumnya. Bergantung pada situasi, strategi yang sedikit lebih baik adalah "tit untuk tat dengan memaafkan." Saat lawan bertahan, pada ronde selanjutnya, si pemain terkadang tetap berkooperasi, dengan probabilitas kecil (sekitar 1-5%). Hal ini membolehkan pemulihan tak berkala dari terperangkap dalam lingkaran bertahan. Probabilitas pastinya bergantung pada lawan.

Dengan menganalisis strategi-strategi top-skor, Axelrod menyatakan beberapa kondisi diperlukan bagi sebuah strategi untuk sukses.

Baik
Kondisi paling penting yaitu strategi haruslah "baik", yakni, ia tidak akan bertahan sebelum lawannya bertahan (hal ini terkadang disebut juga dengan algoritme "optimistik"). Hampir semua strategi top-skor adalah baik; oleh karena itu, strategi yang murni egois tidak akan "menipu" lawannya, murni karena alasan egoistis.
Balas dendam
Namun, Axelrod berpendapat, strategi yang sukses haruslah tidak optimis buta. Ia terkadang harus balas dendam. Salah satu contoh strategi tanpa-pembalasan adalah Selalu Kooperasi. Hal ini adalah pilihan yang buruk, karena strategi-strategi yang "keji" akan mengeksploitasi pemain seperti itu.
Memaafkan
Strategi yang sukses juga harus memaafkan. Walau pemain akan membalas dendam, mereka nantinya akan kembali berkooperasi jika lawan tidak terus bertahan. Hal ini menghentikan balas dendam yang berkepanjangan, memaksimalkan poin.
Tidak iri
Kualitas terakhir adalah menjadi tidak iri, yaitu tidak mencoba mendapatkan nilai lebih dari lawan (perlu diingat bahwa strategi "baik" tidak pernah memperoleh nilai lebih dari lawan).

Strategi optimal untuk DT untuk sekali main adalah bertahan; seperti yang dijelaskan di atas, hal ini benar apapun komposisi dari lawan yang terjadi. Namun, dalam permainan DTB strategi optimal bergantung kepada strategi dari lawan, dan bagaimana mereka bereaksi terhadap bertahan dan kooperasi. Sebagai contohnya, bayangkan sebuah populasi yang setiap orang selalu bertahan, kecuali satu yang menggunakan strategi tit-untuk-tat. Individu tersebut sedikit dirugikan karena kalah pada giliran pertama. Dalam populasi tersebut, strategi optimal bagi individu tersebut adalah untuk selalu bertahan. Dalam sebuah populasi dengan sejumlah persentase selalu-bertahan dan sisanya pemain tit-untuk-tat, strategi optimal bagi seorang individu bergantung kepada persentase selalu-bertahan, dan lama permainan.

Dalam strategi yang dikenal dengan Pavlov, menang-tinggal, kalah-ganti, jika ronde terakhir menghasilkan P,P, pemain Pavlov berganti strategi di giliran selanjutnya, yang berarti P,P akan dianggap sebagai sebuah kegagalan utuk berkooperasi.[butuh rujukan] Untuk beberapa rentang parameter, Pavlov mengalahkan strategi lainnya dengan memberikan perlakuan istimewa bagi pemain lain yang mirip Pavlov.

Menurunkan strategi optimal secara umum dilakukan dengan dua cara:

  1. Ekuilibrium Nash Bayesian: Jika distribusi statistik dari strategi lawan dapat ditentukan (misalnya 50% tit-untuk-tat, 50% selalu kooperasi) sebuah kontra-strategi optimal dapat diturunkan secara analitis.[6]
  2. Simulasi populasi Monte Carlo telah dilakukan, yang mana individu dengan nilai rendah mati, dan yang bernilai tinggi bereproduksi (sebuah algoritme genetis untuk menemukan strategi optimal). Campuran dari algoritme pada populasi akhir pada umumnya bergantung pada campuran pada populasi awal. Munculnya mutasi (variasi acak selama reproduksi) mengurangi kebergantungan pada populasi awal; percobaan empiris untuk sistem seperti itu condong menghasilkan pemain dengan tit-untuk-tat (lihat contohnya Chess 1988), tetapi tidak ada bukti analitis bahwa ini akan selalu terjadi.

Walaupun tit-untuk-tat dianggap sebagai strategi dasar paling kuat, sebuah tim dari Universitas Southampton di Inggris (dipimpin oleh Profesor Nicholas Jennings [1] Diarsipkan 2006-04-10 di Wayback Machine. dan terdiri dari Rajdeep Dash, Sarvapali Ramchurn, Alex Rogers, Perukrishnen Vytelingum) mengenalkan sebuah strategi baru pada peringatan ke-20 kompetisi DTB, yang membuktikan lebih sukses daripada tit-untuk-tat. Strategi ini bergantung pada kooperasi antara program untuk mendapatkan poin tertinggi untuk sebuah program tunggal. Universitas tersebut mengajukan 60 program untuk kompetisi, yang dirancang untuk mengenali satu sama lain lewat sekumpulan lima sampai sepuluh gerakan pada saat mulai. [7] Sekali dikenali, satu program akan selalu kooperasi dan yang lainnya akan bertahan, memastikan jumlah poin maksimal bagi yang bertahan. Jika program tersebut menyadari bahwa ia bermain dengan pemain bukan dari Southampton, ia akan terus menerus bertahan supaya meminimalkan nilai dari program lawan. Sebagai hasilnya, [8] strategi tersebut berakhir mendapatkan posisi tiga teratas dalam kompetisi, sebagaimana juga sejumlah posisi terendah.

Strategi ini mengambil keuntungan dari fakta bahwa beberapa entri dibolehkan dalam kompetisi tersebut dan performansi dari sebuah tim dihitung dari pemain dengan nilai tertinggi (yang berarti bahwa penggunaan pemain yang rela berkorban merupakan sebuah bentuk dari minmaxing). Dalam sebuah kompetisi dengan seseorang hanya bisa mengatur satu pemain saja, tit-untuk-tat sudah pasti strategi yang lebih baik. Karena aturan yang baru ini, kompetisi ini juga memiliki sedikit signifikansi teoretis saat menganalisis strategi-strategi agen tunggal dibandingkan dengan turnamen Axelrod. Namun, ia menyediakan kerangka kerja untuk menganalisis bagaimana mendapatkan strategi-strategi kooperatif dalam kerangka kerja multi-agen, terutama dengan adanya kekacauan. Pada kenyataannya, jauh sebelum aturan baru dari turnamen ini dimainkan, Richard Dawkins dalam bukunya The Selfish Gene menunjukkan kemungkinan strategi tersebut menang jika beberapa entri dibolehkan, tetapi ia mengatakan bahwa kemungkinan Axelrod tidak akan membolehkannya jika mereka telah diajukan. Ia juga bergantung pada aturan-aturan yang melingkupi dilema tahanan yang mana komunikasi tidak dibolehkan antara dua pemain. Saat program Southampton sedang melakukan "tarian sepuluh gerakan" untuk mengenali yang lainnya, hal ini hanya menguatkan bagaimana bernilainya komunikasi dalam mengubah keseimbangan dalam permainan.

Dilema tahanan berulang berkelanjutan[sunting | sunting sumber]

Kebanyakan pekerjaan dalam DTB telah berfokus pada kasus diskrit, dengan pemain bisa kooperasi atau bertahan, karena model tersebut relatif lebih mudah untuk dianalisis. Namun, beberapa peneliti telah melihat model-model dari DTB berkelanjutan, dengan pemain yang mampu membuat sejumlah kontribusi ke pemain lainnya. Le dan Boyd [9] menemukan bahwa dalam situasi tersebut, kooperasi lebih sulit berkembang dibandingkan dalam DTB terbatas. Intuisi dasar dari hasil ini adalah sederhana: dalam sebuah dilema tahanan berkelanjutan, jika sebuah populasi berawal dalam ekuilibrium non-kooperatif, pemain yang secara marjinal lebih kooperatif daripada non-kooperator mendapatkan sedikit keuntungan dari berpasangan dengan yang lainnya. Sebaliknya, dalam dilema tahanan terbatas, pemain tit-untuk-tat mendapatkan kenaikan imbalan yang besar berpasangan dengan satu sama lain dalam ekuilibrium non-kooperatif, relatif terhadap non-kooperator. Karena alam bisa dikatakan memberikan kesempatan lebih bagi variabel kooperasi daripada sebuah dikotomi ketat dari kooperasi atau bertahan, dilema tahanan berkelanjutan bisa membantu menjelaskan kenapa contoh-contoh dunia nyata dari kooperasi seperti tit-untuk-tat sangat jarang sekali di alam (ex. Hammerstein [10] ) walaupun tit-untuk-tat tampak lebih kuat dalam model-model teoretis.

Contoh-contoh dunia nyata[sunting | sunting sumber]

Contoh-contoh khusus berikut, mengikutkan tahanan dan pergantian kantong dan seterusnya, mungkin tampak dibuat-buat, tetapi pada kenyataannya banyak contoh dalam interaksi manusia seperti halnya interaksi dalam alam yang memiliki matriks imbalan yang sama. Dilema tahanan oleh sebab itu menarik bagi ilmu sosial seperti ekonomi, politik, dan sosiologi, dan juga pada ilmu biologi seperti etologi dan biologi evolusioner. Banyak proses-proses alamiah telah diabstraksikan menjadi model-model yang mana makhluk hidup melakukan permainan tanpa akhir dari dilema tahanan. Luasnya penerapan dari dilema tahanan memberikan permainan tersebut kepentingan yang besar.

Dalam kajian lingkungan[sunting | sunting sumber]

Dalam kajian lingkungan, DT adalah bukti dalam krisis seperti perubahan iklim global. Dikatakan semua negara akan diuntungkan dari iklim yang stabil, tetapi semua negara terkadang enggan membatasi emisi Co2. Keuntungan langsung bagi sebuah negara untuk menjaga keadaan sekarang dipandang lebih besar dari klaim manfaat akhirnya untuk semua negara jika keadaan berubah, oleh karena itu menjelaskan keadaan sekarang, menghambat kepedulian terhadap perubahan iklim. [11]

Perbedaan penting antara politik perubahan iklim dan dilema tahanan tidak begitu jelas. Tingkat pengembangan di mana polusi akan mengubah iklim belum diketahui secara jelas. Dilema yang dihadapi oleh pemerintah oleh karenanya berbeda dari dilema tahanan karena imbalan dari berkooperasi secara garis besar tidak diketahui. Perbedaan ini membuat negara-negara akan berkooperasi lebih sedikit daripada DTB secara nyata, sehingga probabilitas menghindari katastrofe iklim lebih sedikit dari yang disarankan oleh analisis situasi permainan-teoretis menggunakan DTB yang nyata. [12]

Dalam psikologi[sunting | sunting sumber]

Dalam penelitian kecanduan/perilaku ekonomi, George Ainslie menunjukan [13] bahwa kecanduan dapat dilihat sebagai masalah DT antarwaktu antara diri pecandu pada saat sekarang dan masa depan. Dalam kasus ini, bertahan berarti kambuh, dan sangat mudah untuk melihat bahwa tidak bertahan pada saat sekarang dan di masa depan adalah hasil terbaik yang bisa didapat, dan bertahan pada saat sekarang dan masa depan adalah hasil yang terburuk. Kasus saat seseorang berpantang pada saat sekarang tetapi kambuh di masa depan sudah jelas hasil yang buruk—dalam pengertian disiplin dan pengorbanan-diri yang mengikutkan berpantang pada saat sekarang telah "sia-sia" karena kekambuhan pada masa depan berarti bahwa pecandu kembali lagi saat dia memulai dan memulai lagi dari awal (yang tampak demoralisasi, dan membuat memulai kembali lebih sulit). Kasus terakhir, dengan seseorang melakukan perilaku kecanduan saat sekarang sementara berpantang "besoknya", sama saja dengan orang yang berjuang dengan kecanduan. Permasalahannya di sini yaitu (seperti pada DT lainnya) ada keuntungan jelas dari bertahan "saat sekarang", tetapi besoknya seseorang akan menghadapi DT yang sama, dan keuntungan yang sama akan diberikan, yang berakhir pada rangkaian bertahan tanpa akhir.

John Gottman dalam penelitiannya menjelaskan dalam "ilmu harapan" mendefinisikan hubungan baik sebagai mereka yang temannya tahu untuk tidak memasuki sel (D,D) atau setidaknya secara dinamis tidak terjebak dalam lingkaran.

Dalam ekonomi[sunting | sunting sumber]

Iklan terkadang disebut sebagai contoh nyata dari dilema tahanan. Saat Iklan rokok masih legal di A.S., pabrik rokok harus menentukan berapa banyak uang yang dikeluarkan untuk iklan. Efektivitas dari iklan Perusahaan A sebagian ditentukan oleh iklan yang dilakukan oleh perusahaan B. Begitu pula, profit yang didapat dari iklan untuk perusahaan B dipengaruhi oleh iklan yang dilakukan perusahaan A. Jika kedua perusahaan, A dan B, memilih untuk beriklan pada waktu tertentu maka iklan dibatalkan, pemasukan tetap konstan, dan pengeluaran meningkat karena biaya iklan. Kedua perusahaan akan diuntungkan dari reduksi beriklan. Namun, bila Perusahaan B harus memilih untuk tidak beriklan, Perusahaan A bisa diuntungkan oleh iklan. Meskipun demikian, jumlah optimal dari iklan oleh satu perusahaan bergantung pada berapa banyak iklan oleh yang lain lakukan. Karena strategi terbaik bergantung pada apa yang perusahaan lain pilih, tidak ada strategi dominan, yang membuatnya sedikit berbeda dengan dilema tahanan. Hasilnya sama, bagaimanapun juga, bahwa kedua perusahaan akan lebih baik jika mereka beriklan lebih sedikit dari ekuilibrium. Terkadang perilaku kooperatif muncul dalam situasi bisnis. Sebagai contohnya, pabrik-pabrik rokok mendukung pembuatan undang-undang melarang iklan rokok, mengetahui bahwa hal ini akan mengurangi biaya dan meningkatkan profit. [14]

Tanpa persetujuan yang terpaksa, anggota dari sebuah kartel juga ikut dalam suatu dilema tahanan (banyak-pemain). [15] 'Kooperasi' biasanya berarti menjaga harga pada tingkat minimum yang sebelumnya disetujui. 'Bertahan' berarti menjual pada tingkat minimum, langsung mengambil bisnis (dan profit) dari anggota kartel lainnya. Pihak berwenang anti-monopoli menginginkan anggota kartel untuk saling bertahan, menjaga harga terendah yang memungkinkan bagi konsumer.

Dalam olahraga[sunting | sunting sumber]

Doping dalam olahraga telah dirujuk sebagai sebuah contoh dari dilema tahanan. [16]

Jika dua atlet yang berkompetisi memiliki pilihan untuk menggunakan obat ilegal dan berbahaya untuk meningkatkan performansi mereka, maka mereka juga harus mempertimbangkan tindakan lawan mereka. Jika tidak ada atlet yang menggunakan obat, maka tidak ada yang memperoleh keuntungan. Jika hanya satu yang menggunakan, maka atlet tersebut mendapatkan keuntungan signifikan terhadap kompetitor lainnya (dikurangi dari bahaya medis dan legal dari memakai obat). Jika kedua atlet menggunakan obat, keuntungannya hilang dan hanya tersisa kekurangan, menempatkan keduanya dalam posisi sulit daripada jika tidak ada yang menggunakan doping. [16]

Dilema multipemain[sunting | sunting sumber]

Banyak dilema dunia-nyata mengikutkan multi-pemain. Walaupun metaforis, tragedi kepemilikan bersamanya Garrett Hardin mungkin bisa dilihat sebagai sebuah contoh generalisasi multi-pemain dari DT: Setiap penduduk membuat pilihan bagi keuntungan personal atau membatasi. Imbalan kolektif bagi bertahan selalu (atau bahkan sering) adalah balasan yang sangat rendah (merepresentasikan kehancuran "milik umum"). Milik umum tidak selalu diekploitasi: William Poundstone, dalam sebuah buku tentang dilema tahanan (lihat Referensi di bawah), menjelaskan sebuah situasi di Selandia Baru di mana kotak-kotak koran dibiarkan tidak terkunci. Bisa saja orang mengambil koran tanpa membayar (bertahan) tetapi sangat sedikit yang melakukannya, merasa bahwa jika mereka tidak membayar maka begitu juga yang lain, menghancurkan sistem tersebut. Penelitian selanjutnya oleh Elinor Ostrom, pemenang penghargaan Sveriges Riksbank 2009 dalam Ilmu Ekonomi dalam Memory of Alfred Nobel, berhipotesis bahwa tragedi kepemilikan bersama terlalu disederhanakan, dengan hasil negatif dipicu oleh pengaruh dari luar. Tanpa mempersulit tekanan, grup berkomunikasi dan mengatur kepemilikan umum di antara mereka bagi keuntungan bersama, menguatkan norma-norma sosial untuk menjaga sumber dan memperoleh nilai maksimal bagi grup, sebuah contoh yang memperlihatkan kasus hasil terbaik bagi DT. [17]

Perang Dingin[sunting | sunting sumber]

Perang Dingin dan perlombaan senjata lainnya bisa dimodelkan dengan sebuah situasi Dilema Tahanan. [18] Selama perang dingin lawan sekutu dari NATO dan Warsaw Pact memiliki pilihan untuk bersenjata atau tidak. Dari sisi pandangan setiap mereka: Melucuti senjata sementara lawan anda terus mempersenjatai akan menyebabkan inferioritas militer dan kemungkinan kehancuran. Jika kedua belah pihak memilih untuk mempersenjatai, tidak ada yang mampu untuk menyerang satu sama lain, tetapi dengan biaya yang tinggi menjaga dan mengembangkan gudang persenjataan. Jika kedua belah pihak memilih untuk melucuti senjata, perang akan terhindari dan tidak ada lagi biaya. Jika lawan anda melucuti senjata mereka sementara anda terus bersenjata, maka anda mendapatkan superioritas.

Walaupun hasil 'terbaik' keseluruhan adalah bagi kedua belah pihak untuk melucuti senjata, arah rasional bagi kedua belah pihak adalah untuk bersenjata. Hal inilah yang terjadi. Kedua sisi menghabiskan sumber yang sangat besar pada penelitian militer dan persenjataan selama tiga puluh tahun sampai Presiden Soviet Michael Gorbachev dan Presiden A.S. Ronald Reagan menegosiasikan pengurangan senjata dan reformasi di Uni Soviet menyebabkan perbedaan ideologi-ideologi menjadi berkurang.

Permainan yang berkaitan[sunting | sunting sumber]

Bertukar tas-tertutup[sunting | sunting sumber]

Hofstadter [19] adalah yang pertama menyarankan bahwa orang terkadang menemukan permasalahan seperti masalah DT mudah untuk dipahami bila digambarkan dalam bentuk permainan sederhana, atau imbalan. Salah satu dari beberapa contoh yang dia gunakan adalah "bertukar tas tertutup":

Dua orang bertemu dan bertukar tas yang tertutup, dengan mengetahui bahwa salah satu darinya berisi uang, dan yang lainnya berisi barang. Kedua pemain bisa memilih menghormati persetujuan tersebut dengan mengisi tas mereka dengan apa yang telah disetujui, atau mereka bisa bertahan dengan mengosongkan isi tas mereka.

Dalam permainan ini, bertahan adalah pilihan terbaik, menyiratkan bahwa agen yang rasional tidak akan pernah bermain. Namun, dalam kasus ini kedua pemain berkooperasi dan bertahan hasilnya sama saja, dengan asumsi tidak ada manfaat dari dagang, sehingga kesempatan untuk saling kooperasi, bahkan dalam permainan berulang, sangat sedikit.

Friend or Foe? (Teman atau Musuh?)[sunting | sunting sumber]

Friend or Foe? adalah sebuah permainan yang disiarkan sejak tahun 2002 sampai 2005 di Game Show Network di A.S.. Ia merupakan contoh dari permainan dilema tahanan yang diuji pada orang, tetapi dalam pengaturan artifisial. Dalam acara tersebut, tiga pasang orang berkompetisi. Saat sepasang dieliminasi, mereka memainkan sebuah permainan yang mirip dengan dilema tahanan untuk menentukan bagaimana hasil kemenangan dibagikan. Jika keduanya berkooperasi (Friend), mereka membagi hasil 50-50. Jika salah satu berkooperasi dan yang lainnya bertahan (Foe), yang bertahan mendapatkan semua hadiah dan yang berkooperasi tidak mendapatkan apapun. Jika keduanya bertahan, keduanya tidak mendapatkan apapun. Perhatikan bahwa matriks imbalannya sedikit berbeda dari standar seperti di atas, karena imbalan untuk kasus "keduanya bertahan" dan "kooperasi dan lawan bertahan" adalah identik. Hal ini membuat kasus "keduanya bertahan" sebagai ekuilibrium lemah, dibandingkan dengan ekuilibrium ketat pada dilema tahanan standar. Jika anda tahu lawan anda akan memilih Foe, maka pilihan anda tidak mempengaruhi kemenangan anda. Dalam makna lainnya, Friend or Foe memiliki model imbalan antara dilema tahanan dan permainan Ayam.

Matriks imbalannya adalah

Kooperasi Bertahan
Kooperasi 1, 1 0, 2
Bertahan 2, 0 0, 0

Matriks imbalan tersebut juga telah digunakan dalam program televisi Britis Trust Me, Shafted, The Bank Job, dan Golden Balls, dan acara-acara di A.S. seperti Bachelor Pad dan Take It All. Data permainan dari serial Golden Balls telah dianalisis oleh tim ahli ekonomi, yang menemukan bahwa kooperasi "sangat tinggi" untuk sejumlah uang yang cukup berasa di dunia nyata, tetapi secara komparatif rendah dalam konteks permainan. [20]

Snowdrift berulang[sunting | sunting sumber]

Para peneliti dari Universitas Lausanne dan Universitas Edinburgh telah menyarankan bahwa "Permainan Snowdrift Berulang" mungkin lebih dekat merefleksikan situasi sosial dunia nyata. Dalam model ini, risiko dieksploitasi lewat bertahan lebih rendah, dan individu selalu diuntungkan dari berkooperasi. Permainan snowdrift membayangkan dua pengemudi yang terjebak di sisi berlawanan dari sebuah snowdrift, setiapnya diberikan pilihan untuk mencangkul salju untuk membersihkan jalan, atau tetap di dalam mobil. Imbalan terbesar bagi pemain didapat dari meninggalkan lawan dengan membersihkan salju secara sendiri, tetapi lawan masih tetap diberi imbalan bagi kerja mereka.

Hal ini mungkin lebih merefleksikan skenario dunia nyata, para peneliti memberikan contoh dua orang ilmuwan berkolaborasi dalam sebuah laporan, keduanya bisa diuntungkan jika yang lain bekerja keras. "Tapi jika teman kerja anda tidak melakukan kerja apapun, maka lebih baik bagi anda untuk mengerjakannya sendiri. Anda akan tetap berakhir dengan sebuah proyek yang selesai." [21]

Contoh imbalan Snowdrift (A, B)
A kooperasi A bertahan
B kooperasi 200, 200 300, 100
B bertahan 100, 300 0, 0
Contoh Imbalan (A, B)
A kooperasi A bertahan
B kooperasi 200, 200 300, −100
B bertahan −100, 300 0, 0

Lihat juga[sunting | sunting sumber]

Referensi[sunting | sunting sumber]

  1. ^ Fehr, Ernst; Fischbacher, Urs (Oct 23, 2003). "The Nature of human altruism" (PDF). Nature. Nature Publishing Group. 425 (6960): 785–791. doi:10.1038/nature02043. PMID 14574401. Diakses tanggal February 27, 2013. 
  2. ^ Tversky, Amos; Shafir, Eldar (2004). Preference, belief, and similarity: selected writings (PDF). Massachusettes Institute of Technology Press. ISBN 9780262700931. Diakses tanggal February 27, 2013. 
  3. ^ Toh-Kyeong, Ahn; Ostrom, Elinor; Walker, James (Sept 5, 2002). "Incorporating Motivational Heterogeneity into Game-Theoretic Models of Collective Action" (PDF). Public Choice. 117 (3–4). Diakses tanggal February 27, 2013. 
  4. ^ Oosterbeek, Hessel; Sloof, Randolph; Van de Kuilen, Gus (Dec 3, 2003). "Cultural Differences in Ultimatum Game Experiments: Evidence from a Meta-Analysis" (PDF). Experimental Economics. Springer Science and Business Media B.V. 7 (2): 171–188. doi:10.1023/B:EXEC.0000026978.14316.74. Diarsipkan dari versi asli (PDF) tanggal 2013-05-12. Diakses tanggal February 27, 2013. 
  5. ^ Shy, Oz (1995). Industrial Organization: Theory and Applications. Massachusettes Institute of Technology Press. ISBN 0262193663. Diakses tanggal February 27, 2013. 
  6. ^ Sebagai contoh bisa dilihat penelitian tahun 2003 "Bayesian Nash equilibrium; a statistical test of the hypothesis" Diarsipkan 2005-10-02 di Wayback Machine. mengenai diskusi tentang konsep dan apakah ia dapat diterapkan dalam ekonomi nyata atau situasi strategis (dari Tel Aviv University).
  7. ^ "Salinan arsip". Diarsipkan dari versi asli tanggal 2014-04-21. Diakses tanggal 2013-06-08. 
  8. ^ The 2004 Prisoners' Dilemma Tournament Results memperlihatkan strategi University of Southampton pada tiga tempat pertama, walaupun dengan sedikit kemenangan dan lebih banyak kalah daripada strategi GRIM. (Perlu diketahui bahwa dalam turnamen DT, tujuan dari permainan bukanlah "memenangkan" pertandingan - yang dapat dengan mudah dilakukan dengan sering bertahan). Perlu ditunjukan bahwa bahkan tanpa berkolusi secara implisit antara strategi-strategi komputer (diekploitasi oleh tim Southampton) tit-untuk-tat tidak selalu pemenang absolut di setiap turnamen; lebih tepat dikatakan bahwa hasil jangka panjangnya terhadap sekumpulan turnamen mengalahkan lawannya. (Dalam setiap kejadian sebuah strategi dapat sedikit lebih baik menyesuaikan dengan kompetisi daripada tit-untuk-tat, tetapi tit-untuk-tat lebih kuat). Hal yang sama berlaku bagi tit-untuk-tat dengan jenis memaafkan, dan strategi-strategi optimal lain: pada suatu saat mereka mungkin tidak akan 'menang' melawan gabungan tertentu dari strategi lawan. Cara lain melihatnya yaitu menggunakan simulasi SSE Darwinian. Dalam simulasi tersbut, tit-untuk-tat akan selalu mendominasi, walaupun strategi-strategi keji akan keluar masuk populasi karena sebuah populasi tit-untuk-tat dapat ditembus oleh strategi tanpa-pembalasan yang baik, yang mana merupakan mangsa yang mudah bagi strategi keji. Richard Dawkins memperlihatkan bahwa di sini, tidak ada campuran pasti dari strategi-strategi yang membentuk sebuah ekuilibrium stabil dan sistem tersebut akan selalu terombang-ambing antara batas.
  9. ^ Le, S.; Boyd, R. (2007). "Evolutionary Dynamics of the Continuous Iterated Prisoner's Dilemma". Journal of Theoretical Biology. 245 (2): 258–267. doi:10.1016/j.jtbi.2006.09.016. PMID 17125798. 
  10. ^ Hammerstein, P. (2003). Why is reciprocity so rare in social animals? A protestant appeal. In: P. Hammerstein, Editor, Genetic and Cultural Evolution of Cooperation, MIT Press. pp. 83–94.
  11. ^ "Markets & Data". The Economist. 2007-09-27. 
  12. ^ Rehmeyer, Julie (2012-10-29). "Game theory suggests current climate negotiations won't avert catastrophe". Science News. Society for Science & the Public. [pranala nonaktif permanen]
  13. ^ George Ainslie (2001). Breakdown of Will. ISBN 0-521-59694-7. 
  14. ^ Argumen ini untuk perkembangan kooperasi lewat kepercayaan yang tercantum dalam The Wisdom of Crowds, dikatakan bahwa kapitalisme bisa terbentuk di sekililing pusat dari Quaker, yang selalu menghormati teman bisnis mereka. (Daripada bertahan dan mengingkari janji -- sebuah fenomena yang telah menghindari kontrak jangka-panjang luar negeri yang tak terprediksi). Dikatakan bahwa berurusan dengan pedagang yang dapat dipercaya membolehkan meme bagi kooperasi untuk tersebar ke pedagang lainnya, yang menyebarkannya lebih jauh sampai tingkat kooperasi yang tinggi menjadi strategi yang menguntungkan dalam perniagaan awam.
  15. ^ Nicholson, Walter (2000). "Intermediate Microeconomics" (edisi ke-8th). Harcourt. 
  16. ^ a b Schneier, Bruce (1948-10-26). "Lance Armstrong and the Prisoners' Dilemma of Doping in Professional Sports | Wired Opinion". Wired.com. Diakses tanggal 2012-10-29. 
  17. ^ "The Volokh Conspiracy " Elinor Ostrom and the Tragedy of the Commons". Volokh.com. 2009-10-12. Diakses tanggal 2011-12-17. 
  18. ^ Stephen J. Majeski (1984). "Arms races as iterated prisoner's dilemma games". Mathematical and Social Sciences. 7 (3): 253–266. doi:10.1016/0165-4896(84)90022-2. 
  19. ^ Hofstadter, Douglas R. (1985). Metamagical Themas: questing for the essence of mind and pattern. Bantam Dell Pub Group. ISBN 0-465-04566-9.  – lihat Ch.29 The Prisoner's Dilemma Computer Tournaments and the Evolution of Cooperation.
  20. ^ Van den Assem, Martijn J. (2012). "Split or Steal? Cooperative Behavior When the Stakes Are Large". Management Science. 58 (1): 2–20. doi:10.1287/mnsc.1110.1413. 
  21. ^ Kümmerli, Rolf. "'Snowdrift' game tops 'Prisoner's Dilemma' in explaining cooperation". Diakses tanggal 11 April 2012. 

Bacaan lebih lanjut[sunting | sunting sumber]

Pranala luar[sunting | sunting sumber]