Tantangan skema Winograd

Tantangan skema Winograd (bahasa Inggris: Winograd schema challenge, disingkat WSC) adalah sebuah uji untuk mengetes kecerdasan mesin. Uji ini diusulkan oleh Hector Levesque, seorang ilmuwan komputer di Universitas Toronto. Didesain sebagai perbaikan dari uji Turing, uji ini berisi kumpulan tes pilihan ganda yang berisi pertanyaan-pertanyaan dengan struktur yang sangat spesifik: pertanyaan-pertanyaan tersebut termasuk dalam suatu jenis yang disebut skema Winograd, dinamai sesuai nama Terry Winograd, seorang profesor ilmu komputer di Universitas Stanford.^[1]

Secara sederhana, pertanyaan skema Winograd hanya membutuhkan resolusi anafora: mesin harus mengidentifikasi anteseden^[2] dari kata ganti yang ambigu dalam sebuah pernyataan. Pertanyaan ini menjadikan tes menjadi sebuah masalah pemrosesan bahasa alami, tetapi Levesque berpendapat bahwa untuk skema Winograd, tugas tersebut membutuhkan penggunaan pengetahuan dan penalaran akal sehat.^[3]

Nuance Communications mengumumkan pada Juli 2014 akan mensponsori kompetisi WSC tahunan, dengan hadiah $25.000 dollar untuk sistem terbaik yang kemampuannya sebanding dengan peforma manusia.^[4] Tetapi, hadiah tidak lagi ditawarkan.

Latar belakang

Tantangan Skema Winograd diusulkan dalam semangat uji Turing. Diusulkan oleh Alan Turing pada tahun 1950, uji Turing memainkan peran sentral dalam filosofi kecerdasan buatan (AI). Turing mengusulkan bahwa, alih-alih memperdebatkan apakah mesin dapat berpikir, ilmu AI harus berfokus pada observasi perilaku-perilaku cerdas yang dapat diuji. Tetapi sifat pasti dari uji yang diusulkan Turing telah mendapat sorotan, terutama sejak chatbot AI bernama Eugene Goostman diklaim lulus pada tahun 2014. Salah satu kekhawatiran utama dengan uji Turing adalah bahwa mesin dapat dengan mudah lulus tes dengan kekerasan dan/atau tipuan, bukan kecerdasan sejati.^[5] Tantangan skema Winograd diusulkan untuk memperbaiki masalah-masalah yang muncul dengan sifat program yang berkinerja baik pada uji Turing tersebut.^[6]

Usulan asli Turing adalah sebuah tes yang disebutnya sebagai permainan imitasi, yang melibatkan percakapan yang mengalir bebas dan tidak terbatas dalam bahasa Inggris, antara juri manusia dan program komputer melalui saluran teks (seperti teleprinter). Secara umum, mesin dinyatakan lulus tes jika interogator tidak dapat membedakan antara mesin dan manusia dalam percakapan lima menit.^[5]

Kekurangan dari uji Turing

Kinerja dari chatbot Eugene Goostman menunjukkan beberapa masalah dari uji Turing. Levesque mengidentifikasi beberapa masalah utama,^[3] yang dirangkum sebagai berikut:^[7]

Penipuan: Mesin dipaksa untuk membangun identitas palsu, yang bukan merupakan bagian dari kecerdasan.
Percakapan: Banyak interaksi yang terjadi dapat memenuhi syarat sebagai "percakapan yang sah", seperti lelucon, basa-basi, poin-poin obrolan; tapi tidak memerlukan penalaran yang cerdas.
Evaluasi: Manusia membuat kesalahan, dan hakim sering kali tidak setuju dengan hasil uji.

Skema Winograd

Faktor kunci dalam WSC adalah format khusus dari pertanyaan-pertanyaan uji, yang berasal dari skema Winograd. Pertanyaan-pertanyaan dalam bentuk ini dapat disesuaikan untuk membutuhkan pengetahuan dan penalaran yang masuk akal dalam berbagai domain. Pertanyaan-pertanyaan tersebut juga harus ditulis secara hati-hati agar tidak mudah diselesaikan dengan menggunakan selectional restrictions atau informasi statistik tentang kata-kata dalam kalimat.

Berikut adalah alih bahasa dari contoh yang dikutip dari skema Winograd dikembangkan oleh Terry Winograd (dan menjadi alasan dari nama skema):^[8]

Polisi menolak memberikan izin pada para pendemo karena mereka [takut/pasti] membuat kericuhan.

Pilihan antara "takut" dan "pasti" mengubah skema menjadi dua kalimat:

Polisi menolak memberikan izin pada para pendemo karena mereka takut membuat kericuhan.
Polisi menolak memberikan izin pada para pendemo karena mereka pasti membuat kericuhan.

Pertanyaan tantangan skema adalah, "Apakah kata ganti 'mereka' merujuk pada polisi atau para pendemo?" Mengganti pilihan antara dua kalimat akan mengubah jawaban pertanyaan. Jawaban pertanyaan ini mudah bagi manusia ^{[butuh rujukan]} namun terbukti sulit ditiru oleh mesin. Levesque berpendapat bahwa pengetahuan memainkan peran sentral dalam masalah-masalah ini: jawaban atas skema ini berkaitan dengan pemahaman kita tentang hubungan khas antara dan polisi dan para demonstran.^[3]

Sejak proposal tantangan skema Winograd dipublikasi, Ernest Davis, seorang profesor di Universitas New York, telah menyusun daftar lebih dari 140 skema Winograd dari berbagai sumber sebagai contoh jenis pertanyaan yang seharusnya muncul pada tantangan skema Winograd.^[9]

Deskripsi formal

Pertanyaan tantangan skema Winograd terdiri dari tiga bagian:

Sebuah kalimat atau wacana singkat yang berisi hal-hal berikut:
- Dua frasa kata benda dari kelas semantik yang sama (pria, wanita, benda mati, atau kelompok benda atau orang),
- Kata ganti ambigu yang dapat merujuk ke salah satu frasa kata benda di atas, dan
- Kata khusus dan kata alternatif, sehingga jika kata khusus diganti dengan kata alternatif, resolusi alami dari kata ganti ambigu akan berubah.
Sebuah pertanyaan yang menanyakan identitas kata ganti yang ambigu, dan
Dua pilihan jawaban yang sesuai dengan frase kata benda yang dimaksud.

Mesin akan diberikan pertanyaan dalam bentuk standar yang mencakup pilihan jawaban, sehingga menjadikannya masalah keputusan biner.

Kelebihan dan kekurangan

Tantangan skema Winograd memiliki kelebihan-kelebihan berikut ketimbang uji Turing:^[6]

Pengetahuan dan penalaran yang masuk akal diperlukan untuk menyelesaikannya.
Skema Winograd dengan berbagai tingkat kesulitan dapat dirancang, yang melibatkan apa pun mulai dari hubungan sebab-akibat sederhana hingga narasi peristiwa yang kompleks.
Skema ini dapat dibangun untuk menguji kemampuan penalaran dalam domain tertentu (misalnya, penalaran sosial/psikologis atau spasial).
Tidak perlu ada juri manusia.

Salah satu kekurangan dari tantangan skema Winograd adalah proses membuat pertanyaan. Skema ini perlu disesuaikan secara hati-hati untuk memastikan bahwa skema ini memerlukan penalaran yang masuk akal untuk menyelesaikannya. Sebagai contoh, Levesque memberikan contoh berikut (dialihbahasakan) ini dari apa yang disebut skema Winograd yang "terlalu mudah":^[6]

karena [hamil/beracun], seorang perempuan berhenti meminum pil. Objek manakah yang yang [hamil/beracun]?

Jawaban dari pertanyaan ini dapat ditentukan dengan menggunakan selectional restrictions: pada segala kemungkinan, pil tidak mungkin hamil namun perempuan mungkin; perempuan tidak mungkin beracun namun pil mungkin. Akibatnya jawaban dapat ditentukan tanpa menggunakan penalaran atau pemahaman tentang makna kalimat — informasi yang dibutuhkan hanya selectional restrictions untuk kata 'hamil' dan 'beracun'.

Aktivitas

Pada tahun 2016 dan 2018, Nuance Communications mensponsori kompetisi dan menawarkan hadiah utama sebesar $25.000 untuk pencetak skor tertinggi di atas 90% (sebagai perbandingan, manusia menjawab dengan benar 92-96% pertanyaan WSC^[10]). Namun, tidak ada yang mendekati untuk memenangkan hadiah pada tahun 2016. Terlebih lagi, kompetisi 2018 dibatalkan karena kurangnya prospek^[11] dan hadiah tidak lagi ditawarkan.^[12]

Sebuah diadakan pada tanggal 23-25 Maret 2015 di Seri Simposium Musim Semi AAAI di Universitas Stanford, dengan fokus khusus pada tantangan skema Winograd. Panitia penyelenggara termasuk Leora Morgenstern (Leidos), Theodore Patkos (The Foundation for Research & Technology Hellas), dan Robert Sloan (Universitas Illinois di di Chicago).^[13]

Winograd Schema Challenge 2016 dijalankan pada tanggal 11 Juli 2016 di IJCAI-16. Ada empat kontestan. Babak pertama kontes ini adalah untuk memecahkan masalah disambiguasi kata ganti (pronoun disambiguation problems, PDP), yang diadaptasi dari sumber-sumber literatur dan tidak dikonstruksi sebagai pasangan kalimat.^[14] Skor tertinggi yang dicapai adalah 58% benar, oleh Quan Liu dkk, dari Universitas Sains dan Teknologi, Cina.^[15] Oleh karena itu, sesuai dengan aturan tantangan itu, tidak ada hadiah yang diberikan, dan tantangan tidak dilanjutkan ke babak kedua. Panitia penyelenggara pada tahun 2016 adalah Leora Morgenstern, Ernest Davis, dan Charles Ortiz.

Pada tahun 2017, model asosiasi neural (neural association) yang dirancang untuk akuisisi pengetahuan akal sehat mencapai akurasi 70% pada 70 masalah yang dipilih secara manual dari kumpulan data skema 273 Winograd asli.^[16] Pada bulan Juni 2018, skor akurasi 63,7% dicapai pada dataset lengkap menggunakan model ensemble dari recurrent neural network (RNN),^[17] menandai penggunaan pertama NN yang dapat belajar dari korpora independen untuk memperoleh pengetahuan akal sehat. Pada tahun 2019, skor 90,1% dicapai pada set data skema Winograd asli dengan fine-tuning dari model bahasa BERT. Model ini belajar dengan data training mirip-WSC yang sesuai untuk menghindari keharusan mempelajari penalaran akal sehat.^[17] Model bahasa umum GPT-3 mencapai skor 88,3% tanpa fine-tuning khusus pada tahun 2020.^[18]

Set data adversarial "Winogrande" yang lebih menantang dirancang pada tahun 2019. Dataset ini berisi 44.000 masalah dengan gaya isi titik-titik, berbeda dengan format kata ganti dari dataset sebelumnya.^[10] Sebuah versi dari tantangan skema Winograd menjadi salah satu bagian dari koleksi tolok ukur GLUE (General Language Understanding Evaluation) dari tantangan dalam pemahaman bahasa alami otomatis.^[19]

Referensi

^ Ackerman, Evan (2014-07-29). "Can Winograd Schemas Replace Turing Test for Defining Human-level AI". IEEE Spectrum. Diakses tanggal 29 October 2014.
^ "an.te.se.den". KBBI Daring. Diakses tanggal 2022-10-13. Unsur terdahulu yang ditunjuk oleh ungkapan dalam suatu klausa atau kalimat, misalnya “Ani cantik, tetapi kelakuannya jelek”, bentuk -nya menunjuk anteseden Ani.
^ ^a ^b ^c Levesque, H. J. (2014). "On our best behaviour". Artificial Intelligence. 212: 27–35. doi:10.1016/j.artint.2014.03.007 .
^ "Nuance announces the Winograd Schemas Challenge to Advance Artificial Intelligence Innovation". Business Wire. 2014-07-28. Diakses tanggal 9 November 2014.
^ ^a ^b Turing, Alan (October 1950). "Computing Machinery and Intelligence" (PDF). Mind. LIX (236): 433–460. doi:10.1093/mind/LIX.236.433. Diakses tanggal 28 October 2014.
^ ^a ^b ^c Levesque, Hector; Davis, Ernest; Morgenstern, Leora (2012). The Winograd Schema Challenge. Proceedings of the Thirteenth International Conference on Principles of Knowledge Representation and Reasoning. Diarsipkan dari versi asli tanggal 2022-06-20. Diakses tanggal 29 October 2014.
^ Michael, Julian (18 May 2015). The Theory of Correlation Formulas and Their Application to Discourse Coherence (Tesis Thesis). UT Digital Repository. p. 6.
^ Winograd, Terry (Jan 1972). "Understanding Natural Language" (PDF). Cognitive Psychology. 3 (1): 1–191. doi:10.1016/0010-0285(72)90002-3. Diakses tanggal 4 November 2014.
^ Davis, Ernest. "A Collection of Winograd Schemas". cs.nyu.edu. NYU. Diakses tanggal 30 October 2014.
^ ^a ^b Sakaguchi, Keisuke; Le Bras, Ronan; Bhagavatula, Chandra; Choi, Yejin (2019). "WinoGrande: An Adversarial Winograd Schema Challenge at Scale". arΧiv:1907.10641 [cs.CL].
^ Boguslavsky, I.M.; Frolova, T.I.; Iomdin, L.L.; Lazursky, A.V.; Rygaev, I.P.; Timoshenko, S.P. (2019). "Knowledge-based approach to Winograd Schema Challenge" (PDF). Proceedings of the International Conference of Computational Linguistics and Intellectual Technologies. Moscow. Hadiah tidak bisa diberikan kepada siapa pun. Sebagian besar peserta menunjukkan hasil yang mendekati pilihan acak atau bahkan lebih buruk. Kompetisi kedua yang dijadwalkan untuk tahun 2018 dibatalkan karena kurangnya calon peserta.
^ "Winograd Schema Challenge". CommonsenseReasoning.org. Diakses tanggal 24 January 2020.
^ "AAAI 2015 Spring Symposia". Association for the Advancement of Artificial Intelligence. Diakses tanggal 1 January 2015.
^ Davis, Ernest; Morgenstern, Leora; Ortiz, Charles (Fall 2017). "The First Winograd Schema Challenge at IJCAI-16". AI Magazine.
^ Liu, Quan; Jiang, Hui; Ling, Zhen-Hua; Zhu, Xiaodan; Wei, Si; Hu, Yu (2016). "Commonsense Knowledge Enhanced Embeddings for Solving Pronoun Disambiguation Problems in Winograd Schema Challenge". arΧiv:1611.04146 [cs.AI].
^ Liu, Quan; Jiang, Hui; Evdokimov, Andrew; Ling, Zhen-Hua; Zhu, Xiaodan; Wei, Si; Hu, Yu (2017). "Cause-Effect Knowledge Acquisition and Neural Association Model for Solving A Set of Winograd Schema Problems". Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence: 2344–2350. doi:10.24963/ijcai.2017/326 . ISBN 9780999241103.
^ ^a ^b Trinh, Trieu H.; Le, Quoc V. (2019-09-26). "A Simple Method for Commonsense Reasoning". arΧiv:1806.02847 [cs.AI].
^ Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav et al. (2020). "Language Models are Few-Shot Learners". arΧiv:2005.14165 [cs.CL].
^ "GLUE Benchmark". GlueBenchmark.com. Diakses tanggal 30 July 2019.

Pranala luar

Situs untuk kontes yang disponsori oleh Nuance Communications

[ieee_web-1] Ackerman, Evan (2014-07-29). "Can Winograd Schemas Replace Turing Test for Defining Human-level AI". IEEE Spectrum. Diakses tanggal 29 October 2014.

[2] "an.te.se.den". KBBI Daring. Diakses tanggal 2022-10-13. Unsur terdahulu yang ditunjuk oleh ungkapan dalam suatu klausa atau kalimat, misalnya “Ani cantik, tetapi kelakuannya jelek”, bentuk -nya menunjuk anteseden Ani.

[Levesque14-3] Levesque, H. J. (2014). "On our best behaviour". Artificial Intelligence. 212: 27–35. doi:10.1016/j.artint.2014.03.007 .

[nuance-4] "Nuance announces the Winograd Schemas Challenge to Advance Artificial Intelligence Innovation". Business Wire. 2014-07-28. Diakses tanggal 9 November 2014.

[Turing_paper-5] Turing, Alan (October 1950). "Computing Machinery and Intelligence" (PDF). Mind. LIX (236): 433–460. doi:10.1093/mind/LIX.236.433. Diakses tanggal 28 October 2014.

[Hector-6] Levesque, Hector; Davis, Ernest; Morgenstern, Leora (2012). The Winograd Schema Challenge. Proceedings of the Thirteenth International Conference on Principles of Knowledge Representation and Reasoning. Diarsipkan dari versi asli tanggal 2022-06-20. Diakses tanggal 29 October 2014.

[Michael15-7] Michael, Julian (18 May 2015). The Theory of Correlation Formulas and Their Application to Discourse Coherence (Tesis Thesis). UT Digital Repository. p. 6.

[UNL-8] Winograd, Terry (Jan 1972). "Understanding Natural Language" (PDF). Cognitive Psychology. 3 (1): 1–191. doi:10.1016/0010-0285(72)90002-3. Diakses tanggal 4 November 2014.

[collection-9] Davis, Ernest. "A Collection of Winograd Schemas". cs.nyu.edu. NYU. Diakses tanggal 30 October 2014.

[Sakaguchi-10] Sakaguchi, Keisuke; Le Bras, Ronan; Bhagavatula, Chandra; Choi, Yejin (2019). "WinoGrande: An Adversarial Winograd Schema Challenge at Scale". arΧiv:1907.10641 [cs.CL].

[11] Boguslavsky, I.M.; Frolova, T.I.; Iomdin, L.L.; Lazursky, A.V.; Rygaev, I.P.; Timoshenko, S.P. (2019). "Knowledge-based approach to Winograd Schema Challenge" (PDF). Proceedings of the International Conference of Computational Linguistics and Intellectual Technologies. Moscow. Hadiah tidak bisa diberikan kepada siapa pun. Sebagian besar peserta menunjukkan hasil yang mendekati pilihan acak atau bahkan lebih buruk. Kompetisi kedua yang dijadwalkan untuk tahun 2018 dibatalkan karena kurangnya calon peserta.

[CR-12] "Winograd Schema Challenge". CommonsenseReasoning.org. Diakses tanggal 24 January 2020.

[AIII-13] "AAAI 2015 Spring Symposia". Association for the Advancement of Artificial Intelligence. Diakses tanggal 1 January 2015.

[14] Davis, Ernest; Morgenstern, Leora; Ortiz, Charles (Fall 2017). "The First Winograd Schema Challenge at IJCAI-16". AI Magazine.

[15] Liu, Quan; Jiang, Hui; Ling, Zhen-Hua; Zhu, Xiaodan; Wei, Si; Hu, Yu (2016). "Commonsense Knowledge Enhanced Embeddings for Solving Pronoun Disambiguation Problems in Winograd Schema Challenge". arΧiv:1611.04146 [cs.AI].

[16] Liu, Quan; Jiang, Hui; Evdokimov, Andrew; Ling, Zhen-Hua; Zhu, Xiaodan; Wei, Si; Hu, Yu (2017). "Cause-Effect Knowledge Acquisition and Neural Association Model for Solving A Set of Winograd Schema Problems". Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence: 2344–2350. doi:10.24963/ijcai.2017/326 . ISBN 9780999241103.

[:0-17] Trinh, Trieu H.; Le, Quoc V. (2019-09-26). "A Simple Method for Commonsense Reasoning". arΧiv:1806.02847 [cs.AI].

[Brown_et_al_2020-18] Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav et al. (2020). "Language Models are Few-Shot Learners". arΧiv:2005.14165 [cs.CL].

[19] "GLUE Benchmark". GlueBenchmark.com. Diakses tanggal 30 July 2019.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]