Terjemahan mesin statistik

Terjemahan mesin statistik (SMT) adalah pendekatan terjemahan mesin, yang menggantikan pendekatan berbasis aturan sebelumnya karena pendekatan ini membutuhkan deskripsi eksplisit dari setiap aturan linguistik, yang memakan banyak biaya, dan sering kali tidak dapat digeneralisasi ke bahasa lain. Sejak tahun 2003, pendekatan statistik itu sendiri secara bertahap digantikan oleh pendekatan pembelajaran mendalam berbasis jaringan saraf.

Gagasan pertama penerjemahan mesin statistik diperkenalkan oleh Warren Weaver pada tahun 1949,^[1] termasuk ide-ide untuk menerapkan teori informasi Claude Shannon. Penerjemahan mesin statistik diperkenalkan kembali pada akhir tahun 1980-an dan awal tahun 1990-an oleh para peneliti di IBM Pusat Penelitian Thomas J. Watson.^[2]^[3]^[4]

Basis

Ide di balik penerjemahan mesin statistik berasal dari teori informasi. Sebuah dokumen diterjemahkan menurut sebaran probabilitas $p(e|f)$ bahwa string $e$ dalam bahasa target (misalnya, bahasa Inggris) adalah terjemahan dari sebuah string $f$ dalam bahasa sumber (misalnya, Prancis).

Masalah pemodelan sebaran probabilitas $p(e|f)$ telah didekati dengan beberapa cara. Salah satu pendekatan yang cocok untuk implementasi komputer adalah dengan menerapkan Teorema Bayes, yaitu $p(e|f)\propto p(f|e)p(e)$ , di mana model terjemahannya $p(f|e)$ adalah probabilitas bahwa string sumber adalah terjemahan dari string target, dan model bahasa $p(e)$ adalah probabilitas untuk melihat string bahasa target tersebut. Dekomposisi ini menarik karena membagi masalah menjadi dua submasalah. Menemukan terjemahan terbaik ${\tilde {e}}$ dilakukan dengan mengambil salah satu yang memberikan probabilitas tertinggi:

{\tilde {e}}=arg\max _{e\in e^{*}}p(e|f)=arg\max _{e\in e^{*}}p(f|e)p(e)

.

Untuk implementasi yang ketat, kita harus melakukan pencarian yang menyeluruh dengan menelusuri semua string $e^{*}$ dalam bahasa asli. Melakukan pencarian secara efisien adalah pekerjaan decoder terjemahan mesin yang menggunakan string asing, heuristik, dan metode lain untuk membatasi ruang pencarian dan pada saat yang sama menjaga kualitas yang dapat diterima. Pertukaran antara kualitas dan penggunaan waktu ini juga dapat ditemukan dalam pengenalan suara.

Karena sistem penerjemahan tidak dapat menyimpan semua string asli dan terjemahannya, sebuah dokumen biasanya diterjemahkan kalimat demi kalimat, tetapi ini pun tidak cukup. Model bahasa biasanya didekati dengan model n-gram yang dihaluskan, dan pendekatan serupa telah diterapkan pada model penerjemahan, tetapi ada kerumitan tambahan karena panjang kalimat dan urutan kata yang berbeda dalam bahasa.

Model penerjemahan statistik pada awalnya berbasis kata (Model 1-5 dari IBM Model Markov Tersembunyi dari Stephan Vogel^[5] dan Model 6 dari Franz-Joseph Och^[6]), tetapi kemajuan yang signifikan dibuat dengan diperkenalkannya model berbasis frase.^[7] Pekerjaan selanjutnya menggabungkan sintaksis atau struktur kuasi-sintaksis.^[8]

Kelemahan

Pembuatan korpus bisa jadi mahal.
Kesalahan spesifik sulit diprediksi dan diperbaiki.
Hasil mungkin memiliki kefasihan dangkal yang menutupi masalah terjemahan.^[9]
Terjemahan mesin statistik biasanya bekerja kurang baik untuk pasangan bahasa dengan urutan kata yang sangat berbeda.
Manfaat yang diperoleh untuk terjemahan antara bahasa-bahasa Eropa Barat tidak dapat mewakili hasil untuk pasangan bahasa lain, karena korpus pelatihan yang lebih kecil dan perbedaan tata bahasa yang lebih besar.

Terjemahan berbasis frasa

Dalam terjemahan berbasis frasa, tujuannya adalah untuk mengurangi batasan penerjemahan berbasis kata dengan menerjemahkan seluruh rangkaian kata, yang panjangnya mungkin berbeda. Urutan kata disebut blok atau frasa, namun, biasanya bukan frasa linguistik, tetapi frasa yang ditemukan menggunakan metode statistik dari korpora. Telah terbukti bahwa membatasi frasa pada frasa linguistik (kelompok kata yang termotivasi secara sintaksis, lihat kategori sintaksis) menurunkan kualitas terjemahan.^[10]

Frasa yang dipilih selanjutnya dipetakan satu-ke-satu berdasarkan tabel terjemahan frasa, dan dapat disusun ulang. Tabel ini dapat dipelajari berdasarkan penjajaran kata, atau langsung dari korpus paralel. Model kedua dilatih menggunakan algoritma ekspektasi-maksimisasi, mirip dengan Model IBM berbasis kata..^[11]

Terjemahan berbasis sintaks

Penerjemahan berbasis sintaksis didasarkan pada gagasan untuk menerjemahkan unit sintaksis, bukan kata tunggal atau rangkaian kata (seperti pada MT berbasis frasa), yaitu pohon urai (parsial) dari kalimat/ucapan.^[12] Hingga tahun 1990-an, dengan munculnya pengurai stokastik yang kuat, mitra statistik dari ide lama penerjemahan berbasis sintaksis tidak berkembang. Contoh dari pendekatan ini termasuk DOP berbasis MT dan kemudian tata bahasa bebas konteks sinkron.

Terjemahan berbasis frasa hierarkis

Penerjemahan berbasis frasa hirarkis menggabungkan pendekatan berbasis frasa dan berbasis sintaksis dalam penerjemahan. Sistem ini menggunakan aturan tata bahasa bebas konteks sinkron, tetapi tata bahasa dapat dibangun dengan perluasan metode untuk penerjemahan berbasis frasa tanpa mengacu pada konstituen sintaksis yang termotivasi secara linguistik. Ide ini pertama kali diperkenalkan dalam sistem Hiero Chiang (2005).^[8]

Tantangan dengan terjemahan mesin statistik

Masalah yang tidak dapat diselesaikan oleh penerjemahan mesin statistik antara lain:

Penyelarasan kalimat

Dalam korpora paralel, kalimat tunggal dalam satu bahasa dapat ditemukan diterjemahkan ke dalam beberapa kalimat dalam bahasa lain dan begitu sebaliknya.^[12] Kalimat yang panjang dapat dipecah, kalimat yang pendek dapat digabungkan. Bahkan ada beberapa bahasa yang menggunakan sistem penulisan tanpa indikasi yang jelas tentang akhir kalimat (misalnya, bahasa Thailand). Penyelarasan kalimat dapat dilakukan melalui algoritma penyelarasan Gale-Church. Melalui ini dan model matematika lainnya, pencarian dan pengambilan yang efisien dari perataan kalimat dengan nilai tertinggi dapat dilakukan.

Penyelarasan kata

Penyelarasan kalimat biasanya disediakan oleh korpus atau diperoleh dengan algoritma penjajaran Gale-Church. Namun, untuk mempelajari model penerjemahan, kita perlu mengetahui kata-kata mana yang sejajar dalam pasangan kalimat sumber-target. IBM-Models atau pendekatan HMM adalah upaya untuk memecahkan tantangan ini.

Kata-kata fungsi yang tidak memiliki padanan yang jelas dalam bahasa target merupakan tantangan lain bagi model statistik. Misalnya, saat menerjemahkan dari bahasa Inggris ke bahasa Jerman, kalimat "John does not live here," kata "does" tidak memiliki keselarasan yang jelas dalam kalimat yang diterjemahkan "John wohnt hier nicht." Melalui penalaran logis, hal ini dapat diselaraskan dengan kata-kata "wohnt" (seperti dalam bahasa Inggris, ini berisi informasi tata bahasa untuk kata "live") atau "nicht" (karena hanya muncul dalam kalimat karena dinegasikan) atau mungkin tidak selaras. ^[11]

Anomali statistik

Contoh dari anomali tersebut adalah "I took the train to Berlin" salah diterjemahkan menjadi "I took the train to Paris" karena banyaknya statistik "train to Paris" dalam set pelatihan.

Idiom

Tergantung pada korpus yang digunakan, idiom tidak dapat diterjemahkan secara "idiomatis". Misalnya, dengan menggunakan Hansard Kanada sebagai korpus dua bahasa, "hear" hampir selalu diterjemahkan menjadi "Bravo!" karena di Parlemen "Hear, Hear!" menjadi "Bravo!". ^[13]

Masalah ini terkait dengan penyelarasan kata, karena dalam konteks yang sangat spesifik, ekspresi idiomatik disejajarkan dengan kata-kata yang menghasilkan ekspresi idiomatik dengan makna yang sama dalam bahasa target. Namun, hal ini tidak mungkin terjadi, karena penyelarasan biasanya tidak berfungsi dalam konteks lain. Oleh karena itu, idiom hanya dapat disejajarkan dengan frasa, karena idiom tidak dapat diuraikan lebih lanjut tanpa kehilangan maknanya. Masalah ini khusus untuk penerjemahan berbasis kata.^[11]

Susunan kata yang berbeda

Urutan kata dalam bahasa berbeda-beda. Beberapa klasifikasi dapat dilakukan dengan menyebutkan urutan khas subjek (S), kata kerja (V), dan objek (O) dalam sebuah kalimat dan seseorang dapat berbicara, misalnya, tentang bahasa SVO atau VSO. Ada juga perbedaan tambahan dalam urutan kata, misalnya, di mana pengubah untuk kata benda berada, atau di mana kata-kata yang sama digunakan sebagai pertanyaan atau pernyataan.

Dalam pengenalan ucapan, sinyal ucapan dan representasi tekstual yang sesuai dapat dipetakan satu sama lain dalam blok-blok secara berurutan. Hal ini tidak selalu terjadi pada teks yang sama dalam dua bahasa. Untuk SMT, penerjemah mesin hanya dapat mengelola urutan kata yang kecil, dan urutan kata harus dipikirkan oleh perancang program. Upaya untuk mencari solusi telah mencakup model pengurutan ulang, di mana distribusi perubahan lokasi untuk setiap item terjemahan ditebak dari dua teks yang disejajarkan. Perubahan lokasi yang berbeda dapat diurutkan dengan bantuan model bahasa dan yang terbaik dapat dipilih.

Kata-kata di luar kosakata (OOV)

Sistem SMT biasanya menyimpan bentuk kata yang berbeda sebagai simbol yang terpisah tanpa hubungan satu sama lain dan bentuk kata atau frasa yang tidak ada dalam data pelatihan tidak dapat diterjemahkan. Hal ini mungkin disebabkan oleh kurangnya data pelatihan, perubahan dalam domain manusia di mana sistem digunakan, atau perbedaan dalam morfologi.

Catatan dan referensi

^ W. Weaver (1955). Translation (1949). In: Machine Translation of Languages, MIT Press, Cambridge, MA.
^ P. Brown; John Cocke; S. Della Pietra; V. Della Pietra; Frederick Jelinek; Robert L. Mercer; P. Roossin (1988). "A statistical approach to language translation". Coling'88. Association for Computational Linguistics. 1: 71–76. Diakses tanggal 22 March 2015.
^ P. Brown; John Cocke; S. Della Pietra; V. Della Pietra; Frederick Jelinek; John D. Lafferty; Robert L. Mercer; P. Roossin (1990). "A statistical approach to machine translation". Computational Linguistics. MIT Press. 16 (2): 79–85. Diakses tanggal 22 March 2015.
^ P. Brown; S. Della Pietra; V. Della Pietra; R. Mercer (1993). "The mathematics of statistical machine translation: parameter estimation". Computational Linguistics. MIT Press. 19 (2): 263–311. Diakses tanggal 22 March 2015.
^ S. Vogel, H. Ney and C. Tillmann. 1996. HMM-based Word Alignment in Statistical Translation. In COLING ’96: The 16th International Conference on Computational Linguistics, pp. 836-841, Copenhagen, Denmark.
^ Och, Franz Josef; Ney, Hermann (2003). "A Systematic Comparison of Various Statistical Alignment Models". Computational Linguistics. 29: 19–51. doi:10.1162/089120103321337421 .
^ P. Koehn, F.J. Och, and D. Marcu (2003). Statistical phrase based translation. Dalam Konferensi Bersama Lanjutan tentang Teknologi Bahasa Manusia dan Pertemuan Tahunan Asosiasi Linguistik Komputasi (HLT/NAACL) Cabang Amerika Utara.
^ ^a ^b D. Chiang (2005). A Hierarchical Phrase-Based Model for Statistical Machine Translation. Dalam Pertemuan Tahunan Lanjutan ke-43 Asosiasi Linguistik Komputasi (ACL'05).
^ Zhou, Sharon (July 25, 2018). "Has AI surpassed humans at translation? Not even close!". Skynet Today. Diakses tanggal 2 August 2018.
^ Philipp Koehn, Franz Josef Och, Daniel Marcu: Statistical Phrase-Based Translation (2003)
^ ^a ^b ^c Koehn, Philipp (2010). Statistical Machine Translation. Cambridge University Press. ISBN 978-0-521-87415-1.
^ ^a ^b Philip Williams; Rico Sennrich; Matt Post; Philipp Koehn (1 August 2016). Syntax-based Statistical Machine Translation. Morgan & Claypool Publishers. ISBN 978-1-62705-502-4.
^ W. J. Hutchins and H. Somers. (1992). An Introduction to Machine Translation, 18.3:322. ISBN 978-0-12-362830-5

Pranala luar

Annotated list of statistical natural language processing resources — Termasuk tautan ke perangkat lunak penerjemahan mesin statistik yang tersedia secara gratis

[1] W. Weaver (1955). Translation (1949). In: Machine Translation of Languages, MIT Press, Cambridge, MA.

[brown88-2] P. Brown; John Cocke; S. Della Pietra; V. Della Pietra; Frederick Jelinek; Robert L. Mercer; P. Roossin (1988). "A statistical approach to language translation". Coling'88. Association for Computational Linguistics. 1: 71–76. Diakses tanggal 22 March 2015.

[brown90-3] P. Brown; John Cocke; S. Della Pietra; V. Della Pietra; Frederick Jelinek; John D. Lafferty; Robert L. Mercer; P. Roossin (1990). "A statistical approach to machine translation". Computational Linguistics. MIT Press. 16 (2): 79–85. Diakses tanggal 22 March 2015.

[brown93-4] P. Brown; S. Della Pietra; V. Della Pietra; R. Mercer (1993). "The mathematics of statistical machine translation: parameter estimation". Computational Linguistics. MIT Press. 19 (2): 263–311. Diakses tanggal 22 March 2015.

[5] S. Vogel, H. Ney and C. Tillmann. 1996. HMM-based Word Alignment in Statistical Translation. In COLING ’96: The 16th International Conference on Computational Linguistics, pp. 836-841, Copenhagen, Denmark.

[H._Ney._2003-6] Och, Franz Josef; Ney, Hermann (2003). "A Systematic Comparison of Various Statistical Alignment Models". Computational Linguistics. 29: 19–51. doi:10.1162/089120103321337421 .

[7] P. Koehn, F.J. Och, and D. Marcu (2003). Statistical phrase based translation. Dalam Konferensi Bersama Lanjutan tentang Teknologi Bahasa Manusia dan Pertemuan Tahunan Asosiasi Linguistik Komputasi (HLT/NAACL) Cabang Amerika Utara.

[Chiang2005-8] D. Chiang (2005). A Hierarchical Phrase-Based Model for Statistical Machine Translation. Dalam Pertemuan Tahunan Lanjutan ke-43 Asosiasi Linguistik Komputasi (ACL'05).

[9] Zhou, Sharon (July 25, 2018). "Has AI surpassed humans at translation? Not even close!". Skynet Today. Diakses tanggal 2 August 2018.

[10] Philipp Koehn, Franz Josef Och, Daniel Marcu: Statistical Phrase-Based Translation (2003)

[:0-11] Koehn, Philipp (2010). Statistical Machine Translation. Cambridge University Press. ISBN 978-0-521-87415-1.

[WilliamsSennrich2016-12] Philip Williams; Rico Sennrich; Matt Post; Philipp Koehn (1 August 2016). Syntax-based Statistical Machine Translation. Morgan & Claypool Publishers. ISBN 978-1-62705-502-4.

[13] W. J. Hutchins and H. Somers. (1992). An Introduction to Machine Translation, 18.3:322. ISBN 978-0-12-362830-5

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]