Tokenisasi

Dari Wikipedia bahasa Indonesia, ensiklopedia bebas

Tokenisasi adalah proses untuk membagi teks yang dapat berupa kalimat, paragraf atau dokumen, menjadi token-token/bagian-bagian tertentu.[1][2] Sebagai contoh, tokenisasi dari kalimat "Aku baru saja makan bakso pedas" menghasilkan enam token, yakni: "Aku", "baru", "saja", "makan", "bakso", "pedas". Biasanya, yang menjadi acuan pemisah antar token adalah spasi dan tanda baca.[3]

Tokenisasi sering kali dipakai dalam linguistik dan hasil tokenisasi berguna untuk analisis teks lebih lanjut. Contoh program tokenisasi yang dapat diakses dan digunakan secara daring adalah MorphAdorner dan NLTK Tokenizer.[4][5]

Rujukan[sunting | sunting sumber]

  1. ^ "Tokenization". nlp.stanford.edu. Diakses tanggal 2021-03-27. 
  2. ^ "Sentiment Symposium Tutorial: Tokenizing". sentiment.christopherpotts.net. Diakses tanggal 2021-03-27. 
  3. ^ Ratnasari, C. I., Kusumadewi, S., & Rosita, L. (2014). Model natural language processing untuk perumusan keluhan pasien. Seminar Nasional Informatika Medis (SNIMed) V (pp. 11-18) hlm. 14
  4. ^ "Python NLTK Word Tokenization Demo for Tokenizing Text". text-processing.com. Diakses tanggal 2021-03-27. 
  5. ^ Burns, Philip R. (2013-08-01). "MorphAdorner Word Tokenizer Example". morphadorner.northwestern.edu. Diakses tanggal 2021-03-27.