Tokenisasi

Dari Wikipedia bahasa Indonesia, ensiklopedia bebas
Lompat ke: navigasi, cari

Tokenisasi adalah proses untuk membagi teks yang dapat berupa kalimat, paragraf atau dokumen, menjadi token-token/bagian-bagian tertentu[1][2]. Sebagai contoh, tokenisasi dari kalimat "Aku baru saja makan bakso pedas" menghasilkan enam token, yakni: "Aku", "baru", "saja", "makan", "bakso", "pedas". Biasanya, yang menjadi acuan pemisah antar token adalah spasi dan tanda baca[3]. Tokenisasi seringkali dipakai dalam ilmu linguistik dan hasil tokenisasi berguna untuk analisis teks lebih lanjut. Contoh program tokenisasi yang dapat diakses via online adalah MorphAdorner dan NLTK Tokenizer.

Rujukan[sunting | sunting sumber]

  1. ^ Tokenization
  2. ^ Tokenizing
  3. ^ Ratnasari, C. I., Kusumadewi, S., & Rosita, L. (2014). Model natural language processing untuk perumusan keluhan pasien. Seminar Nasional Informatika Medis (SNIMed) V (pp. 11-18) hlm. 14