Tokenisasi

Dari Wikipedia bahasa Indonesia, ensiklopedia bebas
Langsung ke: navigasi, cari

Tokenisasi adalah proses untuk membagi teks yang dapat berupa kalimat, paragraf atau dokumen, menjadi token-token[1]. Sebagai contoh, tokenisasi dari kalimat "Aku baru saja makan bakso pedas." menghasilkan enam token, yakni: "Aku", "baru", "saja", "makan", "bakso", "pedas". Biasanya, yang menjadi acuan pemisah antar token adalah spasi dan tanda baca. Tokenisasi berguna untuk analisis teks lebih lanjut dan dipakai dalam ilmu linguistik. Contoh program tokenisasi yang dapat diakses via online adalah MorphAdorner dan NLTK Tokenizer.

Rujukan [sunting]