Tokenisasi
Dari Wikipedia bahasa Indonesia, ensiklopedia bebas
| Artikel ini perlu diwikifikasi agar memenuhi standar kualitas Wikipedia. Anda dapat memberikan bantuan berupa penambahan pranala dalam, atau dengan merapikan tata letak dari artikel ini.
Untuk keterangan lebih lanjut, klik [tampilkan] di bagian kanan.
|
|
|
Artikel ini tidak memiliki referensi sumber tepercaya sehingga isinya tidak bisa diverifikasi. Bantulah memperbaiki artikel ini dengan menambahkan referensi yang layak. Artikel yang tidak dapat diverifikasikan dapat dihapus sewaktu-waktu oleh Pengurus. Tag ini diberikan tanggal Maret 2013 |
Tokenisasi adalah proses untuk membagi teks yang dapat berupa kalimat, paragraf atau dokumen, menjadi token-token[1]. Sebagai contoh, tokenisasi dari kalimat "Aku baru saja makan bakso pedas." menghasilkan enam token, yakni: "Aku", "baru", "saja", "makan", "bakso", "pedas". Biasanya, yang menjadi acuan pemisah antar token adalah spasi dan tanda baca. Tokenisasi berguna untuk analisis teks lebih lanjut dan dipakai dalam ilmu linguistik. Contoh program tokenisasi yang dapat diakses via online adalah MorphAdorner dan NLTK Tokenizer.
