Sistem temu balik informasi

Sistem temu balik informasi (information retrieval system) digunakan untuk menemukan kembali informasi-informasi yang relevan terhadap kebutuhan pengguna dari satu himpunan informasi secara otomatis. Salah satu aplikasi umum dari sistem temu balik informasi adalah search-engine atau mesin pencarian yang terdapat pada jaringan internet. Menggunakan mesin pencarian ini pengguna dapat mencari halaman Web yang dibutuhkannya melalui mesin tersebut secara cepat.

Ukuran efektivitas pencarian ditentukan oleh precision dan recall. Precision adalah rasio jumlah dokumen relevan yang ditemukan dengan total jumlah dokumen yang ditemukan oleh search-engine. Precision mengindikasikan kualitas himpunan jawaban, tetapi tidak memandang total jumlah dokumen yang relevan dalam kumpulan dokumen.

${\mbox{Precision}}={\frac {|\{{\mbox{relevant documents}}\}\cap \{{\mbox{documents retrieved}}\}|}{|\{{\mbox{documents retrieved}}\}|}}$

Recall adalah rasio jumlah dokumen relevan yang ditemukan kembali dengan total jumlah dokumen dalam kumpulan dokumen yang dianggap relevan.

${\mbox{Recall}}={\frac {|\{{\mbox{relevant documents}}\}\cap \{{\mbox{documents retrieved}}\}|}{|\{{\mbox{relevant documents}}\}|}}$

Dalam Information Retrieval, untuk mendapatkan dokumen yang relevan tidaklah cukup. Tujuan yang harus dipenuhi adalah bagaimana mendapatkan dokumen yang relevan dan tidak mendapatkan dokumen yang tidak relevan. Tujuan lainnya adalah bagaimana menyusun dokumen yang telah didapatkan tersebut agar dapat ditampilkan berurutan dari dokumen yang memiliki tingkat relevansi lebih tinggi ke tingkat relevansi rendah. Penyusunan dokumen yang berurutan tersebut disebut sebagai perangkingan dokumen. Model ruang vektor dan model probabilistik adalah 2 (dua) model pendekatan yang digunakan untuk melakukan hal tersebut.

Model ruang vektor dan model probabilistik adalah model yang menggunakan pembobotan kata dan perangkingan dokumen. Hasil retrieval yang didapat dari penggunaan model-model ini adalah perangkingan dokumen yang dianggap paling relevan terhadap query (pertanyaan pencarian). Terdapat beberapa cara atau metode dalam melakukan pembobotan kata pada metode TF-IDF, yaitu melalui skema pembobotan query dan dokumen.

Dalam model ruang vektor, dokumen dan query direpresentasikan sebagai vektor dalam dalam ruang vektor yang disusun dalam indeks term, kemudian dimodelkan dengan persamaan geometri. Sedangkan model probabilistik membuat asumsi-asumsi distribusi term dalam dokumen relevan dan tidak relevan dalam orde estimasi kemungkinan relevansi suatu dokumen terhadap suatu query.