Klasifikasi dokumen

Dalam ilmu perpustakaan, ilmu informasi dan ilmu komputer, klasifikasi dokumen atau kategorisasi dokumen ialah persoalan kepada menetapkan suatu dokumen ke satu atau lebih kelas atau kategori. Dapat dicapai secara manual (intelektual) atau secara algoritma. Klasifikasi intelektual akan dokumen sebagian besar telah menjadi bidang ilmu perpustakaan, sementara klasifikasi secara algoritma akan dokumen ialah utama dalam ilmu informasi dan ilmu komputer.

Dokumen yang mendapat klasifikasi bisa berupa teks, gambar, musik, dll. Setiap macam dokumen memiliki persoalan klasifikasi khusus. Kala tidak ditentukan, klasifikasi teks terlibat.

Dokumen dapat dikategorikan berdasarkan dengan subjek atau atribut lain (seperti jenis dokumen, pengarang, tahun cetakan, dll). Terdapat dua filosofi utama dari subjek klasifikasi dokumen: pendekatan klasifikasi berbasis konten dan pendekatan klasifikasi berbasis permintaan.

Pendekatan

Klasifikasi berbasis konten ialah klasifikasi yang mana bobot diberikan kepada subjek tertentu dalam suatu dokumen yang menentukan kelas tempat dokumen ditetapkan. Pada klasifikasi otomatis dapat menjadi berapa banyak kata yang diberikan muncul dalam dokumen.

Klasifikasi berbasis permintaan (atau pengindeksan) ialah klasifikasi yang mengantisipasi permintaan dari pengguna memengaruhi bagaimana dokumen diklasifikasikan. Pengklasifikasi memeriksa: "Antara deskripsi mana entitas dapat ditemukan?" dan "pertimbangkan semua gerangan pertanyaan dan tentukan terhadap mana satu entitas yang relevan".[1]

Klasifikasi dokumen otomatis

Fungsi klasifikasi dokumen otomatis dapat dibagi ke dalam tiga macam: klasifikasi dokumen supervisi yang mana beberapa mekanisme eksternal (seperti umpan balik) menyediakan informasi pada klasifikasi yang tepat terhadap dokumen, klasifikasi dokumen non-supervisi yang mana klasifikasi harus dikerjakan penuh tanpa mengacu kepada informasi eksternal dan klasifikasi dokumen semi-supervisi yang mana bagian dokumen diberi label dengan mekanisme eksternal.

Teknik

Teknik-teknik klasifikasi dokumen otomatis termasuk:

Aplikasi

Teknik-teknik klasifikasi yang telah diterapkan kepada

  • perutean surel, mengirim surel yang dikirim kepada alamat atau kotak surat bergantung pada topik
  • identifikasi bahasa, secara otomatis menentukan bahasa dari teks
  • analisis sentimen, menentukan sikap dari seorang pembicara atau seorang penulis sehubungan dengan beberapa topik atau polaritas kontekstual keseluruhan dokumen
  • penilaian keterbacaan, secara otomatis menentukan tingkat keterbacaan teks, baik kepada menemukan bahan sesuai kepada berbagai kelompok umur atau tipe pembaca atau sebagai bagian dari sistem penyederhanaan teks yang lebih besar

Lihat pula

Referensi

  1. ^ Soergel, Dagobert (1985). Organizing Information: Principles of Data Base and Retrieval Systems. Academic Press. hlm. 230. 
Kembali kehalaman sebelumnya