Pemrosesan suara neurokomputasi

Neural mapping phonetic to sensorimotor maps

Pemrosesan suara neurokumputasi (Bahasa Inggris: Neurocomputational speech processing) merupakan bagian dari pemrosesan suara, dan bahasa (Speech language processing) dilakukan pada berbagai bidang seperti Ilmu Komputer (Pemrosesan Bahasa Alami, Natural Language Processing, NLP), Ilmu Bahasa (Komputasi Linguistik, Computational Linguistics), Elektro (Speech Recognition), Psikologi (Komputasi Psikolinguistik, Computational Psycholinguistics). Sejarah perkembangan pemrosesan suara, dan bahasa sejalan dengan perkembangan teknologi komputer. [1]

Tahapan perkembangan

Seiring dengan perkembangan teknologi komputer, berbarengan pula perkembangan pemrosesan suara yang terdiri dari beberapa tahap:

Patung Alan Turing

Tahap 1940–1960: Pada tahap ini, ada dua paradigma untuk pemrosesan suara: paradigma automata (yang melandasi teori bahasa formal, teori bahasa formal) dan paradigma probabilistik (yang melandasi teori informasi). Automata pertama kali muncul sebagai hasil dari model komputasi Turing, yang kemudian berkembang menjadi finite state automata dan ekspresi regular (Kleene, 1951 dan 1956). Model probabilistik untuk pemrosesan bahasa diciptakan oleh Shannon (1948)—juga dikenal sebagai Proses Markov Diskret. [1]

Noam Chomsky

Selanjutnya, Chomsky (1956) menciptakan grammar finite state (context-free) untuk bahasa alami.Model komputasi probabilistik untuk pemrosesan bahasa dan suara dikenal sebagai paradigma kedua. Pada titik ini, Shannon membuat metaphor untuk channel bising dan decoding untuk mentranslasi bahasa melalui media komunikasi. [1]

Tampilan Spektogram

Selain itu, Shannon memperkenalkan entropi sebagai ukuran kapasitas informasi suatu channel atau kandungan informasi suatu bahasa dari teori termodinarnika. Dia juga pertama kali menggunakan ukuran entropi untuk model probabilistik bahasa Inggris. Pada tahap ini, spektrogram pertama kali dibuat, memicu penelitian tentang fonetik, yang merupakan dasar pengenalan suara. Dari sinilah ditemukan mesin pengenalan suara pertama (1950).[1]

Dependent recognizer dengan model statistik yang mampu mengenali sepuluh digit yang mewakili dua format. Mesin yang dilatih dengan sepuluh speaker ini dapat mengenali sepuluh digit dari setiap speaker dengan akurasi 97–99%, berbasis template yang bergantung pada korelasi antara pola dan input.[1]

Tahap 1957–1970: Dua paradigma digunakan dalam penelitian pengenalan suara. Ahli komputer dan linguistik melakukan penelitian pada paradigma simbolik, sedangkan paradigma stokastik banyak dilakukan oleh ahli matematika dan teknik listrik.[1]

Mengikuti penelitian Chomsky, algoritma parsing dan algoritma AI (Joh McCarthy, Marvin Minsky, Claude Shannon, dan Nathaniel Rochester), jalur simbolik muncul. Pada titik ini, pemahaman bahasa alami yang sederhana mulai terbentuk, yang memungkinkan untuk memberikan jawaban atas pertanyaan. Berbagai sistem mulai dikembangkan dalam pendekatan stokastik, termasuk pengenalan karakter optik dan pengenalan teks (Bledsoe dan Browning), yang menggunakan metode Bayes. Pada titik ini, korpus yang memuat satu juta kata dibuat dari lima ratus teks dari berbagai sumber, termasuk novel, surat kabar, nonfiksi, dan akademik.[1]

Tahap 1970–1983: Pada periode ini, banyak penelitian dilakukan tentang pemrosesan ucapan dan bahasa menggunakan paradigma stokastik, dan logika. Beberapa penelitian tentang paradigma stokastik, seperti yang dilakukan oleh Jelinek, Bahl, dan Mercer, para ahli dari IBM dan Cameige Mellon University (CMU), termasuk penerapan Hidden Markov Model (HMM) untuk algoritme pengenalan suara dan metaphor dari kanal suara bising, dan decoding.[1]

Rabiner dan Juang (AT&T's Bell Labs) melakukan analisis suara, dan sintesis. Dalam paradigma logika (berbasis logika), penelitian terutama berfokus pada pengembangan gramar (gramar metamorphosis, gramar definite clause, dan gramar fungsional), serta struktur unifikasi. Penelitian tentang pemahaman bahasa alami saat ini sedang mengembangkan robot yang dapat menerima perintah dari teks berbahasa alami. Penelitian ini menggunakan model gramar, parsing, semantik, dan discourse.[1]

Referensi

  1. ^ a b c d e f g h i Agus Buono; Benyamin Kusumoputro; Wisnu Jatmiko (2009). "Sistem Pemrosesan Suara: Studi Kasus Perbandingan Power Spektrum dan Bispektrum pada Identifikasi Pembicara Menggunakan HMM". Seminar Nasional Teknologi Informasi. 

Pranala luar

Kembali kehalaman sebelumnya