Keterangan Haki

Judul MODEL FONEMISASI BAHASA INDONESIA BERBASIS N-GRAM TAGGER DENGAN STEMMER DAN ATURAN FONOTAKTIK
Tahun 2021
Pengusul SUO
Jenis PATEN
Jenis Ciptaan PATEN SEDERHANA
Abstrak FONEMISASI ATAU GRAPHEME-TO-PHONEME (G2P) ADALAH PROSES MENGUBAH SEBUAH KATA KE SINYAL UCAPAN. FONEMISASI MERUPAKAN KOMPONEN PENTING PADA SINTESIS UCAPAN, PENGENALAN UCAPAN, DAN PEMROSESAN BAHASA ALAMI. MODEL G2P STATE-OF-THE-ART-BERBASIS DEEP LEARNING (DL) PADA UMUMNYA MEMBERIKAN PHONEME ERROR RATE (PER) DAN WORD ERROR RATE (WER) YANG RENDAH UNTUK BAHASA DENGAN SUMBER DATA YANG BANYAK SEPERTI BAHASA INGGRIS DAN BAHASA-BAHASA EROPA, TETAPI TIDAK BEGITU UNTUK BAHASA DENGAN SUMBER DATA YANG SEDIKIT. BEBERAPA MODEL G2P BERBASIS MACHINE LEARNING (ML) KONVENSIONAL YANG DIGABUNG DENGAN PENGETAHUAN LINGUISTIK SPESIFIK LEBIH DIPILIH UNTUK BAHASA DENGAN SUMBER DATA YANG SEDIKIT. NAMUN, MODEL-MODEL TERSEBUT KURANG BAGUS UNTUK BEBERAPA BAHASA KARENA BERBAGAI ALASAN. CONTOHNYA, MODEL G2P BAHASA INDONESIA BEKERJA DENGAN BAIK UNTUK KATA-KATA DASAR TETAPI MENGHASILKAN PER TINGGI UNTUK KATA-KATA TURUNAN. KEBANYAKAN KESALAHAN DATANG DARI AMBIGUITAS BEBERAPA KATA DASAR DAN TURUNAN YANG MENGANDUNG PREFIKS: "BER", "MENG", "PENG", DAN "TER". INVENSI INI, MERANCANG MODEL G2P BAHASA INDONESIA BERBASIS N-GRAM YANG DIPADUKAN DENGAN STEMMER DAN ATURAN FONOTAKTIK UNTUK MENGATASI MASALAH-MASALAH TERSEBUT. PENGUJIAN BERDASARKAN 5-FOLD-CROSS-VALIDATION MENGGUNAKAN 50 RIBU KATA BAHASA INDONESIA MENUNJUKKAN BAHWA MODEL YANG DIBUAT MEMBERIKAN PER YANG JAUH LEBIH RENDAH (0.78%) DARI MODEL G2P STATE-OF-THE-ART BERBASIS TRANSFORMER (1.14%).
Nomor Pendaftaran PPSE1504211847
Nomor Sertifikat S00202102749
Catatan
© Penelitian Strategis