| Abstrak |
SILABIFIKASI ADALAH PROSES MEMECAH KATA MENJADI SILABEL-SILABEL SECARA OTOMATIS. MODEL SILABIFIKASI STATE-OF-THE-ART BIASANYA DIKEMBANGKAN MENGGUNAKAN TEKNIK BERBASIS DEEP LEARNING. MODEL-MODEL TERSEBUT UMUMNYA MEMBERIKAN TINGKAT ERROR YANG RENDAH UNTUK BAHASA DENGAN SUMBER DAYA DATASET YANG BESAR, TETAPI DAPAT MENGHASILKAN TINGKAT ERROR YANG TINGGI UNTUK BAHASA DENGAN SUMBER DAYA RENDAH. PADA INVENSI INI, AUGMENTASI DATA SECARA BESAR-BESARAN DIUSULKAN UNTUK MENINGKATKAN KINERJA SILABIFIKASI BERBASIS DEEP LEARNING MENGGUNAKAN KOMBINASI DARI BIDIRECTIONAL LONG SHORT-TERM MEMORY (BILSTM), CONVOLUTIONAL NEURAL NETWORKS (CNN), DAN CONDITIONAL RANDOM FIELDS (CRF) UNTUK BAHASA INDONESIA YANG MEMILIKI SUMBER DAYA RENDAH. AUGMENTASI DATA TERDIRI DARI EMPAT METODE: SWAPPING CONSONANT-GRAPHEMES, FLIPPING ONSETS, TRANSPOSING NUCLEI, DAN CREATING ACRONYMS. PENYELIDIKAN AWAL PADA 50 RIBU KATA BAHASA INDONESIA MENUNJUKKAN BAHWA METODE AUGMENTASI SECARA SIGNIFIKAN MEMPERBESAR UKURAN DATASET HINGGA 10 JUTA KATA VALID BERDASARKAN ATURAN FONOTAKTIK. VALIDASI DENGAN SKEMA 5-FOLD CROSS-VALIDATION (5-FCV) MENUNJUKKAN BAHWA KATA-KATA AUGMENTASI VALID DAPAT MENINGKATKAN KINERJA DARI SILABIFIKASI BERBASIS BILSTM-CNN-CRF. |