Abstrak |
BASIS DATA "KORPUS TEKS SILABIFIKASI GRAFEMIS ENTITAS NAMA 103K" BERISI 103.371 ENTITAS NAMA (NAMA ORANG, NAMA PERUSAHAAN, NAMA TEMPAT, DAN LAIN-LAIN) BESERTA TITIK-TITIK SILABIFIKASINYA, YANG DIKUMPULKAN DARI YELLOW PAGES DAN BERBAGAI SUMBER LAINNYA. KORPUS 103.371 ENTITAS NAMA TERSEBUT DIBAGI KE DALAM TRAINSET (DATA LATIH) DAN TESTSET (DATA UJI) MENGGUNAKAN SKEMA 5-FOLD CROSS-VALIDATION. SEBUAH TRAINSET BERISI SEKITAR 82.696 ENTITAS NAMA SEDANGKAN SEBUAH TESTSET BERISI SEKITAR 20.675 ENTITAS NAMA. |