Segmentation of Handwritten Jawi Text: A Combination Approach
Abstract
Artikel ini menjelaskan satu pendekatan gabungan untuk menyelesaikan penemberengan teks Jawi. Penemberengan adalah satu daripada beberapa fungsi utama dalam sistem Pengecaman Teks Optik Jawi atau PTOJ. Ia melibatkan proses memisahkan satu koleksi teks kepada aksara aksara tunggal untuk dicamkan. Secara amnya teks Jawi mempunyai lima bentuk lazim, iaitu tindanan memugak, ligatur, berbaris, bersambung pada satu baris dan bersentuh antara dua aksara. Terdapat tiga pendekatan utama untuk menembereng bentuk lazim ini, iaitu Unjuran Profail Histogram (UPH), Pelabelan Komponen Terkait (PKT), dan Penentuan Titik Tembereng (PTT). UPH boleh digunakan untuk memecahkan teks Jawi kepada baris teks, kemudian perkataan. PKT boleh mengumpulkan kontur bagi komponen yang terkait, manakala PTT menekankan pencarian satu titik tembereng berpenentuan dengan mencari tembereng-tembereng simpang di antara aksara. Ketiga-tiga pendekatan ini digabungkan untuk menyelesaikan masalah penemberengan teks Jawi tulisan tangan dengan sedikit pengubahsuaian. Algoritma yang berkaitan juga dijelaskan dengan menumpukan kepada tiga bentuk lazim yang utama, iaitu tindanan memugak, ligatur dan bersambung pada satu baris. Satu uji kaji telah dijalankan dan hasilnya dibincangkan berbanding dengan pendekatan UPH.
Keywords
Full Text:
PDFRefbacks
- There are currently no refbacks.
e-ISSN : 2289-2192
For any inquiry regarding our journal please contact our editorial board by email apjitm@ukm.edu.my