Segmentation of Handwritten Jawi Text: A Combination Approach

Khairuddin Omar, Ramlan Mahmod, Md. Nasir Sulaiman, Abdul Rahman Ramli

Abstract


Artikel ini menjelaskan satu pendekatan gabungan untuk menyelesaikan penemberengan teks Jawi. Penemberengan adalah satu daripada beberapa fungsi utama dalam sistem Pengecaman Teks Optik Jawi atau PTOJ. Ia melibatkan proses memisahkan satu koleksi teks kepada aksara aksara tunggal untuk dicamkan. Secara amnya teks Jawi mempunyai lima bentuk lazim, iaitu tindanan memugak, ligatur, berbaris, bersambung pada satu baris dan bersentuh antara dua aksara. Terdapat tiga pendekatan utama untuk menembereng bentuk lazim ini, iaitu Unjuran Profail Histogram (UPH), Pelabelan Komponen Terkait (PKT), dan Penentuan Titik Tembereng (PTT). UPH boleh digunakan untuk memecahkan teks Jawi kepada baris teks, kemudian perkataan. PKT boleh mengumpulkan kontur bagi komponen yang terkait, manakala PTT menekankan pencarian satu titik tembereng berpenentuan dengan mencari tembereng-tembereng simpang di antara aksara. Ketiga-tiga pendekatan ini digabungkan untuk menyelesaikan masalah penemberengan teks Jawi tulisan tangan dengan sedikit pengubahsuaian. Algoritma yang berkaitan juga dijelaskan dengan menumpukan kepada tiga bentuk lazim yang utama, iaitu tindanan memugak, ligatur dan bersambung pada satu baris. Satu uji kaji telah dijalankan dan hasilnya dibincangkan berbanding dengan pendekatan UPH.


Keywords


Penemberengan baris teks; penemberengan perkataan; penemberengan aksara.

Full Text:

PDF

Refbacks

  • There are currently no refbacks.


e-ISSN : 2289-2192

For any inquiry regarding our journal please contact our editorial board by email apjitm@ukm.edu.my