Xem mẫu
- Huỳnh Hữu Hưng, Nguyễn Trọng Nguyên
NHẬN DẠNG DẤU THANH VÀ MŨ TRONG KÝ TỰ TIẾNG VIỆT VIẾT TAY
RECOGNIZING ACCENT IN VIETNAMESE HANDWRITING CHARACTERS
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌ
hướng đ
Huỳnh Hữu Hưng, Nguyễn Trọng Nguyên
trên: nhậ
Trường Đại học Bách khoa, Đại học Đà Nẵng; Email: hhhung@dut.udn.vn, ntnguyen.dn@gmail.com toán thấp
Tóm tắt – Nhận dạng ký tự viết tay là chủ đề đang được nghiên cứu Abstract – Handwriting character recognition is one of the most 3. Phươ
rộng rãi hiện nay. Nhiều giải pháp được áp dụng cho ký tự tiếng Anh common research topics. Many approaches have applied to English
và mang lại hiệu quả cao. Tuy nhiên, bài toán tiếng Việt đang đối characters and achieve high accuracy. However, the complexities
N
mặt với nhiều thách thức, phần lớn vấn đề đến từ dấu mũ và dấu in the language of each country are not same. Recognizing bước xử
thanh (gọi chung là dấu). Bài báo này đề xuất một giải pháp nhận Vietnamese handwriting character is facing many problems, most Việt. Mô
dạng dấu, kể cả trong trường hợp mũ và thanh trong ký tự dính liền of them come from the accent. This paper focuses on accent
nhau – một vấn đề rất phổ biến và ảnh hưởng đáng kể đến kết quả recognition, especially when there is a connection between two được thể
nhận dạng. Chúng tôi bắt đầu với việc tách riêng dấu và chữ cái accents - a common problem which affects the identification result.
bằng kĩ thuật gán nhãn vùng liên thông. Tiếp theo, dấu được phân Hình 1. Các
Our approach dấu
starts được
with nghiên cứu
separating và một
accent fromsốcharacter
ví dụ về using
vào hai lớp: dấu đơn (một dấu mũ hoặc dấu thanh) hoặc dấu kép ký tự có sựlabeling
the connected-component xuất hiện nhiều dấu
method. The obtained accent
(mũ và thanh dính liền nhau). Dấu kép (nếu có) tiếp tục được tách then is checked if it is single or multiple (the combination of many
ra thành các dấu đơn để chuẩn bị cho bước xử lý cuối cùng. Quá 2. Các
accents). nghiên
In the second cứu liêneach
case, quan
accent is extracted for the last
trình nhận dạng được thực hiện bằng phương pháp mô hình Markov processing step. The recognition is performed using hidden Markov n = 1
ẩn. Giải pháp đề xuất đã được thử nghiệm và thu được kết quả khả Hiệnsingle
models with each nay, accent.
nhiều Proposed
hướng tiếp cận has
solution chobeen
vấn tested
quan. đề nhậnhigh
and obtained dạng ký tự viết tay bằng kĩ thuật xử lý
accuracy.
Từ khóa – ký tự viết tay tiếng việt; dấu mũ; dấu thanh; bộ phát hiện ảnh đã –được
Key words đưa ra. handwriting
vietnamese Mục tiêu chung đượcaccent;
character; đặt racorner Nh
góc; tách nhánh; mô hình Markov ẩn. detector; branch separating; hidden Markov models.
là làm cho máy tính thu nhận và hiểu được ký tự d
viết tay đầu vào. Mô hình tổng quan của một hệ
1. Đặt vấn đề được ký tự viết tay đầu vào. Mô hình tổng quan của một hệ
thống nhận dạng ký tự viết tay được trình bày
thống nhận dạng ký tự viết tay được trình bày trong Hình 2.
Chủ đề nhận dạng ký tự viết tay đã được nghiên cứu trong hình 2. K
trong suốt hơn 40 năm qua. Ngôn ngữ được hướng đến nhiều
nhất là tiếng Anh, trong đó mỗi ký tự chỉ gồm một chữ cái,
do đó kết quả thường cao hơn các ngôn ngữ khác. Phần lớn Ký tự
Tiền xử lý Phân đoạn H
các nghiên cứu đều tập trung vào bảng chữ cái Latinh hơn viết tay
là ký tự có dấu, nguyên nhân là bởi độ phức tạp trong cách Đ
biểu diễn và nhận dạng dấu. Tiếng Việt là một ngôn ngữ dấu và
phức tạp với mỗi ký tự có thể chứa một hoặc hai dấu. Do Trích nhãn vùn
đó, kết quả nghiên cứu trên tiếng Việt khá hạn chế, độ chính Phân lớp đặc trưng dưới dấu
xác chỉ cao khi ký tự được viết một cách lý tưởng, nghĩa ký tự tiế
là các dấu trong một ký tự được tách bạch rõ ràng. Phương dấu. Mộ
pháp do chúng tôi đề xuất hướng đến việc giải quyết vấn đề ‘o’, ‘ó’,
tồn tại sự liên kết của các dấu trong một ký tự, được thực Hậu xử lý Đầu ra
hiện bởi sự kết hợp của nhiều kĩ thuật xử lý ảnh trên miền Tr
Hình 2: Tổng quan hệ thống nhận dạng ký tự viết tay
không gian. Hình 2. Tổng quan hệ thống nhận dạng ký tự viết tay gồm 1 v
Dấu trong tiếng Việt được chia thành hai nhóm (mũ và Hai nghiênHai cứu
nghiên
gần cứu
đây gần đây dạng
về nhận về nhận
ký tựdạng ký đượcnhư một
có dấu
thanh) như trong Hình 1, trong đó dấu nặng không được đề trìnhtự
bàycótrong
dấu [1][2].
được trình bàythực
Sau khi tronghiện[1,bước
2]. Sau đoạn đểdụng ch
phânkhi
cập vì nó xuất hiện bên dưới chữ cái chính trong ký tự, nên thựcdấu,
thu được hiệncác
bước
tác phân
giả sửđoạn
dụngđể 45thu
đặcđược
trưngdấu, các dạngdùng để
và nhận
không có sự liên kết với bất kỳ dấu khác. bằngtác
máy giảvectơ tựa. Kết
sử dụng quảtrưng
45 đặc thử nghiệm
và nhận cho giải phápgồm 3 th
thấybằng
dạng
này đạt hiệu quả khá cao và ổn định. Tuy
máy vectơ tựa. Kết quả thử nghiệm cho thấy giải nhiên, cách viếtcái cần n
ký tự được đề cập trong 2 bài báo này quá lý tưởng, cụ thể làđược th
pháp này đạt hiệu quả khá cao và ổn định. Tuy
các dấu được viết tách biệt, điều này không phải luôn đúngMarkov
nhiên, cách viết ký tự được đề cập trong 2 bài
trong các văn bản viết tay. Ngoài ra, hệ thống cần nhiều thời
gian báo này toán
để tính quá lýbởi
tưởng, cụ thểđặc
số lượng là các
trưngdấulớnđược viết đối
và tương Tr
tách
phức tạp. biệt, điều này không phải luôn đúng trong gồm hai
các văn bản viết tay. Ngoài ra, hệ thống cần vùng dấ
Giải pháp được đề xuất trong bài báo này hướng đến khả
nhiều thời gian để tính toán bởi số lượng đặc hai dấu đ
năng giải quyết cả hai vấn đề trên: nhận dạng dấu kép và yêu
Hình 1: Các dấu được nghiên cứu và một số ví dụ trưng lớn và tương đối
cầu chi phí tính toán thấp hơn. phức tạp. này, chú
về ký tự có sự xuất hiện nhiều dấu thành cá
Giải pháp được đề xuất trong bài báo này
2. Các nghiên cứu liên quan 3. Phương2pháp đề xuất
Hiện nay, nhiều hướng tiếp cận cho vấn đề nhận dạng ký Nội dung phần này trình bày cụ thể từng bước xử lý để
tự viết tay bằng kĩ thuật xử lý ảnh đã được đưa ra. Mục tiêu nhận dạng dấu trong ký tự tiếng Việt. Mô hình tổng quan
chung được đặt ra là làm cho máy tính thu nhận và hiểu của giải pháp đề xuất được thể hiện trong Hình 3.
21
- Việt. Mô hình tổng quan của giải pháp đề xuất
được
TẠP CHÍ thể HỌC
KHOA hiện VÀ
trong hìnhNGHỆ,
CÔNG 3. ĐẠI HỌC ĐÀ NẴNG - SỐ 1(74).2014.QUYỂN II
n=
ví dụ về Phân đoạn số vùng liên thông
n=1 Nhận dạng n=2
cho vấn
n=3 chữ cái Hình 4: Ký tự ‘ỗ’ với chữ cái ‘o’, dấu ‘∧’ và ‘∼’
ật xử lý
ợc đặt ra 3.3. Nhận dạng chữ cái
Nhận dạng dấu đơn Kiểm tra dấu
ợc ký tự dấu đơn đơn hay kép Các chữ cái riêng biệt trong bảng chữ tiếng Việt có thể
a một hệ được nhận dạng hiệu quả thông qua các giải pháp được áp
dấu kép
rình bày dụng cho bảng chữ tiếng Anh. Bước này không nằm trong
dấu đơn
nội dung trọng tâm mà bài báo muốn đề cập nên phần này
Kết luận Phân tách dấu
không được trình bày chi tiết.
kép
3.4. Kiểm tra dấu “đơn” hay “kép”
Hình 3: Tổng quan giải pháp đề xuất
n đoạn Hình 3. Tổng quan giải pháp đề xuất
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, MộtĐẠI số trường
HỌC ĐÀhợp NẴNG phổ- biến của dấu kép được thể hiện
SỐ …………..
Đầu tiên, Đầu ký tiên,
tự đầukývào tựTẠPđầuCHÍ
được vào
tách được
KHOA
riêngHỌC tách
dấu VÀ riêng
và chữ cái trong ĐẠI
CÔNG NGHỆ, HìnhHỌC 5. ĐÀ NẴNG - SỐ …………..
chínhdấubằngvàphươngchữ đó,
Sau các
cáipháp chínhdấu
gánbằng đơn
nhãnnày vùng
phương đượcliên nhận
phápthông, dạng
gán trong bằng
đó chữSau cáiđó,
nằm các
bên dấu
dưới đơn
dấu. này
nhãn vùng liên thông, trong đó chữ cái nằm bên cập.
phương pháp mô Sốhình được
lượngMarkov nhận
vùng ẩn
lớn dạng
như
nhất đã cóbằng
đề thể
rích trongphương
dưới dấu.pháp mô là hình
3, baoMarkov ẩn như thểđãtrong
đề cập.
ký tự tiếng Việt gồm lý 1cụ chữ cái và 2hình
dấu. 3Một
trưng Số Cáclượng bướcvùngxửlớn nhất thểcó trong được
số ví dụ cụ thể cho từng
bày trong trường hợp là: ‘o’, ‘ó’, và ‘ố’ tương (a) (b) (c) (d) (e) (f)
ký tự tiếng trìnhViệt là 3, nội baodung gồm tiếp 1 chữ theo. cái và 2
ứng với 1, 2,Các và 3bướcvùng. xử lý cụ thể trong hình 3 được Hình 5.(b)
(a) Một số ví (c)dụ về sự (d) liên kết giữa(e) các dấu gồm (f)
dấu. Một số ví dụnội
trong cụ dung
thể cho từng trường hợp là:
trình
Trường bày
hợp3.1. Tiền
đơn giảnxử lý
nhất là tiếp
ký tựtheo. chỉ bao gồm 1 vùng. Hình Một
5: số ví dụ
‘^ˀ’, ‘^~’ và ‘^`’
về sự liên kết giữa các dấu gồm
‘o’, ‘ó’, và ‘ố’ tương ứng với 1, 2, và 3 vùng. Hình 5. Một số ví dụ về liên kết giữa các dấu gồm
ầu ra Khi đó,
3.1.kýTiềntự đượcxử Nhiễu
lý mặc nhiên thường xem xuấtnhư hiệnmộtkhi chữ sửcái.
dụng Các thiết Ta thấy rằng ‘ mỗi
’, ‘ ’dấu
và ‘ kép
’ ở hình 5 tồn tại
‘^ˀ’, ‘^~’ và ‘^`’
phương phápTrường bị
nhậnquét hợp
dạng quangđơn
áp dụnggiảncho
học nhấtchữ
làm là ký
giảm tựtay
viếtđộ chỉ bao xác
chính
tiếng Anhkhi một góc vớimỗi 3 (a,dấu b, kép
d) hoặc 4 (e,5 tồn
f) nhánh tương
ự viết taycó thểgồmđược 1 Nhiễu
vùng.
dùng
nhận để
thường
Khi
dạng.xác đó, kýxuất
định
Ngoài tự hiện
ra,được
ký tự.
nhiễu
khi
mặc
Với sửcódụng
nhiên
trường
cũng xem
hợp
thể
thiết
ký
xuất tự
Ta
hiện(a, b,ứng,
thấyTa rằng
thấy rằng mỗi ởdấu
Hình kép tại một
ở 2hình 5 tồngóc tại
với 3
d) hoặc
hoặc 4 hai
(e, f)góc
nhánh với mỗi
tương góc
ứng, gồmhoặc nhánh
hai góc (c),
với mỗi
dạng kýgồm bị như quét
mộttrên
3 thành quang
chữảnh
phần, tahọc
cái. Các
có hai
trong làm
phương
quá dấu giảm pháp
đơn
trình thuđộ
vànhận chính
một
nhận và xác
dạng
chữ cái khi
áp
truyền cầndẫn.gócmột trong
gồm
góc
2 khi
vớimỗi
nhánh
3(c),
(a, b,đơn
dấutrong d)khi hoặc
chỉ có 4thể
mỗi
(e,xuất
dấu
f) nhánh
đơnhiện
chỉ tối
tương
có thểđa xuất
Sau khinhậnnhận dụng cho
dạng.dạng.
Quá chữ
DotrìnhNgoài
đó, viết
khửra,
nhận taydạng
nhiễu tiếng
nhiễu dấu Anh
là cũng
đơn được
bước có
có thể
cầnthể thực được
xuất
thiết hiện hiện
trước bởikhi ứng, hoặc hai góc với mỗi góc gồm 2 nhánh (c),
hiện một
tối đa gócmộtvớigóc 2 nhánh
với 2 nhánh (dấu ‘^’). (dấu Do‘∧’).
đó, một
Do đó, dấumột là dấu
dấu, các phương dùngảnh
trên phápđểthựcxác
mô
trong định
hình
hiện quá kýtrình
Markov
các tự. Với
công
ẩn,
thu
đoạn trường
sẽ được
nhậnxử lývà hợp
trình ký Chúng
bày
truyền
chính. tự dẫn. tôilà “đơn”
trong
trong khihay mỗi dấu đơnthể chỉ có thểđịnhxuất
dựa hiện tối điểm
đa
“đơn” hay “kép”“kép” có thểcó được được
xác xác định dựa
trên trênđặc
phần gồm
sau. 3 thành phần, ta có hai dấu đơn và một chữ
ng bằng Do đó, sửkhửdụng nhiễubộ lọc là trung
bước vịcần có thiết
mặt nạ trước
kích khi thướcnày. mộtđặcgóc
Quá điểmvớixử
trình 2 lýnhánh
này. Quá
tươngtrình (dấu
ứng xử ‘^’).
được Do
lý trình
tươngđó, một
ứng
bày chiđượcdấutrong
tiết là
hấy giải Trường cái cầnhợp nhận còndạng.
kết lại,hợpQuá
tương với trình
ứng
các nhận
với
phép kýdạng
tự gồm
biến dấu
đổi đơnthành
hai
hình thái làHình 6.
thực hiện các trình bày chi tiết trong hình
tạpcông đoạnbởixửvùng lý chính.
33 “đơn” hay “kép” có thể được xác định dựa trên 6.
nh. Tuyphần,được có độ phức
thực hiện cao bởi nhất dấumô cóChúng
thể là một tôi
sử dụng đóngbộ và
lọc mởtrungảnhphương
[3].
vị
pháp
mặt nạ kích
hình
thước
dấu đơn duy nhất
Markov ẩn, sẽ hoặcđược haitrình
dấubày có
đơntrongdính phầnliền nhau.
sau. Để giải đặc điểm này. Quá trình Làmxử mảnh lý tương ứng được
ng 2 bài
quyết33vấn đề kết3.2. hợp
này, Phân
chúngvớiđoạn cácthực
tôi phép hiện biến kiểm đổitrahình và táchtháidấu là trình bày chi tiết trong hình 6.
ược viết Trưởng hợp còn lại, tương ứng với ký tự
thànhđóng
các dấuvà thành
mở
đơn ảnhnếu
Đây dấu
[3].có đang xétxửlàlý dấu kép.trọng Sau đó, các
ng trongdấu đơn gồmnày hai được phần,là
nhận
bướcphức
dạngđộbằng tạpquan
phương caopháp nhất mô bởivìhình ký tự
Làm mảnh
ống cầnMarkov vùng dấu tiếng Việt thường bao gồm một chữ cái cùng với n=0
Định vị góc n = số góc
3.2. như có
ẩnPhân đoạn
đã thểcập.
đề là một dấu đơn duy nhất hoặc
ợng đặc hai dấu một
đơn hoặc
dính hai dấu,
liền nhau. víĐể dụgiải
nhưquyết ‘á’, ‘â’,
vấn ‘ă’,
đề ‘ấ’ với
Các bướcĐây làcụbước
xử lýcái
chữ thể trong xử Hình lý quan
3 Đầu
được trọng vì
bàyký
trìnhphương trong tự
tôi tương ứng là ‘a’. tra vàtiên, tách dấu pháp
n>0
này,tiếp
nội dung chúng theo. thực hiện kiểm
tiếng
thành Việt
các thường
gándấu nhãn đơnvùng baodấu
nếu gồmđang
liên mộtxét
thông chữ
[4]làđượccái
dấu cùngsử dụng
kép. với để n=0
Định vị góc n = số góc
báo này Xét n max(bi)=2 Đếm số nhánh bi = số nhánh
một hoặc
3.1. Tiền lý hairiêng
xử tách dấu,từng ví dụ phần nhưtrong ‘á’, ‘â’,
ký tự. ‘ă’,Sau ‘ấ’đó, vớicác tại góc thứ i
tại mỗi góc
chữ cái
Nhiễu phần
thườngtương này
xuất ứng được
hiện làkhi phân
‘a’. sửĐầu vàotiên,
dụng 2thiết
lớp, bịtương
phươngquét quang ứng với
pháp n>0
gángiảm
học làm nhãn dấu và
độvùng
chính chữ liêncái,khi
xác dựa
thông nhậntrên vịđược
[4]dạng. tríNgoài
củasửmỗi ra, phần
dụng nhiễu đểvới n>1
cũngtách
có thểriêng đối tượng nằm dưới cùng là chữ cái. Một ví dụ n=1
Xét n max(b )=2 Đếm số nhánh max(b bi = số nhánh
từngtrên
xuất hiện phần ảnhtrongtrong ký quá tự. trìnhSau thu đó,
nhậncác và i
i)>2
minh họa được trình
truyền dẫn. Do đó, khử nhiễu là bước cần thiết trước khi bày trong hình 4. tại mỗi góc tại góc thứ i
phần này được phân vào 2 lớp, tương ứng với Dấu đơn Dấu kép
thực hiện các công đoạn xử lý chính. Chúng tôi sử dụng bộ
dấu vị
lọc trung vàcóchữ mặtcái,nạ kíchdựathước trên vị 3×trí 3 kếtcủahợp mỗi vớiphần
các phép với n>1
n=1 Hình 6: Quá trình kiểm tra dấu
biến đối tượng
đổi hình tháinằmlà đóng dướivàcùng mở ảnh là [3].
chữ cái. Một ví dụ Hình 6. Quá trình kiểm tra dấu max(bi)>2
minh họa được trình bày trong hình 4.
3.2. Phân đoạn
Bộ phátBộ hiện
Dấu đơn phát (địnhhiệnvị)(định góc được
Dấu vị) kép
gócxâyđược
dựngxây dựadựng trên toán
tử Plessey
dựa trên được môtửtảPlessey
toán trong [6]. đượcSố môlượng nhánh[6].
tả trong tại mỗi
Số góc
Đây là bước xử lý quan trọng vì ký tự tiếng Việt thường đượclượng tính bằng một phương pháp
nhánh tại mỗi góc được tính bằng một đơn giản. Chúng tôi định
bao gồm một chữ cái cùng với một hoặc hai dấu, ví dụ như nghĩaphương một đường
pháp
Hình đơntròn
6. Quá có bán
trình
giản.
kính 3
kiểm tra
Chúng
điểm
tôi dấu
ảnh và
định nghĩa
tâm đặt
‘á’, ‘â’, ‘ă’, ‘ấ’ với chữ4.cáiKýtương
Hình tự ‘ỗ’ứng với chữ
là ‘a’.cáiĐầu
‘o’, tiên,
dấu ‘^’ và ‘~’ tại góc. Tiếp theo
phương ta xác định các điểm ảnh của đối tượng
một đường tròn có (định
bán kính 3góc điểm ảnh xây
và tâm
pháp gán nhãn 3.3.vùng
Nhận liêndạng thôngchữ[4] cáiđược sử dụng để tách nằm đặt trên Bộđường phát tròn.hiện Lúc này, vị) dấu đã được được làm mảnh dựngnên
tại góc. Tiếp theo ta xác định các điểm ảnh
riêng từng phần trong ký tự. Sau đó, các phần này được số dựa điểmtrênảnhtoán đượctử xácPlessey
định tương đượcứng môvới tả số
trongnhánh [6].tạiSốgóc
Các chữ cái riêng biệt trong bảng chữ của
xét.đối tượng nằm trên đường tròn. Lúc này, dấu
phân vào 2 lớp, tương ứng với dấu và chữ cái, dựa trên vị trí đang lượng nhánh tại mỗi góc được tính bằng một
của mỗi phầntiếng với đốiViệttượngcó thể nằm được dưới nhậncùng dạnglà chữhiệucái.quảMột thông đã được làm mảnh nên số điểm ảnh được xác
phương
Nếu dấu pháp
được xác đơnđịnh giản.là dấu Chúng
đơn, việc tôi nhận
địnhdạng nghĩađược
Hình qua
4. Ký
các tự ‘ỗ’
giải với
ví dụ minh họa được trình bày trong Hình 4.pháp chữ đượccái ‘o’,
áp dấu
dụng ‘^’
chovà ‘~’
bảng chữ định tương ứngđó vớivới sốcácnhánh tại gócMarkov
đang xét.
thực hiện ngay sau mô hình ẩn. Ngược
tiếng Anh. Bước này không nằm trong nội dung một đường tròn có bán kính 3 điểm ảnh và tâm
Nếu dấu được xác định là dấu đơn, việc
3.3. Nhận dạng chữ cái
22 trọng tâm mà bài báo muốn đề cập nên phần này đặtnhận tại góc. Tiếp theo ta xác định các điểm ảnh
dạng được thực hiện ngay sau đó với các
- 4. Kết quả thử nghiệm
3.5.2. Phân nhóm các nhánh
Hiện nay chưa HuỳnhcóHữu
bộHưng,
dữ liệu chuẩn
Nguyễn Trọngvề ký
Nguyên
Việc phân chia các nhánh vào hai nhóm
lại, dấu kép được phân tách thành các dấu đơn trước khi có tự viếtsánh
sự so taykết
tiếng
quả Việt
nhận nên
dạnggiải
các pháp đềđểxuất
cặp dấu chọnđược
ra kết
được thực hiện bằng cách chọn 2 nhánh đưa vào
nhận dạng. quảthử nghiệm
chính vớiVới
xác nhất. dữtừng
liệucặpcục
dấu,bộ. Cácsuất
6 xác ký(tương
tự nàyứng
nhóm 1 và các nhánh còn lại được đưa vào nhóm vớiđược
6 lớp)lấycủatừ
mỗi dấu đơn được tính toán và dấu này được
3.5. Phân tách dấu kép 2 nguồn dữ liệu mở của các sinh viên
2. Do đó, ta có Cn cách phân nhóm. gán vào lớp cho xác suất đầu ra cao nhất.
Bước này được thực hiện dựa trên cả ảnh ban đầu và trường Đại học Bách khoa Hà Nội [8] và một
Sau khi thu được các giá trị xác suất cao nhất tương ứng
ảnh làm mảnh Cáccủa
nhánh
dấu. ởCác
mỗi nhóm
điểm ảnhmang
tại vị ýtrínghĩa biểu
góc trong phần do nhóm tác giả tự thu thập. Mỗi ảnh trong
với mỗi cặp dấu, chúng tôi tính tổng xác suất từng cặp và so
diễnđầu
ảnh ban một dấuloại
được đơnbỏtrong dấutọa
dựa trên kép
độđang
góc (vàxét.vùng
Nếulân ta bộđểdữchọn
sánh liệurachứa một
cặp có xácký tựtổng
suất tiếngcaoViệt cóKết
nhất. dấu.quảQuá
nhận
cận của
chỉgóc)
đơnthu được liên
thuần từ ảnh làm
kết mảnh
các nhằmdựa
nhánh mụctrênđíchvịtách
trí dạng của cặp dấu đơn này được xem là kết quả cuối phục
trình tách dấu được thực hiện thủ công để cùng.
riêng từng nhánh tương ứng với góc đang xét. Tiếp theo, các
của chúng trong ảnh ban đầu, dấu đơn thu được vụ cho việc huấn luyện. Một số ký tự được trình
nhánh được gom vào 2 nhóm, tương ứng với 2 dấu đơn cần 4. Kết quả thử nghiệm
nhận trở nên không đầy đủ do các điểm ảnh tại góc đã
dạng. bày trong hình 8.
bị loại bỏ. Vì vậy, chúng tôi sử dụng phép trừ
3.5.1. Tách các nhánh
ảnh để xác định dấu đơn tương ứng với mỗi
Tọa độ điểm góc đã xác định ở quá trình kiểm tra dấu TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI
nhóm. Cụ thể, với mỗi nhóm, chúng tôi tiến
được sử dụng để tách riêng các nhánh như sau: Việc huấn luyện được thực hiện với 120 xác th
hành trừ đi các nhánh trong nhóm đó trên ảnh
• Loại bỏ điểm góc hiện tại mẫu
(Â) cho (Â)mỗi (Ã)dấu đơn, TẠP tương
(Ă) (Ấ)KHOA
CHÍ ứng(Ể) với VÀ
HỌC số (Ỗ)
lượng NGHỆ,
CÔNG thể ĐẠ
là g
• gốc
Đặt rđể= 1thu
(bánđược ảnh lân
kính vùng đơncận)
tương ứng với các
mẫuHình huấn8.8:luyện
Hình là 720. Tập mẫu thử nghiệm
Việc Mộthuấnsốluyện
ký tự có dấu thực
tronghiện
tập dữ vớiliệu
Một số ký tự có dấu trong tập dữ liệu
nhánh trong nhóm còn
• Đặt n = số vùng liên thônglại. Một ví dụ cụ thể được được 120 5. Kết
được chia thành 2 nhóm, nhóm đầu tiên chứa các
• Lặp lại4 các bước sau đến khi n > 1 mẫu nay
Hiện cho chưa
mỗi có dấubộđơn,
dữ liệu tương
chuẩnứng vớitựsố
về ký viếtlượng
tay tiếng
– r=r+1 Việtdấunênđơn
mẫu giải với tổng
huấnpháp luyện
số mẫu
đề xuất
là 720.đượclà thử
Tập
300 chia với
nghiệm
mẫu thử
đềudữ cho
nghiệmliệu6 cục
mới để
– Xóa điểm ảnh thuộc vùng lân cận r×r bộ. lớp,
Các kýnhóm cònđược
tự này lại gồm
lấy từ320 nguồn mẫudữtương
liệu mở ứng củavớicác8sinh
được chia thành 2 nhóm, nhóm đầu tiên chứa các
– n = số vùng liên thông hiện tại viêndấu kép.Đại
trường Kếthọc quảBách
thử khoa
nghiệm Hà vớiNội nhóm
[8] và dấu
một đơn phần do tự viết
• Lấy tất cả nhánh đã tách nhóm dấu đơn
tác giả vớithu
tự tổng
thập. sốMỗi mẫuảnh là trong
300 chiabộ dữ đều
liệu cho
chứa 6một bằng
thấp nv
được trình bày ở bảng 1.
ký tựlớp, nhóm
tiếng Việtcòn lại gồm
có dấu. Quá320 trìnhmẫu táchtương ứng thực
dấu được với 8hiện thuật
xác thg
Sau khi thực hiện quá trình tách nhánh cho các góc trong
mỗi dấu, ta thu được một tập hợp các nhánh riêng lẻ. Lưu thủ công đểBảng
dấu kép. Kết1.vụ
phục Kết quả
quảchothử nhận
nghiệm
việc huấndạngvới dấunhóm
luyện. đơn dấu đơn
Một số ký tự được đang thể làx
ý rằng với dấu kép có góc nối 3 nhánh (hình 5a) thì chỉ góc trìnhđược
bàyDấutrình bày
trong Hìnhở8.bảng 1. đơn và
5. Kết
này được tách nhánh; ngược lại, với dấu kép có hai góc 2 Bảng 1. Kết quả nhận dạng dấu đơn
Bảng 1: Một số ký tự có dấu trong tập dữ liệu xích k
nhánh (Hình 5c), bước tách nhánh được thực hiện với cả Mẫu thử 50 50 50 50 50 50
dụng c
hai góc. Dấu mới đ
Nhận dạng 48 49 46 42 43 41 Ưu điể
3.5.2. Phân nhóm các nhánh Mẫu thử 50 50 50 50 50 50 tự viế
Tỉ lệ 96% 98% 92% 84% 86% 82% có thể
bằng v
Việc phân chia các nhánh vào hai nhóm được thực hiện Nhận dạng 48 49 46 42 43 41 cặp dấ
Trung bình 89.7% thuật
bằng cách chọn 2 nhánh đưa vào nhóm 1 và các nhánh còn tính to
lại được đưa vào nhóm 2. Do đó, ta có cách phân nhóm. Tỉ lệ 96% 98% 92% 84% 86% 82% đang x
Với nhóm dấu kép, kết quả tách dấu khá theo th
Các nhánh ở mỗi nhóm mang ý nghĩa biểu diễn một dấu đơn v
khả quan
Trung khi độ chính xác89.7%
bình trung bình lên đến
đơn trong dấu kép đang xét. Nếu ta chỉ đơn thuần liên kết xích k
hơn 94%.
các nhánh dựa trên vị trí của chúng trong ảnh ban đầu, dấu Với nhóm dấu kép, kết quả tách dấu khá dụng
đơn thu được trở nên không đầy đủ do các điểm ảnh tại góc BảngBảng2. Kết quả
2: Kết phân
quả phântách
khả quan khi độ chính xác trung bình lên đến
tách dấu
dấuképkép
Ưu đi
đã bị loại bỏ. Vì vậy, chúng tôi sử dụng phép trừ ảnh để có thể
hơn
Dấu Số mẫu thử Tách chính xác
94%. Tỉ lệ
xác định dấu đơn tương ứng với mỗi nhóm. Cụ thể, với mỗi
Bảng 2. Kết quả phân tách dấu kép cặp dấ
nhóm, chúng tôi tiến hành trừ đi các nhánh trong nhóm đó 40 38 95.0%
trên ảnh gốc để thu được ảnh đơn tương ứng với các nhánh tính to
Dấu Số mẫu thử Tách chính xác Tỉ lệ
trong nhóm còn lại. Một ví dụ cụ thể được trình bày trong 40 40 100% theo th
Hình 7. 40 38 95.0%
40 39 97.5%
40 40 100% này sẽ
40 38 95.0% áp dụn
40 39 97.5% không
40 36 90.0%
40 38 95.0% chính
40 40 100% hiệu q
40 36 90.0%
40 35 87.5%
này sẽ
40 40 100%
Hình 7: 3 cách chia nhóm cho 1 dấu kép (‘∧’và ‘∼’) 40 37 92.5% áp dụn
40 35 87.5% không
3.5.3. Nhận dạng từng cặp dấu đơn Độ chính xác trung bình: 94.7%
chính
Quá trình này được thực hiện dựa trên mô hình Markov Trong bảng 1, hai dấu có tỉ lệ nhận dạng hiệu q
ẩn [7] và đặc trưng mã xích [5] (chain code). Phương pháp Việc huấn luyện được thực hiện với 120 mẫu TÀIcho LIỆUmỗiTHAM
thấp nhất là ‘^’ và ‘~’. Các kết quả không chính
học máy này được chọn vì mức độ hiệu quả cao và cần thiết dấu [1]
đơn, De tươngCao ứngTranvới số lượng mẫu
(2012), “An huấn luyện method
efficient là 720. for o
recognition”, Proceedings of the Third Symposiu 23
TÀI LIỆU THAM
- TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 1(74).2014.QUYỂN II
Tập mẫu thử nghiệm được chia thành 2 nhóm, nhóm đầu số luật về chính tả cũng có thể được kết hợp để nâng cao
tiên chứa các dấu đơn với tổng số mẫu là 300 chia đều cho hiệu quả nhận dạng.
6 lớp, nhóm còn lại gồm 320 mẫu tương ứng với 8 dấu kép.
Kết quả thử nghiệm với nhóm dấu đơn được trình bày ở Tài liệu tham khảo
Bảng 1.
Với nhóm dấu kép, kết quả tách dấu khá khả quan khi [1] De Cao Tran (2012), “An efficient method for on-line Vietnamese
handwritten character recognition”, Proceedings of the Third
độ chính xác trung bình lên đến hơn 94% (Bảng 2). Symposium on Information and Communication Technology, pp.
135-141.
5. Kết luận [2] De Cao Tran, Patrick Franco, Jean-Marc Ogier (2010), “Accented
Bài báo này trình bày một cách tiếp cận mới để giải Handwritten Character Recognition Using SVM – Application to
French”, International Conference on Frontiers in Handwriting
quyết vấn đề nhận dạng dấu trong ký tự viết tay tiếng Việt. Recognition (ICFHR), Kolkata, pp. 65-71.
Giải pháp đề xuất bắt đầu bằng việc xác định dấu trong ký [3] Gary Bradski, Adrian Kaehler (2008), Learning OpenCV, pp.
tự dựa trên kĩ thuật gán nhãn vùng liên thông. Tiếp theo, dấu 115-120.
đang xét được kiểm tra và phân vào 2 lớp: dấu đơn và dấu [4] Sivaramakrishnan Rajaraman, Arun Chokkalingam (2013),
“Connected Components Labeling and Extraction Based Interphase
kép. Quá trình nhận dạng bằng mã xích kết hợp với mô hình Removal from Chromosome Images”, International Journal of
Markov ẩn được áp dụng cho dấu đơn hoặc dấu kép đã phân Bio-Science and Bio-Technology, vol. 5, no. 1, pp. 81-90.
tách. Ưu điểm lớn nhất ở cách tiếp cận này là các dấu có thể [5] Mark Nixon, Alberto Aguado (2008), Feature Extraction & Image
Processing 2nd, Academic Press, UK.
được nhận dạng cả khi có sự liên kết tại cặp dấu trong cùng [6] D.Parks, J.P.Gravel (2004), “Corner Detection”, International
một ký tự. Ngoài ra, chi phí tính toán cũng đáp ứng được Journal of Computer Vision.
yêu cầu nhận dạng theo thời gian thực. [7] Sung-Jung Cho (2005), “Introduction to Hidden Markov Model
and Its Application”, Samsung Advanced Institute of Technology
Trong các nghiên cứu tiếp theo, giải pháp này sẽ được (SAIT).
cải tiến để tăng khả năng nhận dạng, áp dụng được cho một [8] Sapphire-ocr data, http://sapphire-ocr.googlecode.com
số trường hợp cách viết không chính xác. Bên cạnh đó, một /files/samples-full.zip.
(BBT nhận bài: 21/12/2013, phản biện xong: 27/12/2013)
24
nguon tai.lieu . vn