- Trang Chủ
- Cơ sở dữ liệu
- Đánh giá độ khó của văn bản tiếng Việt sử dụng mô hình tiền huấn luyện kết hợp với các đặc trưng ngôn ngữ
Xem mẫu
- Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIV về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), TP. HCM, ngày 23-24/12/2021
DOI: 10.15625/vap.2021.0090
ĐÁNH GIÁ ĐỘ KHÓ CỦA VĂN BẢN TIẾNG VIỆT SỬ DỤNG MÔ HÌNH
TIỀN HUẤN LUYỆN KẾT HỢP VỚI CÁC ĐẶC TRƯNG NGÔN NGỮ
Lương An Vinh1,2,3, Phan Thanh Quan1,2, Huỳnh Trọng Hùng1,2
1
Trung tâm Ngôn ngữ học Tính toán, Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia TP. Hồ Chí Minh
2
Đại học Quốc gia TP. Hồ Chí Minh
3
Đại học Công nghệ Sài Gòn
anvinhluong@gmail.com, 1712686@student.hcmus.edu.vn, 1712471@student.hcmus.edu.vn
TÓM TẮT: Đánh giá độ khó của văn bản là bài toán xác định mức độ phù hợp của văn bản với khả năng đọc hiểu của một
nhóm đối tượng người đọc. Vì vậy việc xác định được độ khó của văn bản có ảnh hưởng lớn đến việc lựa chọn các văn bản phù hợp
với lứa tuổi, trình độ của độc giả cũng như việc soạn thảo các bài giảng trong sách giáo khoa sao cho phù hợp trình độ học sinh.
Đã có nhiều nghiên cứu đạt thành tựu về đánh giá độ khó của văn bản trong tiếng Anh và một số ngôn ngữ phổ biến khác. Tuy
nhiên, trong tiếng Việt, việc nghiên cứu độ khó văn bản còn mới mẻ và chủ yếu tập trung vào việc tìm hiểu những đặc trưng ngôn
ngữ bằng các mô hình học máy thống kê. Trong nghiên cứu này, chúng tôi muốn áp dụng một phương pháp tiếp cận mới, đó là sử
dụng mô hình học sâu tiền huấn luyện kết hợp với một số đặc trưng ngôn ngữ tiếng Việt. Mô hình học sâu chúng tôi dùng là BERT
và RoBERTa, sử dụng mô hình tiền huấn luyện có sẵn của PhoBERT, kết quả thu được sẽ được dùng để tiếp tục huấn luyện. Các
đặc trưng ngôn ngữ như số lượng câu, từ, ký tự, độ dài trung bình của câu, tỷ lệ từ địa phương,… sẽ được thêm vào mô hình trước
khi cho ra kết quả phân lớp. Thực nghiệm đánh giá trên bộ ngữ liệu được thu thập từ sách giáo khoa Văn học, Sinh học và Giáo dục
công dân của học sinh Việt Nam. Kết quả của phương pháp mới cho thấy mô hình dự đoán đạt độ chính xác cao và có sự cải tiến so
với các mô hình học máy thống kê. Tuy nhiên việc thêm vào các đặc trưng ngôn ngữ không hoàn toàn làm tăng hiệu suất của mô
hình.
Từ khóa: Độ khó văn bản, mô hình học sâu, đặc trưng ngôn ngữ, tiếng Việt.
I. GIỚI THIỆU
Ngày nay, trong kỷ nguyên bùng nổ của công nghệ thông tin, có rất nhiều văn bản và tài liệu được tạo ra mỗi
giây. Tuy nhiên, không phải văn bản nào cũng phù hợp để đọc với mỗi người. Việc lựa chọn ra một văn bản, một
cuốn sách phù hợp với trình độ hiểu biết của người đọc là một vấn đề cần được quan tâm. Từ cuối thế kỷ XIX, các
nhà nghiên cứu đã tìm cách để phân loại các văn bản theo độ khó, theo số năm học mà một người cần có để có thể
hiểu được văn bản. Theo Harry McLaughlin (1969), định nghĩa độ khó văn bản là “mức độ mà một nhóm người nhất
định cảm thấy việc đọc văn bản đó hấp dẫn và dễ hiểu” [1]. Định nghĩa này nhấn mạnh mối quan hệ giữa văn bản
(độ phức tạp của từ vựng, cú pháp, ngữ nghĩa) và người đọc (kỹ năng đọc, kiến thức nền tảng, động lực) trong việc
xác định độ khó văn bản.
Trên thực tế, đánh giá độ khó văn bản có nhiều ứng dụng trong các lĩnh vực khác nhau. Một văn bản càng dễ
đọc và nội dung rõ ràng thì càng có nhiều khả năng thu hút và giữ được sự hứng thú của người đọc. Ngược lại, văn bản
khó đọc làm người đọc mất đi tính kiên nhẫn và động lực để tiếp tục. Trong giáo dục, độ khó văn bản giúp biên soạn
bài giảng, sách giáo khoa, đề thi sao cho tương đương với trình độ học sinh từng khối. Trong công nghiệp, nó được
dùng để viết hướng dẫn sử dụng trên sản phẩm để phù hợp với mức độ đọc hiểu trung bình của người dùng. Các văn
bản luật, Hiến pháp, các biểu mẫu, công văn, quy định phải được viết sao cho có thể truyền bá thông tin rộng rãi đến tất
cả người dân, đặc biệt là những người có trình độ văn hóa thấp và hạn chế về khả năng đọc viết. Nhiều doanh nghiệp
sử dụng độ khó văn bản cho các ứng dụng web và hệ thống truy xuất thông tin để ưu tiên hiển thị các trang kết quả phù
hợp với khả năng đọc của người dùng.
Những nghiên cứu về độ khó văn bản phần lớn tập trung vào tiếng Anh và các ngôn ngữ có nhiều ngữ liệu khác
như tiếng Trung Quốc, tiếng Nhật Bản, tiếng Ả Rập,… Các nghiên cứu chủ yếu chia làm ba phương hướng chính:
hướng thống kê truyền thống, hướng học máy và hướng học sâu sử dụng mạng nơron nhân tạo. Phương pháp thống kê
truyền thống tìm mối quan hệ giữa các đặc trưng ngôn ngữ và độ khó văn bản bằng thống kê tương quan và hồi quy.
Từ đó tìm ra các đặc trưng có ảnh hưởng cao nhất rồi thiết lập công thức tính độ khó. Các nghiên cứu theo phương
pháp này gồm có công thức SMOG [2], công thức Flesch-Kincaid [3], công thức Dale-Chall [4] cùng một số khác.
Trong khi đó, hướng tiếp cận học máy sử dụng các đặc trưng ngôn ngữ để huấn luyện mô hình phân lớp và mô hình
này có thể dự đoán độ khó của văn bản. Một số công trình nghiên cứu thuộc hướng này như của Aluisio và cộng sự [5],
Sinha và Basu [6], Chen và Daowadung [7]. Cách tiếp cận theo phương pháp học sâu vẫn còn mới mẻ, bằng cách huấn
luyện mô hình trên tập dữ liệu lớn, mô hình sẽ tự tìm ra mối liên hệ giữa văn bản và độ khó tương ứng thông qua mạng
nơron nhân tạo phức tạp. Đại diện cho hướng này gồm có công trình của Sun và cộng sự [8], Martinc và cộng sự [9],
Deutsch và cộng sự [10] và một số nghiên cứu khác.
Trong tiếng Việt, việc nghiên cứu độ khó văn bản vẫn còn hạn chế. Năm 1982 và 1985, Nguyen và Henkin [11,
18] đề xuất công thức để đánh giá độ khó văn bản tiếng Việt. Đến năm 2018, Luong và cộng sự [12] tạo ra một công thức
mới có độ chính xác cao hơn. Theo hướng học máy, Luong và cộng sự [13] cho thấy đặc trưng độ dài văn bản có ảnh
hưởng đến độ khó văn bản. Luong và cộng sự [14] cũng chỉ ra rằng đặc trưng từ loại làm cải thiện kết quả đánh giá.
- Phan Thanh Quan, Huỳnh Trọng Hùng, Lương An Vinh 463
Với sự phát triển của công nghệ, các mô hình học sâu đã chứng minh được nhiều thành tựu trong các tác vụ xử
lý ngôn ngữ tự nhiên. Tuy nhiên, chưa có nghiên cứu công bố nào sử dụng học sâu để đánh giá độ khó văn bản tiếng
Việt. Phần lớn là do sự thiếu hụt nguồn ngữ liệu được gán nhãn để huấn luyện các mô hình. Vì vậy, trong nghiên cứu
này, chúng tôi xây dựng thêm hai bộ ngữ liệu lấy từ sách giáo khoa Sinh học và Giáo dục công dân, cùng với bộ ngữ
liệu Văn học sẵn có để tiến hành thực nghiệm trên mô hình học sâu. Đồng thời, kế thừa những thành tựu của các
nghiên cứu đi trước, chúng tôi kết hợp mô hình học sâu với các đặc trưng ngôn ngữ để kiểm tra xem việc kết hợp đó có
làm tăng hiệu suất hay không.
Nội dung của bài báo này được trình bày theo bố cục như sau: Phần I giới thiệu chung. Phần II giới thiệu các
công trình liên quan đến đánh giá độ khó văn bản. Phần III trình bày các phương pháp chúng tôi đề xuất. Phần IV nói
về cách thu thập ngữ liệu. Phần V là thực nghiệm và kết quả. Cuối cùng phần VI kết luận lại vấn đề và hướng đi trong
tương lai.
II. CÁC CÔNG TRÌNH LIÊN QUAN
Trong phần này, chúng tôi sẽ giới thiệu các công trình nghiên cứu về đánh giá độ khó văn bản trên thế giới cũng
như trong tiếng Việt. Như đã nói ở phần I, đánh giá độ khó văn bản có thể được chia làm ba cách tiếp cận: (1) hướng
thống kê truyền thống, (2) hướng học máy và (3) hướng học sâu.
Các nghiên cứu theo hướng thống kê truyền thống xây dựng nên các công thức để đánh giá độ khó văn bản từ
các đặc trưng ngôn ngữ. Các đặc trưng này chủ yếu ở mức nông như tần suất từ, độ dài câu,… Chúng được chọn lọc
thông qua các thống kê tương quan và hồi quy. Có nhiều công trình nghiên cứu theo hướng này, điển hình như công
thức Dale-Chall [4], Flesch-Kincaid [3], Gunning Fog [15], McLaughlin Smog [2]. Trong tiếng Nga có nghiên cứu của
Solnyshkina và cộng sự [16], và nghiên cứu của Soh [17] trong tiếng Trung Quốc. Đối với tiếng Việt, có thể kể đến
nghiên cứu của Nguyen và Henkin [11] năm 1982, Nguyen và Henkin [18] năm 1985. Đến năm 2018, Luong và cộng
sự [12] tạo ra công thức mới đánh giá độ khó văn bản tiếng Việt dựa trên các đặc trưng độ dài trung bình của câu, độ
dài trung bình của từ và tỷ lệ các từ khó.
Hướng tiếp cận học máy cũng sử dụng các đặc trưng ngôn ngữ, nhưng sâu hơn về mặt cú pháp và ngữ nghĩa.
Các mô hình học máy như hồi quy tuyến tính, Support Vector Machine (SVM) được dùng để phân lớp các văn bản
theo độ khó. Một số nghiên cứu đáng chú ý theo phương pháp này gồm có Aluisio và cộng sự [5] đánh giá độ khó văn
bản bằng tiếng Bồ Đào Nha ở Braxin, Sinha và Basu [6] trong tiếng Bengal, Chen và Daowadung [7] trong tiếng Thái.
Trong tiếng Việt, những năm gần đây chỉ có các công trình sau: Luong và cộng sự [13] dùng mô hình SVM để kiểm
chứng đặc trưng độ dài văn bản có ảnh hưởng đến độ khó văn bản tiếng Việt trong sách giáo khoa Văn học của học
sinh tiểu học và trung học. Luong và cộng sự [19] thực nghiệm trên tập ngữ liệu gồm 371 văn bản lấy từ sách giáo
khoa Văn học từ lớp 2 đến lớp 12, cho thấy các đặc trưng từ loại và các đặc trưng đặc biệt của tiếng Việt như tỷ lệ từ
Hán Việt, tỷ lệ từ địa phương làm tăng hiệu năng mô hình. Luong và cộng sự [14] dùng nhiều mô hình học máy như
cây quyết định, K láng giềng gần nhất, SVM để cho thấy đặc trưng từ loại ảnh hưởng lên kết quả phân lớp. Thêm vào
đó, Luong và cộng sự [20] còn trích ra 271 đặc trưng nhiều cấp độ từ từ vựng, từ loại, cú pháp đến ngữ nghĩa để đánh
giá độ khó văn bản tiếng Việt.
Cách tiếp cận cuối cùng và cũng là mới nhất là phương pháp học sâu sử dụng mạng nơron nhân tạo. Các mô
hình học sâu như Convolutional Neural Network (CNN), Recurrent Neural Network (RNN), Hierarchical Attention
Network (HAN) được huấn luyện trên tập dữ liệu lớn để dự đoán độ khó văn bản. Một vài nghiên cứu dùng mô hình
học sâu như là công trình của Sun và cộng sự [8] dùng mạng RNN, Martinc và cộng sự [9] sử dụng nhiều mô hình
học sâu có giám sát và không có giám sát để xác định độ khó, Deutsch và cộng sự [10] dùng mô hình học sâu kết
hợp với các đặc trưng ngôn ngữ. Trong tiếng Việt, đến thời điểm bây giờ vẫn chưa có nghiên cứu nào sử dụng
phương pháp này.
III. PHƯƠNG PHÁP
Trong phần này, chúng tôi trình bày những phương pháp thiết kế mô hình để giải quyết bài toán đánh giá độ khó
văn bản tiếng Việt.
Mô hình BERT (Bidirectional Encoder Representations from Transformers) [21], tạm dịch là mô hình mã hóa
biểu diễn hai chiều ứng dụng Transformers, là mô hình ngôn ngữ được thiết kế để tiền huấn luyện biểu diễn hai chiều
của từ bằng cách điều chỉnh kết hợp cả ngữ cảnh bên trái và bên phải trong tất cả các tầng. Điều này làm nên sự khác
biệt của BERT so với các mô hình biểu diễn ngôn ngữ trước đó như GPT [22] chỉ sử dụng ngữ cảnh một chiều hay
ELMo [23] sử dụng liên kết nông giữa hai ngữ cảnh một chiều. Kết quả là BERT đạt được kết quả vượt trội hơn và trở
thành ngôi sao sáng trong lĩnh vực xử lý ngôn ngữ tự nhiên những năm gần đây. BERT và các cải tiến của BERT đã
liên tiếp đạt các kết quả tân tiến nhất trong nhiều tác vụ như hỏi đáp, dự đoán câu tiếp theo,… Có hai chiến thuật để áp
dụng tiền huấn luyện biểu diễn ngôn ngữ lên các bài toán xử lý ngôn ngữ tự nhiên là feature-based (sử dụng các biểu
diễn có được như các đặc trưng để huấn luyện trên một mô hình khác) và fine-tuning based (huấn luyện cho bài toán
bằng việc tinh chỉnh các tham số từ tiền huấn luyện). BERT cho phép sử dụng cả hai chiến thuật trên, chúng tôi sẽ trình
bày phương pháp tiếp cận có sử dụng BERT (hay biến thể của BERT như RoBERTa [24]) cùng với tiền huấn luyện
PhoBERT [25] một cách linh hoạt.
- 464 ĐÁNH GIÁ ĐỘ KHÓ CỦA VĂN BẢN TIẾNG VIỆT SỬ DỤNG MÔ HÌNH TIỀN HUẤN LUYỆN KẾT HỢP VỚI…
A. Phương pháp tiếp cận không tinh chỉnh tham số tiền huấn luyện BERT (BERT feature-based)
BERT được tiền huấn luyện trên một lượng ngữ liệu lớn để hiểu được ngôn ngữ nói chung và tạo ra những biểu
diễn mang ngữ cảnh hai chiều nên có căn cứ để tin rằng vector biểu diễn văn bản của BERT hiệu quả hơn các biểu diễn
word embedding của mô hình không mang ngữ cảnh như word2vec [26]. Do đó trong cách tiếp cận này, chúng tôi dựa
vào khả năng biểu diễn văn bản của mô hình tiền huấn luyện BERT để biến văn bản thành các vector đặc trưng, sau đó
tiếp tục huấn luyện. Hình 1 mô tả kiến trúc mô hình theo hướng không tinh chỉnh tham số.
Hình 1. Mô hình huấn luyện theo phương pháp tiếp cận không tinh chỉnh tham số tiền huấn luyện BERT
Vì hạn chế của BERT không thể biểu diễn các văn bản dài được nên văn bản được chia thành các đoạn nhỏ hơn
(1). Chuyển văn bản thành dạng token (phụ thuộc vào mô hình tiền huấn luyện) rồi chia thành các vector 256 tokens
(đã tính token [CLS] và [SEP]) hoặc chia thành các câu rồi chuyển mỗi câu thành vector 100 tokens (thêm token đệm
nếu không đủ 100 tokens). Bước tiếp theo là đưa các vector qua mô hình BERT đã khởi tạo tham số từ tiền huấn luyện
PhoBERTBASE [25] để lấy được các vector đặc trưng (2). Sau đó lấy trung bình các vector này tạo thành một vector đặc
trưng duy nhất biểu diễn văn bản (3). Chúng tôi đã quyết định giảm chiều bằng lớp Dense, sau đó có thể nối thêm
vector đặc trưng ngôn ngữ (4) như số lượng câu, từ, ký tự, độ dài câu, tỷ lệ từ địa phương,… Cuối cùng là tầng Dense
và lớp Softmax để cho ra kết quả phân lớp.
B. Phương pháp tiếp cận có tinh chỉnh tham số tiền huấn luyện BERT (BERT fine-tuning)
Hình 2. Mô hình huấn luyện theo phương pháp tiếp cận có tinh chỉnh tham số tiền huấn luyện BERT
BERT cho phép tinh chỉnh bộ tham số của mô hình tiền huấn luyện cho các tác vụ downstream. Do đặc tính của
ngữ liệu khảo sát trên văn bản dài, có khá nhiều mẫu có độ dài vượt quá ngưỡng đầu vào của BERT. Thường thì chiến
thuật để giải quyết vấn đề này là cắt bớt văn bản, kết quả là chỉ giữ phần đầu, giữa hoặc cuối của văn bản, làm mất đi
một phần ngữ liệu, không tận dụng được tối đa tiềm năng của ngữ liệu. Vẫn mong muốn giữ được nhiều ngữ liệu để
cho vào quá trình tinh chỉnh mô hình nhất có thể, chúng tôi đã quyết định chia mỗi văn bản ra thành những đoạn nhỏ
hơn giống với bước (1) phần III-A (mỗi đoạn văn bản mang nhãn của văn bản đó) sau đó đưa vào mô hình BERT đã
thêm tầng phân lớp và khởi tạo sẵn tham số từ tiền huấn luyện PhoBERTBASE [25] để tinh chỉnh tham số cho bài toán
- Phan Thanh Quan, Huỳnh Trọng Hùng, Lương An Vinh 465
phân lớp. Tuy nhiên kết quả phân lớp không được cao, do đó chúng tôi đã tiến hành lấy các vector biểu diễn có được từ
mô hình đã tinh chỉnh để huấn luyện trên một mô hình phân lớp khác.
Sau khi có được mô hình BERT đã tinh chỉnh (2), việc tiếp theo có thể hoàn thành giống như các bước của
phương pháp BERT feature-based. Nhưng chúng tôi cảm thấy việc lấy trung bình có thể không được hiệu quả vì mất đi
thứ tự của các đoạn trong văn bản nên đã thực hiện một ít sửa đổi. Thay vì lấy trung bình các vector embedding thì
chúng tôi cho các vector theo đúng thứ tự trong văn bản đi vào một lớp LSTM và lấy kết quả của tầng cuối tiếp tục
huấn luyện (3). Mục đích là giữ lại thông tin về thứ tự của các đoạn trong văn bản. Chúng tôi cũng khảo sát hiệu quả
của việc có hay không thêm vector đặc trưng ngôn ngữ trích xuất từ ngữ liệu (4). Hình 2 mô tả kiến trúc mô hình theo
hướng có tinh chỉnh tham số.
IV. NGỮ LIỆU
Bảng 1. Thống kê ngữ liệu trên bộ Văn học và Sinh học
Ngữ liệu Văn học Sinh học
Cấp độ Cấp 1 Cấp 2 Cấp 3 Tổng Cấp 1 Cấp 2 Cấp 3 Tổng
thể thể
Số văn bản 209 78 83 370 131 229 112 472
Số câu trung bình 20,77 69,47 99,08 48,61 12,53 32,10 55,38 32,19
Số từ trung bình 200,83 952,35 1484,33 647,18 123,60 402,17 769,77 412,08
Số âm tiết trung bình 232,62 1116,18 1833,31 777,96 155,10 517,22 1018,36 535,63
Số ký tự trung bình 760,46 3658,77 6072,02 2562,97 514,91 1731,68 3465,33 1805,35
Số từ phân biệt trung bình 126,57 389,69 523,84 271,16 69,37 175,50 249,65 163,64
Số âm tiết phân biệt trung bình 142,33 418,92 542,93 290,51 81,70 200,21 277,35 185,62
Độ dài trung bình của câu tính theo từ 10,25 16,51 16,34 12,93 9,86 12,46 14,08 12,13
Độ dài trung bình của câu tính theo âm 11,98 19,67 20,74 15,57 12,51 16,05 18,65 15,69
tiết
Độ dài trung bình của câu tính theo ký tự 39,42 64,83 69,16 51,45 41,60 53,69 63,53 52,67
Tỷ lệ từ địa phương 0,0686 0,0560 0,0472 0,0611 0,0709 0,0588 0,0446 0,0588
Tỷ lệ từ địa phương phân biệt 0,0645 0,0587 0,0492 0,0599 0,0692 0,0598 0,0483 0,0597
Bảng 2. Thống kê ngữ liệu trên bộ Giáo dục công dân và Văn học mở rộng
Ngữ liệu Giáo dục công dân Văn học mở rộng
Cấp độ Cấp 1 Cấp 2 Cấp 3 Tổng Rất Dễ Trung Khó Tổng
thể dễ bình thể
Số văn bản 28 75 41 144 809 453 242 321 1825
Số câu trung bình 15,61 27,77 81,95 40,83 16,70 70,25 186,90 174,58 32,19
Số từ trung bình 148,07 369,13 1411,37 622,90 167,89 932,70 2485,65 4206,55 412,08
Số âm tiết trung bình 183,96 502,92 2101,95 896,18 191,92 1080,94 2905,83 5796,89 535,63
Số ký tự trung bình 601,68 1678,52 7110,05 3015,61 622,33 3535,24 9543,02 19950,24 1805,35
Số từ phân biệt trung bình 98,32 197,47 389,80 232,95 100,81 385,29 712,14 1029,38 163,64
Số âm tiết phân biệt trung 116,00 238,69 426,29 268,25 111,91 411,01 709,11 909,13 185,62
bình
Độ dài trung bình của câu 9,80 13,73 17,04 13,91 10,63 14,25 14,65 24,70 12,13
tính theo từ
Độ dài trung bình của câu 12,77 18,94 25,40 19,58 12,18 16,62 17,60 34,21 15,69
tính theo âm tiết
Độ dài trung bình của câu 42,53 63,33 85,99 65,74 39,57 54,56 58,18 117,79 52,67
tính theo ký tự
Tỷ lệ từ địa phương 0,0546 0,0410 0,0270 0,0397 0,0785 0,0627 0,0572 0,0386 0,0588
Tỷ lệ từ địa phương phân biệt 0,0480 0,0415 0,0308 0,0397 0,0688 0,0611 0,0551 0,0330 0,0597
Chúng tôi sử dụng lại bộ ngữ liệu trong nghiên cứu của Luong và cộng sự [19] bao gồm 370 văn bản lấy từ sách
giáo khoa của học sinh tiểu học và sách Ngữ văn của học sinh trung học cấp hai và cấp ba, và 1825 văn bản văn học
mở rộng được xây dựng từ nghiên cứu của Luong và cộng sự [27]. Chúng tôi còn xây dựng thêm hai bộ ngữ liệu để
phục vụ nghiên cứu. Đó là bộ ngữ liệu sách giáo khoa Sinh học từ lớp 3 đến lớp 12 gồm 472 mẫu và sách giáo khoa
Giáo dục công dân từ lớp 4 đến lớp 12 gồm 144 mẫu.
Cách thu thập ngữ liệu giống như bước tiền xử lý của Luong và cộng sự [27]. Đầu tiên, chúng tôi lấy các văn
bản trong sách giáo khoa đã được scan chuyển thành định dạng kỹ thuật số bằng công cụ OCR (Optical Character
Recognition). Sau đó các văn bản được chỉnh sửa bằng tay, kiểm tra lỗi chính tả, chuẩn hóa dấu câu và tách câu.
Bộ ngữ liệu Văn học mở rộng được chia làm bốn cấp độ rất dễ, dễ, trung bình và khó dưới sự đánh giá của các
chuyên gia [27]. Còn bộ ngữ liệu sách giáo khoa Văn học, Sinh học và Giáo dục công dân được chia làm ba cấp độ
- 466 ĐÁNH GIÁ ĐỘ KHÓ CỦA VĂN BẢN TIẾNG VIỆT SỬ DỤNG MÔ HÌNH TIỀN HUẤN LUYỆN KẾT HỢP VỚI…
theo khối tiểu học, trung học cơ sở và trung học phổ thông. Bảng 1 và Bảng 2 tóm tắt thông tin các bộ ngữ liệu với các
đặc trưng ngôn ngữ được sử dụng trong mô hình.
V. THỰC NGHIỆM
Trong quá trình thực nghiệm thì mô hình RoBERTa cho kết quả cao hơn mô hình BERT nên chúng tôi quyết
định sử dụng RoBERTa. Chúng tôi sử dụng tất cả 8 thực nghiệm dựa trên 2 mô hình đề xuất ở phần III như sau:
(1) RoBERTa feature-based, văn bản chia thành các đoạn 256 tokens, không nối vector đặc trưng ngôn ngữ.
(2) RoBERTa feature-based, văn bản chia thành các đoạn 256 tokens, có nối vector đặc trưng ngôn ngữ.
(3) RoBERTa feature-based, văn bản chia thành các câu, không nối vector đặc trưng ngôn ngữ.
(4) RoBERTa feature-based, văn bản chia thành các câu, có nối vector đặc trưng ngôn ngữ.
(5) RoBERTa fine-tuning, văn bản chia thành các đoạn 256 tokens, không nối vector đặc trưng ngôn ngữ.
(6) RoBERTa fine-tuning, văn bản chia thành các đoạn 256 tokens, có nối vector đặc trưng ngôn ngữ.
(7) RoBERTa fine-tuning, văn bản chia thành các câu, không nối vector đặc trưng ngôn ngữ.
(8) RoBERTa fine-tuning, văn bản chia thành các câu, có nối vector đặc trưng ngôn ngữ.
Chúng tôi tiến hành huấn luyện 5 lần với ngữ liệu Văn học mở rộng, 10 lần với các tập ngữ liệu còn lại, tất cả
ban đầu được xáo trộn, sau đó ngữ liệu được chia theo tỷ lệ 0,7:0,15:0,15 tương ứng với train:validation:test, sau đó lấy
trung bình kết quả trên tập test. Như tác giả Nguyen và Nguyen của PhoBERT [25] yêu cầu tách từ đối với tiếng Việt
trước khi chuyển từ dạng văn bản thành dạng token embedding, tuy nhiên trong quá trình thực nghiệm, chúng tôi nhận
thấy khi không thực hiện tách từ, các kết quả đánh giá cao hơn so với khi có tách từ, do đó, ở bước 1 của Hình 1 và
bước 1 của Hình 2, chúng tôi không thực hiện tách từ trước khi đưa vào BERT.
Trong phương pháp có tinh chỉnh BERT chúng tôi tinh chỉnh 3 epochs với ngữ liệu Văn học mở rộng, 5 epochs
với ngữ liệu còn lại; learning rate 2e-5; kích thước batch 32. Mô hình có độ chính xác cao nhất trên tập validation sẽ
được giữ lại để tiến hành lấy vector embedding cho các bước huấn luyện tiếp theo.
Vector biểu diễn văn bản trước khi nối với đặc trưng ngôn ngữ có số chiều là 32 (sau khi ra khỏi BERT thì có số
chiều là 768), vector đặc trưng ngôn ngữ có chiều là 11. Các đặc trưng ngôn ngữ sử dụng bao gồm số câu, số từ, số âm
tiết, số ký tự, số từ phân biệt, số âm tiết phân biệt, độ dài trung bình của câu tính theo từ, độ dài trung bình của câu tính
theo âm tiết, độ dài trung bình của câu tính theo ký tự, tỷ lệ từ địa phương, tỷ lệ từ địa phương phân biệt. Các đặc trưng
này được chọn lọc từ các nghiên cứu của Luong và cộng sự [19], Luong và cộng sự [27]. Bảng 3 mô tả độ chính xác
của các mô hình chúng tôi sử dụng trên các bộ ngữ liệu khác nhau.
Bảng 3. Kết quả thực nghiệm các mô hình
BERT Cách chia Thêm đặc trưng Độ chính xác Độ chính xác
văn bản ngôn ngữ Văn học mở rộng Sinh học
(1) Không tinh chỉnh 256 tokens Không 0,8048 0,8928
(2) Không tinh chỉnh 256 tokens Có 0,8777 0,5414
(3) Không tinh chỉnh Câu (100 tokens) Không 0,8551 0,7557
(4) Không tinh chỉnh Câu (100 tokens) Có 0,8582 0,5171
(5) Có tinh chỉnh 256 tokens Không 0,9414 0,9428
(6) Có tinh chỉnh 256 tokens Có 0,9363 0,9326
(7) Có tinh chỉnh Câu (100 tokens) Không 0,8580 0,8667
(8) Có tinh chỉnh Câu (100 tokens) Có 0,9114 0,8548
Bảng 4. Kết quả thực nghiệm của mô hình có sử dụng RoBERTa tốt nhất và mô hình SVM với K-folds (K = 5)
Mô hình Văn học mở rộng Sinh học Văn học Sinh học + Văn học
+ Giáo dục công dân
Acc F1 Acc F1 Acc F1 Acc F1
SVM [27] 0,9505 0,9314 0,7862 0,7834 0,7919 0,6995 0,7982 0,7893
RoBERTa best (5) 0,9344 0,9112 0,9319 0,9300 0,8297 0,7598 0,8941 0,8890
Do ngữ liệu sách giáo khoa Giáo dục công dân chỉ có 144 mẫu nên chúng tôi huấn luyện chung với các tập ngữ
liệu khác. Từ Bảng 3 chúng ta có thể thấy, kết quả cao nhất khi thực nghiệm trên tập ngữ liệu Giáo dục công dân kết
hợp với Sinh học cũng đạt được từ mô hình thực nghiệm 5 với độ chính xác 93,63%. Chúng tôi cũng so sánh mô hình
này với mô hình đạt kết quả cao nhất mà Luong và cộng sự [27] đã sử dụng là SVM áp dụng lên vector đặc trưng ngôn
ngữ với K-folds cross validation. Bảng 4 trình bày các kết quả so sánh với hai độ đo là độ chính xác (Acc) và điểm F1
(average = macro), trong đó mô hình của chúng tôi đạt kết quả cao hơn (cả hai độ đo) trên 3/4 tập ngữ liệu, trừ tập Văn
học mở rộng kém hơn 1,61% độ chính xác và 2,02 điểm F1.
- Phan Thanh Quan, Huỳnh Trọng Hùng, Lương An Vinh 467
VI. KẾT LUẬN
Độ chính xác cao nhất 94,14% (Bảng 3) trên ngữ liệu Văn học mở rộng và 94,28% (Bảng 3) trên ngữ liệu Sinh
học đều cùng một mô hình có tinh chỉnh BERT, chia dữ liệu thành các đoạn 256 tokens, không thêm đặc trưng ngôn
ngữ. Việc tinh chỉnh từ tiền huấn luyện BERT cho kết quả cao hơn rõ rệt so với phương pháp không tinh chỉnh. Trong
khi việc thêm vào các đặc trưng ngôn ngữ trích xuất từ ngữ liệu cho kết quả không thống nhất, cần có thêm những khảo
sát về việc kết hợp đặc trưng ngôn ngữ vào các mô hình trên.
Nhiều mô hình có sự tham gia của quá trình tinh chỉnh RoBERTa đạt kết quả cao khẳng định rằng đây là một
phương pháp có tiềm năng. Có một lưu ý ở đây là nếu chỉ dựa vào việc tinh chỉnh từ tiền huấn luyện cho tác vụ phân
lớp thì mô hình không đạt kết quả cao, cần sử dụng biểu diễn của RoBERTa sau tinh chỉnh để huấn luyện trên mô hình
phân lớp khác để đạt được kết quả cao hơn. Khi thử trên các tập ngữ liệu khác nhau trên một lĩnh vực hay nhiều lĩnh
vực kết hợp, mô hình cho kết quả khá cao và có thể cạnh tranh với các phương pháp học máy thống kê dựa trên đặc
trưng ngôn ngữ trích xuất từ ngữ liệu.
Sinh học là một lĩnh vực khá đặc trưng về từ vựng và ngữ nghĩa của từ, đa số các đặc trưng ngôn ngữ trích xuất
từ ngữ liệu như độ dài câu, từ,... không mang đặc trưng về ngữ nghĩa. Việc mô hình đạt kết quả cao trên tập ngữ liệu
Sinh học nói lên rằng mô hình mạnh về phân loại dựa trên ngữ nghĩa của từ. Điều đó cũng phù hợp vì BERT sử dụng
ngữ cảnh hai chiều.
Trong tương lai, chúng tôi sẽ thu thập thêm ngữ liệu thuộc các lĩnh vực khác và chọn lọc các đặc trưng ngôn
ngữ ở mức sâu hơn để cải thiện mô hình. Đồng thời nghiên cứu thêm các mô hình Transformer-based được thiết kế
riêng để xử lý văn bản dài như Longformer [28] với hy vọng mang lại kết quả tốt hơn hiện tại.
TÀI LIỆU THAM KHẢO
[1] W. H. Dubay, The Principles of Readability. Costa Mesa, California: Impact Information, 2004.
[2] G. H. Mc Laughlin, “SMOG grading-a new readability formula”, (in beng), Journal of reading, vol. 12, no. 8, pp. 639-646,
1969.
[3] M. I. Solnyshkina, R. R. Zamaletdinov, L. A. Gorodetskaya, and A. I. Gabitov, “Evaluating text complexity and flesch-
kincaid grade level”, (in en), Journal of Social Studies Education Research, vol. 8, no. 3, pp. 238-248, 2017 2017.
[4] E. Dale and J. S. Chall, “A formula for predicting readability”, (in beng), Educational Research Bulletin, pp. 11-28, 1948.
[5] S. Aluisio, L. Specia, C. Gasperin, and C. Scarton, “Readability assessment for text simplification”, 2010, pp. 1-9, Los
Angeles, California: Association for Computational Linguistics.
[6] M. Sinha and A. Basu, “A study of readability of texts in Bangla through machine learning approaches”, (in beng),
Education and Information Technologies, vol. 21, no. 5, pp. 1071-1094, 2016.
[7] Y.-H. Chen and P. Daowadung, “Assessing readability of Thai text using support vector machines”, (in beng), Maejo
International Journal of Science and Technology, vol. 09, no. 3, pp. 355-369, 2015.
[8] Y. Sun, K. Chen, L. Sun, and C. Hu, “Attention-based deep learning model for text readability evaluation”, in 2020
International Joint Conference on Neural Networks (IJCNN), 2020, pp. 1-8.
[9] M. Martinc, S. Pollak, and M. Robnik-Šikonja, “Supervised and unsupervised neural approaches to text readability”,
Computational Linguistics, vol. 47, no. 1, pp. 141-179, 2021.
[10] T. Deutsch, M. Jasbi, and S. Shieber, “Linguistic features for readability assessment”, 2020, pp. 1-17, Seattle, WA, USA →
Online: Association for Computational Linguistics.
[11] L. T. Nguyen and A. B. Henkin, “A readability formula for Vietnamese”, (in beng), Journal of Reading, vol. 26, no. 3, pp.
243-251, 1982.
[12] A.-V. Luong, D. Nguyen, and D. Dinh, “A new formula for Vietnamese text readability assessment”, in 2018 10th
International Conference on Knowledge and Systems Engineering (KSE), 2018, pp. 198-202, Ho Chi Minh City: IEEE.
[13] A.-V. Luong, D. Nguyen, and D. Dinh, “Examining the text-length factor in evaluating the readability of literary texts in
Vietnamese textbooks”, in 2017 9th International Conference on Knowledge and Systems Engineering (KSE), 2017, pp. 36-
41, Hue: IEEE.
[14] A.-V. Luong, D. Nguyen, and D. Dinh, “Examining the part-of-speech features in assessing the readability of Vietnamese
texts”, Acta Linguistica Asiatica, vol. 10, no. 2, pp. 127-142, 2020/07/30/ 2020.
[15] R. Gunning, “The fog index after twenty years”, (in en), Journal of Business Communication, vol. 6, no. 2, pp. 3-13,
1969/01/01/ 1969.
[16] M. Solnyshkina, V. Ivanov, and V. Solovyev, “Readability formula for Russian texts: A modified version”, in Advances in
Computational Intelligence, Cham, 2018, pp. 132-145: Springer International Publishing.
[17] K. C. Soh, “Readability Formula for Chinese as a second language: An exploratory study”, Frontiers of Education in China,
vol. 14, no. 4, pp. 551-574, 2019/12/01 2019.
[18] L. T. Nguyen and A. B. Henkin, “A second generation readability formula for Vietnamese”, (in beng), Journal of Reading,
vol. 29, no. 3, pp. 219-225, 1985.
[19] A.-V. Luong, D. Nguyen, and D. Dinh, “Assessing the readability of literary texts in Vietnamese textbooks”, in 2018 5th
NAFOSTED Conference on Information and Computer Science (NICS), 2018, pp. 231-236, Ho Chi Minh City: IEEE.
[20] A.-V. Luong, D. Nguyen, D. Dinh, and T. Bui, “Assessing Vietnamese text readability using multi-level linguistic features”,
(in beng), International Journal of Advanced Computer Science and Applications (IJACSA), vol. 11, no. 8, 2020,22/31
2020.
- 468 ĐÁNH GIÁ ĐỘ KHÓ CỦA VĂN BẢN TIẾNG VIỆT SỬ DỤNG MÔ HÌNH TIỀN HUẤN LUYỆN KẾT HỢP VỚI…
[21] J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova, “BERT: Pre-training of deep bidirectional transformers for language
understanding”, in Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational
Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), Minneapolis, Minnesota, 2019, pp. 4171-
4186: Association for Computational Linguistics.
[22] A. Radford, K. Narasimhan, T. Salimans, and I. Sutskever, “Improving language understanding with unsupervised learning”,
OpenAI2018.
[23] M. E. Peters et al., “Deep contextualized word representations”, in NAACL-HLT 2018, 2018, pp. 2227-2237, New Orleans,
Louisiana: Association for Computational Linguistics.
[24] Y. Liu et al., “RoBERTa: A robustly optimized BERT pretraining approach”, arXiv:1907.11692 [cs], 2019/07/26/ 2019.
[25] D. Q. Nguyen and A. Tuan Nguyen, “PhoBERT: Pre-trained language models for Vietnamese”, in EMNLP-Findings 2020,
2020, pp. 1037-1042, Online: Association for Computational Linguistics.
[26] Y. Goldberg and O. Levy, “word2vec Explained: deriving Mikolov et al.'s negative-sampling word-embedding method”,
arXiv:1402.3722 [cs, stat], 2014/02/15/ 2014.
[27] A.-V. Luong, D. Nguyen, and D. Dinh, “Building a Corpus for Vietnamese Text readability assessment in the literature
domain”, (in beng), Universal Journal of Educational Research, vol. 8, no. 10, pp. 4996-5004, 2020.
[28] I. Beltagy, M. E. Peters, and A. Cohan, “Longformer: The Long-Document.
ASSESSING VIETNAMESE TEXT READABILITY USING
PRE-TRAINED MODEL COMBINED WITH LINGUISTIC FEATURES
Luong An Vinh, Phan Thanh Quan, Huynh Trong Hung
ABSTRACT: Accessing text readability is the problem of determining whether a text is suitable for the reading
comprehension ability of a group of readers. Therefore, finding a way or a model to decently evaluate text readability has great
significance for the reader’s choice of text as well as the preparation of lectures in textbooks to suit students’ levels. There have
been many studies on assessing text readability in English and some other popular languages. However, it remains relatively new in
Vietnamese and mainly focuses on examining linguistic features by statistical machine learning models. In this study, we want to
apply a new approach, which uses a deep learning model pre-training combined with some specific features of the Vietnamese
language. The deep learning models we use are BERT and RoBERTa along with PhoBERT pre-training, the results obtained will be
used for further training. Linguistic features such as the total number of sentences, words, characters, the average length of
sentences, the ratio of dialect words, etc. will be fed into the model before giving the classification results. The experiment is
evaluated on the corpus collected from the textbooks of Literature, Biology, and Civics of Vietnamese students. The results of the
new method show that the model predicts with high accuracy and has an improvement over statistical machine learning models.
However, the addition of linguistic features does not completely increase the performance of the models.
nguon tai.lieu . vn