SO SÁNH CÁC VĂN BẢN TIẾNG VIỆT THEO ĐỘ KHÓ

Abstract

     Độ khó của văn bản là chỉ số xác định văn bản dễ hay khó đọc ở mức nào. Độ khó của văn bản đóng vai trò vô cùng quan trọng trong việc soạn thảo, phát hành và lựa chọn sách, đặc biệt là trong lĩnh vực giáo dục. Nghiên cứu về độ khó của văn bản đã được quan tâm từ lâu nhưng chủ yếu là cho tiếng Anh và một số ngôn ngữ phổ biến khác. Trong bài báo này, chúng tôi trình bày một phương pháp so sánh độ khó của các văn bản tiếng Việt với nhau sử dụng bộ phân lớp SVM. Bộ ngữ liệu được sử dụng là các tác phẩm văn học Việt Nam được đánh giá độ khó tương quan với nhau thông qua một số người đọc. Phương pháp này không đòi hỏi quá nhiều chi phí để xây dựng bộ ngữ liệu huấn luyện nhưng cũng đạt được độ chính xác xấp xỉ 80%. Đây cũng là tiền đề cho việc so sánh và lựa chọn các văn bản sao cho phù hợp với trình độ đọc của người đọc.

References

  1. Bailin, A., & Grafstein, A. (2016). Readability: Text and Context: Palgrave Macmillan UK.
  2. Dale, E., & Chall, J. S. (1949). The Concept of Readability. Elementary English, 26 (1), 19 - 26.
  3. Dinh, D., Nguyen, T. N., & Ho, H. T. (2018). Building a corpus-based frequency dictionary of Vietnamese. In, pp. 72 - 98.
  4. Flesch, R. (1949). The Art of Readable Writing. New York: Harper and Brothers Publishers.
  5. Heilman, M., Collins-Thompson, K., Callan, J., & Eskenazi, M. (2007). Combining Lexical and Grammatical Features to Improve Readability Measures for First and Second Language Texts. Paper presented at the Human Language Technologies 2007: The Conference of the North American Chapter of the Association for Computational Linguistics; Proceedings of the Main Conference, Rochester, New York.
  6. Kincaid, J. P., Fishburne, R. P., Rogers, R. L., & Chissom, B. S. (1975). Derivation of New Readability Formulas (Automated Readability Index, Fog Count and Flesch Reading Ease Formula) for Navy Enlisted Personnel. Technical Training, Research B(February), pp. 49.
  7. Luong, A.-V., Nguyen, D., & Dinh, D. (2017). Examining the text-length factor in evaluating the readability of literary texts in Vietnamese textbooks. Paper presented at the 2017 9th International Conference on Knowledge and Systems Engineering (KSE).
  8. Mc Laughlin, G. H. (1969). SMOG grading-a new readability formula. Journal of Reading, 12 (8), pp. 639 - 646.
  9. Nguyen, L. T., & Henkin, A. B. (1982). A Readability Formula for Vietnamese. Journal of Reading, 26 (3), pp. 243 - 251.
  10. Nguyen, L. T., & Henkin, A. B. (1985). A Second Generation Readability Formula for Vietnamese. Journal of Reading, 29 (3), pp. 219 - 225.
  11. Schwarm, S. E., & Ostendorf, M. (2005). Reading Level Assessment Using Support Vector Machines and Statistical Language Models. Paper presented at the Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics, Stroudsburg, PA, USA.
  12. Si, L., & Callan, J. (2001). A Statistical Model for Scientific Readability. Paper presented at the Proceedings of the Tenth International Conference on Information and Knowledge Management, New York, NY, USA.
  13. Tanaka-Ishii, K., Tezuka, S., & Terada, H. (2010). Sorting Texts by Readability. Comput. Linguist., 36 (2), pp. 203 - 227.
  14. Vajjala, S., & Meurers, D. (2012). On Improving the Accuracy of Readability Classification using Insights from Second Language Acquisition. Paper presented at the Proceedings of the Seventh Workshop on Building Educational Applications Using NLP, Montr'{e}al, Canada.