Tóm tắt văn bản tiếng Việt tự động với mô hình Sequence-to-Sequence

Lâm Quang Tường; Phạm Thế Phi; Đỗ Đức Hào

doi:10.22144/ctu.jsi.2017.017

Lâm Quang Tường ^* , Phạm Thế Phi và Đỗ Đức Hào

* Tác giả liên hệ (lqtuong@nomail.com)

Full Text: PDF

Ngày nhận bài: 15-09-2017

Ngày nhận bài sửa: 10-10-2017

Ngày duyệt đăng: 20-10-2017

Ngày xuất bản: 20-10-2017

Title: Vietnamese text summarization with Sequence-to-Sequence

DOI: 10.22144/ctu.jsi.2017.017

Lượt xem

504

Downloads

233

Trích dẫn

Tường, L. Q., Phi, P. T., & Hào, Đ. Đ. (2017). Tóm tắt văn bản tiếng Việt tự động với mô hình Sequence-to-Sequence. Tạp chí Khoa học Đại học Cần Thơ, (CĐ Công nghệ TT), 125-132. https://doi.org/10.22144/ctu.jsi.2017.017

Số báo

Số. CĐ Công nghệ TT (2017)

Chuyên mục

Công nghệ thông tin

Abstract

Deep learning is a machine learning method that has been studied and used extensively in recent years, opening up new directions for problems such as image processing, speech processing, and natural language processing, etc. This article focuses on the use of deep learning for automatic text summarization for Vietnamese. Previous approaches such as statistics, machine learning, language analysis, etc. have been successful at different levels and purposes. In this paper, the Word2vec model was used to extract the specific characteristics of Vietnamese text for the Sequence to Sequence with Attention model to produce a sequence of words. Finally, the results were re-selected using the Beam Search algorithm, and a summary sentence was generated. The accuracy of the model was estimated using the ROUGE method on a dataset of over twenty-seven million words collected from newspapers in the country. The result was the summary statement reflecting the text content. Although the results were not high yet, the model has successfully solved the problem, and the dataset needs improving to enhance the efficiency of the model.

Keywords: Beam Search, deep learning, Sequence-to-sequence, text summarization

Tóm tắt

Học sâu là phương pháp học máy được nghiên cứu và sử dụng rộng rãi trong những năm gần đây, mở ra hướng đi mới cho các bài toán như xử lý ảnh, xử lý tiếng nói và xử lý ngôn ngữ tự nhiên... Bài báo tập trung nghiên cứu sử dụng học sâu cho bài toán tóm tắt văn bản tự động đối với tiếng Việt. Các hướng tiếp cận trước đây như: thống kê, máy học, phân tích ngôn ngữ… đã thành công trên những cấp độ và mục đích tóm tắt khác nhau. Trong bài báo này, chúng tôi sử dụng mô hình Word2vec để rút trích những đặc trưng riêng của văn bản tiếng Việt, phục vụ cho mô hình Sequence to sequence with Attention nhằm tạo kết quả đầu ra là chuỗi các từ. Cuối cùng kết quả được chọn lọc lại bằng giải thuật Beam Search và sinh ra câu tóm tắt. Độ chính xác của mô hình được đánh giá bằng phương pháp ROUGE trên tập dữ liệu hơn hai mươi bảy triệu từ thu thập từ các trang báo trong nước. Kết quả thu được là các câu tóm tắt phản ánh đúng nội dung văn bản. Tuy kết quả còn chưa cao nhưng mô hình đã giải quyết thành công mục tiêu của bài toán, chúng tôi sẽ cố gắng cải thiện tập dữ liệu để nâng cao hiệu quả của mô hình.

Từ khóa: Beam Search, học sâu, Sequence-to-sequence, tóm tắt văn bản

Tài liệu tham khảo

Ayako Mikami, 2016. Long Short-Term Memory - Recurrent Neural Network Architectures for Generating Music and Japanese Lyrics. Honors Thesis Advised by Professor Sergio Alvarez, Computer Science Department, Boston College.

Colah, 2015. Understanding LSTM Networks, accessed on 10 February, 2017. Available from http://colah.github.io/posts/2015-08-Understanding-LSTMs/.

Dzmitry Bahdanau, Kyunghyun Cho, Yoshua Bengio, 2016. Neural Machine Translation by Jointly Learning to Align and Translate - In arXiv:1409.0473v7 [cs.CL].

Hong Phuong L., Thi Minh Huyen N., Roussanaly A., Vinh H.T. (2008) A Hybrid Approach to Word Segmentation of Vietnamese Texts. In: Martín-Vide C., Otto F., Fernau H. (eds) Language and Automata Theory and Applications. LATA 2008. Lecture Notes in Computer Science, vol 5196. Springer, Berlin, Heidelberg.

Ilya Sutskever, Oriol Vinyals, Quoc V. Le, 2014. Sequence to Sequence Learning with Neural Networks – In arXiv:1409.3215v3 [cs.CL].

Josef Steinberger, Karel Jeˇzek. Evaluation measures for text summarization. Computing and Informatics, Vol. 28, 2009, 1001–1026, V 2009-Mar-2.

Kyunghyun Cho, Bart van Merrienboer, Caglar Gulcehre, Dzmitry Bahdanau, Fethi Bougares, Holger Schwenk, Yoshua Bengio, 2015. Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation – In arXiv:1406.1078 [cs.CL].

Nguyễn Thị Ngọc Tú, Nguyễn Thị Thu Hà, Lê Thanh Hương, Hồ Ngọc Vinh, Đào Thanh Tĩnh, Nguyễn Ngọc Cương. “Ứng dụng mô hình đồ thị trong tóm tắt đa văn bản tiếng Việt”. Kỷ yếu Hội nghị Quốc gia lần thứ VIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 9-10/7/2015.

Ramesh Nallapati, Bowen Zhou, Cicero Nogueira dos santos, Caglar Gulcehre, Bing Xiang, 2016. Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond – In arXiv:1602.06023 [cs.CL].

Sam Wiseman and Alexander M. Rush, 2016. Sequence-to-Sequence Learning as Beam-Search Optimization. School of Engineering and Applied Sciences Harvard University Cambridge, MA, USA-In arXiv:1606.02960v2 [cs.CL].

Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean, 2013. Efficient Estimation of Word Representations in Vector Space – In arXiv:1301.3781v3 [cs.CL].

Trương Quốc Định, Nguyễn Quang Dũng. “Một giải pháp tóm tắt văn bản tiếng Việt tự động”. Hội thảo quốc gia lần thứ XV: một số vấn đề chọn lọc của Công nghệ thông tin và Truyền thông Hà Nội 03-04/12/2012.

Xin Rong, 2016. word2vec Parameter Learning Explained - In arXiv:1411.2738v4 [cs.CL].

Article Sidebar

Abstract

Tóm tắt

Article Details

Tài liệu tham khảo