Trần Công Án * , Tống Thị Ngọc Mai Lê Thị Thu Lan

* Tác giả liên hệ (tcan@cit.ctu.edu.vn)

Abstract

Ontology is an advanced knowledge representation formalism. It allows reusing and sharing vocabularies between applications and plays an important role in Semantic Web. However, ontology development is complicated and time-consuming. Therefore, in this paper, an approach to constructing lightweight ontology from glossary and the WordNet was proposed. This approach based on linguistics techniques such as regular expression and Link Grammar. The experiment on the Internet Movie Database glossary showed a promising result that the proposed approach produced an ontology with more than 600 concepts and 200 relationships. However, the results still existed some limitations that required further improvements.
Keywords: Glossary, learning, ontology, WordNet, regular expression

Tóm tắt

Ontology là một hình thức biểu diễn tri thức cho phép chia sẻ giữa các ứng dụng và đóng vai trò rất quan trọng đối với web ngữ nghĩa. Việc xây dựng ontology thủ công tương đối phức tạp và mất thời gian. Do đó, trong nghiên cứu này, chúng tôi đề xuất một phương pháp xây dựng một ontology gọn nhẹ (light-weighted ontology) dựa trên bảng chú giải (glossary) kết hợp với cơ sở dữ liệu từ vựng WordNet và một số kỹ thuật trong xử lý ngôn ngữ tự nhiên như biểu thức chính quy, Link Grammar. Phương pháp này được thực nghiệm trên tập dữ liệu IMDB và đã xây dựng được một ontology với hơn 600 khái niệm và 200 quan hệ giữa các khái niệm. Kết quả cho thấy phương pháp được đề xuất là khả thi, cho phép xác định các khái niệm và một số quan hệ giữa chúng. Tuy nhiên, phương pháp vẫn còn một số hạn chế như phát hiện thiếu một số quan hệ giữa các khái niệm, đòi hỏi phải có thêm một số cải tiến khác để đạt được độ chính xác cao hơn.
Từ khóa: Bảng chú giải, biểu thức chính quy, ontology, tự động, WordNet

Article Details

Tài liệu tham khảo

A. Oliveira, C. Pereira, and A. Cardoso, 2001. Automatic reading and learning from text. In Proceedings of the International Symposium on Artificial Intelligence (ISAI), Kolhapur, India.

D. Temperley and D. Sleator, 1993. Parsing english with a link grammar. In Proceedings of the 3rd International Workshop on Parsing Technologies.

G. Miller, R. Beckwith, C. Fellbaum, D. Gross, and K. Miller, 1990. Wordnet: An on-line lexical database. International Journal of Lexicography, 3: 235-244.

G. Salton and C. Buckley, 1988. Term-weighting approaches in automatic text retrieval. In Information Processing and Management, volume 24, pp. 513-523.

H. Fotzo and P. Gallinari, 2004. Learning generalization/specialization relations between concepts application for automatically building thematic document hierarchies.

J. Hilera, C. Pages, J. Martinez, J. Gutierrez, and L. de Marcos, 2010. An evolutive process to convert glossaries into ontologies. Information Technology and Libraries (ITAL), 29:195-204.

J. Tang, H. Leung, Q. Luo, D. Chen, and J. Gong, 2009. Towards ontology learning from folksonomies. In Proceedings of the 21st international Joint conference on Artifical intelligence, IJCAI'09, pages 2089-2094.

K. Linden and J. Piitulainen, 2004. Discoverying synonyms and other related words. In Proceedings of the CompuTerm, Geneva, Switzerland.

L. Tari, P. Tu, J. Hakenberg, Y. Chen, T. Son, G. Gonzaler, and C. Baral, 2010. Incremental information extraction using relational databases. IEEE Transactions on knowledge & Data Engineering, 24: 86-99.

M. Li, X. Du, and S. Wang, 2005. Learning ontology from relational database. In Proceedings of the Fourth International Conference on Machine Learning and Cybernetics, volume 6, pages 3410-3415.

Q. Liu, K. Xu, L. Zhang, H. Wang, Y. Yu, and Y. Pan, 2008. Catriple: Extracting triples from wikipedia categories. In Proceedings of the 3rd Asian Semantic Web Conference on The Semantic Web, ASWC '08, Springer-Verlag, pages 330-344.

R. Navigli and P. Verladi, 2008. From glossaries to ontologies: Extracting semantic structure from textual definitions.

S. Bechhofer, 2009. OWL: Web ontology language. In Encyclopedia of Database Systems. Springer US, pages 2008-2009.

S. Bird, E. Klein, E. Loper, and J. Baldridge, 2008. Multidisciplinary instruction with the natural language toolkit. In Proceedings of the Third Workshop on Issues in Teaching Computational Linguistics, pages 62-70.

T. Berners-Lee, 2001. The Semantic Web.

T. Gruber, 1993. A translation approach to portable ontology specications. Knowledge Acquisition, 5:199-220.

The Internet Movie Database (IMDB). http://www.imdb.com/glossary/, last access: 6/2017.

W. Wong, W. Liu, and M. Bennamoun, 2012. Ontology learning from text: A look back and into the future. ACM Computing Surveys, 44(4).

W. Zhou, Z. Liu, Y. Zhao, L. Xu, G. Chen, Q.Wu, M. Huang, and Y. Qiang, 2006. A semi-automatic ontology learning based on wordnet and event-based natural language processing. International Conference on Information and Automation, pages 240-244.