Ngày xuất bản: 20-10-2017

Phát hiện té ngã cho người cao tuổi bằng gia tốc kế và mô hình học sâu Long Short-Term Memory.

Trần Công Án, Đỗ Thanh Đức, Lê Đình Chiến, Sơn Búp Pha, Lư Minh Phúc, Ngô Bá Hùng, Nguyễn Hữu Vân Long, Phạm Thị Xuân Diễm
Tóm tắt | PDF
Té ngã là một hiện tượng phổ biến của người cao tuổi. Té ngã không những gây ra các chấn thương sinh lý nghiêm trọng như gãy xương, tổn thương vùng đầu,… mà còn gây ra các tổn thương về tâm lý cho người cao tuổi. Ngoài việc phòng chống thì phát hiện té ngã một cách kịp thời có thể giúp hạn chế hậu quả của việc té ngã gây ra. Trong bài báo này, chúng tôi đề xuất một phương pháp phát hiện té ngã cho người già sử dụng gia tốc kế (accelerometer) trên các thiết bị di động. Mô hình nhận dạng té ngã được xây dựng dựa trên mô hình học sâu Long Short-Term Memory (LSTM). Chúng tôi sử dụng mô hình học sâu LSTM với 64 lớp ẩn. Kết quả thực nghiệm trên tập dữ liệu thực do chúng tôi thu thập thực tế cho thấy rằng mô hình đề xuất phù hợp cho việc phát hiện té ngã ở người cao tuổi với độ chính xác là 93,9%.

Ứng dụng kỹ thuật theo dõi đối tượng cho bài toán nhận dạng hành vi của khách hàng trong siêu thị

Trần Thị Hồng Ân, Phạm Nguyên Khang, Trần Minh Tân
Tóm tắt | PDF
Chúng tôi trình bày mô hình sử dụng các kỹ thuật theo dõi đối tượng để phân loại hoạt động của khách hàng trong siêu thị; từ đó xác định số lượng khách hàng quan tâm đến gian hàng và đánh giá hiệu quả trưng bày. Với hình ảnh thu được từ camera giám sát, hệ thống có thể nhận dạng được hầu hết các đối tượng là người đi vào vùng quan sát, theo dõi họ để có được quỹ đạo đường đi và thời gian lưu lại vùng quan sát. Quỹ đạo được phân đoạn và lấy tọa độ đại diện, sau đó dùng giải thuật máy học véc-tơ hỗ trợ để phân loại hoạt động của khách hàng gồm có quan tâm đến gian hàng và ghé vào lựa chọn hoặc là các hoạt động còn lại. Ngoài ra, trong bài báo, chúng tôi đề xuất các cải tiến nhằm cải thiện tốc độ của giải thuật theo dõi đối tượng trong trường hợp theo dõi nhiều đối tượng cùng lúc. Qua thực nghiệm, chúng tôi nhận thấy các đề xuất cải thiện tốc độ có hiệu quả đáng kể, trung bình tăng 2,8 lần so với ban đầu, trong khi độ chính xác không thay đổi. Dữ liệu nhận dạng người và nhận dạng hoạt động của khách hàng ở siêu thị được thu thập từ nguồn internet và dữ liệu thu được của camera giám sát đặt tại một siêu thị lớn ở tỉnh Sóc Trăng.

Tóm tắt văn bản tiếng Việt tự động với mô hình Sequence-to-Sequence

Lâm Quang Tường, Phạm Thế Phi, Đỗ Đức Hào
Tóm tắt | PDF
Học sâu là phương pháp học máy được nghiên cứu và sử dụng rộng rãi trong những năm gần đây, mở ra hướng đi mới cho các bài toán như xử lý ảnh, xử lý tiếng nói và xử lý ngôn ngữ tự nhiên... Bài báo tập trung nghiên cứu sử dụng học sâu cho bài toán tóm tắt văn bản tự động đối với tiếng Việt. Các hướng tiếp cận trước đây như: thống kê, máy học, phân tích ngôn ngữ… đã thành công trên những cấp độ và mục đích tóm tắt khác nhau. Trong bài báo này, chúng tôi sử dụng mô hình Word2vec để rút trích những đặc trưng riêng của văn bản tiếng Việt, phục vụ cho mô hình Sequence to sequence with Attention nhằm tạo kết quả đầu ra là chuỗi các từ. Cuối cùng kết quả được chọn lọc lại bằng giải thuật Beam Search và sinh ra câu tóm tắt. Độ chính xác của mô hình được đánh giá bằng phương pháp ROUGE trên tập dữ liệu hơn hai mươi bảy triệu từ thu thập từ các trang báo trong nước. Kết quả thu được là các câu tóm tắt phản ánh đúng nội dung văn bản. Tuy kết quả còn chưa cao nhưng mô hình đã giải quyết thành công mục tiêu của bài toán, chúng tôi sẽ cố gắng cải thiện tập dữ liệu để nâng cao hiệu quả của mô hình.

Lựa chọn nền tảng phần mềm nguồn mở xây dựng trục tích hợp ứng dụng và dịch vụ

Nguyễn Hữu Vân Long, Nguyễn Thế Anh, Trương Hoàng Nguyên, Lý Minh Phương, Ngô Bá Hùng, Trần Công Án
Tóm tắt | PDF
Tích hợp ứng dụng là nhu cầu đang tăng đối với các tổ chức khi chuyển sang nền kinh tế và quản trị số. Trục tích hợp dịch vụ là mô hình tích hợp ứng dụng được đánh giá có nhiều ưu thế nhất hiện nay. Lựa chọn một giải pháp xây dựng trục tích hợp dịch vụ phù hợp yêu cầu hiện tại và lâu dài cho một tổ chức là một vấn đề khó. Nghiên cứu này tóm lược một số hướng nghiên cứu liên quan gần đây và trình bày kết quả việc đánh giá và chọn lựa một giải pháp phần mềm nguồn mở phù hợp để xây dựng một trục tích hợp dịch vụ trong bối cảnh xây dựng chính quyền điện tử tỉnh An Giang.

Xây dựng trò chơi tic-tac-toe với người đấu với máy trong phiên bản thực tế tăng cường

Lê Minh Hưng, Phạm Nguyên Khang
Tóm tắt | PDF
Thực tế tăng cường (Augmented Reality - AR) là một công nghệ kết hợp giữa thông tin kỹ thuật số và thế giới thực trong thời gian thực, dữ liệu đầu vào được ghi nhận thông qua camera của các thiết bị như điện thoại, laptop,… Các thông tin được tăng cường thường là đối tượng 3D, video, âm thanh,… Trong bài báo này, chúng tôi trình bày về việc xây dựng một chương trình chơi trò chơi tic-tac-toe với người đấu với máy ứng dụng công nghệ thực tế tăng cường. Sử dụng kỹ thuật xử lý ảnh và phép biến đổi Hough để phát hiện 4 đường của bàn cờ, từ đó trích xuất ra được 9 ô cờ. Đó sẽ là cơ sở để chúng tôi có thể phát hiện được dấu ‘X’ mà người chơi đi, chúng tôi sử dụng mô hình phân lớp phân tầng với mỗi tầng là bộ phân lớp AdaBoost, qua thực nghiệm, kết quả nhận dạng chính xác đạt hơn 98%. Để ra nước đi của máy một cách “thông minh”, chúng tôi áp dụng giải thuật cắt tỉa Alpha-Beta.

Ứng dụng giải thuật gom nhóm dữ liệu để nhận diện sự tương đồng giữa các giống lúa

Lưu Tiến Đạo, Âu Tấn Tài, Trần Nguyễn Minh Thư, Vũ Anh Pháp
Tóm tắt | PDF
Vùng Đồng bằng sông Cửu Long (ĐBCSL) đang ứng phó với biến đổi khí hậu, nước biển dâng. Vấn đề cấp bách đặt ra là cần tìm các giải pháp chọn tạo nhanh và chính xác giống lúa mới, có năng suất, chất lượng cao, chống chịu các tác nhân sinh học và phi sinh học, đặc biệt là thích ứng với điều kiện khí hậu cực đoan đang diễn ra phức tạp. Từ năm 1976 đến nay, Trường Đại học Cần Thơ đã sưu tập và lưu giữ hầu hết các giống lúa mùa cổ truyền của vùng ĐBSCL. Hiện tại, Viện Nghiên cứu Phát triển ĐBSCL - Trường Đại học Cần Thơ đã lưu giữ được khoảng 2.000 mẫu giống lúa. Đây là nguồn tài nguyên gen quý giá phục vụ cho công tác bảo tồn, khai thác, sử dụng và chọn tạo giống lúa. Tuy nhiên, trong 2.000 mẫu giống lúa này có nhiều giống tương đồng với nhau do thu thập ở địa phương khác nhau. Nghiên cứu này ứng dụng các giải thuật gom nhóm dữ liệu (Clustering) để tạo ra phần mềm hỗ trợ cho các chuyên gia về giống lúa (i) phát hiện ra các mẫu lúa giống nhau và (ii) đánh giá được hệ số tương đồng giữa các giống lúa.

Tự động nhận dạng một số loại sâu bệnh trên lá bưởi sử dụng công nghệ ảnh

Nguyễn Minh Triết, Trương Quốc Bảo, Trương Quốc Định
Tóm tắt | PDF
Ngày nay, công nghệ thông tin đã được ứng dụng rộng rãi trong nông nghiệp, lĩnh vực phát triển nhất của nước ta. Trong số các ứng dụng này, hệ thống phát hiện và nhận dạng sâu bệnh sử dụng kỹ thuật xử lý ảnh và thị giác máy tính đang thu hút nhiều nhà nghiên cứu trong và ngoài nước. Nghiên cứu này trình bày phương pháp để phát hiện và nhận dạng sâu bệnh trên lá bưởi. Bài toán được giải quyết thông qua hai giai đoạn chính là: phát hiện vùng ứng viên có khả năng là sâu bệnh; nhận dạng sâu bệnh từ các vùng ứng viên đã phát hiện. Ở giai đoạn thứ nhất, phương pháp phân đoạn ảnh được thực hiện để xác định vùng ứng viên có thể là đối tượng sâu bệnh. Giai đoạn này sử dụng phương pháp phân ngưỡng nhị phân kết hợp với kỹ thuật dò biên để tách lấy vùng ứng viên. Ở giai đoạn thứ hai, một số đặc trưng về màu sắc và hình dáng được trích ra từ ảnh. Sau đó, mô hình máy học vectơ hỗ trợ (SVM) được xây dựng kết hợp với các đặc trưng đã trích ra trước đó để phân lớp vùng ứng viên. Chúng tôi huấn luyện mô hình phân lớp để nhận dạng bốn loại sâu bệnh trên lá bưởi. Kết quả huấn luyện đạt trên 99,5%. Kết quả thực nghiệm nhận dạng trên 500 ảnh sâu bệnh cho thấy độ chính xác xấp xỉ 99,2% đã khẳng định phương pháp đề nghị là rất triển vọng và có thể áp dụng vào nhận dạng sâu bệnh trên thực tế.

Sử dụng thông tin lớp kết hợp với centroid trong việc dò tìm những báo cáo lỗi trùng nhau

Nhan Minh Phúc, Nguyễn Hoàng Duy Thiện
Tóm tắt | PDF
Bài báo này giới thiệu một phương pháp dò tìm những báo cáo lỗi trùng nhau trong những kho phần mềm mã nguồn mở, dựa vào thông tin lớp kết hợp với centroid để tăng cường việc thực thi dò tìm. Phương pháp này được mở rộng từ một phương pháp trước đây do họ chỉ sử dụng centroid mà không quan tâm đến sự ảnh hưởng của các nhân tố inner và inter bên trong lớp. Ngoài ra phương pháp này cũng cải tiến việc sử dụng normalized cosine trước đây cho việc đánh giá sự giống nhau giữa hai báo cáo lỗi bằng việc sử dụng denormalize cosine. Hiệu quả của phương pháp này được chứng minh thông qua việc thực nghiệm với ba dự án mã nguồn mở: SVN, Argo UML, và Apache. Kết quả thực nghiệm cho thấy phương pháp này tốt hơn các phương pháp trước đây khoảng 10% trong tất cả ba dự án.

Khai thác tập phổ biến từ dữ liệu giao dịch với nhiều ngưỡng phổ biến tối thiểu trên bộ xử lý đa nhân

Phan Thành Huấn, Lê Hoài Bắc
Tóm tắt | PDF
Trong khai thác dữ liệu, kỹ thuật quan trọng và được nghiên cứu nhiều là khai thác luật kết hợp. Khai thác tập phổ biến là một trong những bước cơ bản và chiếm nhiều thời gian trong khai thác luật kết hợp. Hầu hết các thuật toán tìm tập phổ biến thỏa một ngưỡng phổ biến tối thiểu duy nhất. Trong thực tế, độ phổ biến của từng mục hàng phản ánh bản chất, vai trò của mục hàng trong các giao dịch. Trong bài viết này, chúng tôi đề xuất thuật toán song song khai thác hiệu quả tập phổ biến với nhiều ngưỡng phổ biến tối thiểu (mỗi mục hàng có một ngưỡng phổ biến tối thiểu riêng) trên bộ xử lý đa nhân. Thuật toán đề xuất dễ dàng mở rộng trên nhiều hệ thống tính toán phân tán như Hadoop, Spark. Sau cùng, chúng tôi trình bày kết quả thực nghiệm trên bộ dữ liệu thực và giả lập cho thấy thuật toán đề xuất hiệu quả hơn so với thuật toán hiện hành.

Các mô hình e-learning hỗ trợ dạy và học

Trần Thanh Điện, Nguyễn Thái Nghe
Tóm tắt | PDF
Trong những năm gần đây, e-learning đã trở thành một phương thức học tập nổi bật được nhiều viện, trường của Việt Nam triển khai, trong đó có Trường Đại học Cần Thơ. Tính đến tháng 01/2017, hệ thống e-learning đã và đang hỗ trợ dạy và học cho khoảng 950 giảng viên và 50.000 sinh viên, học viên thuộc các hệ đào tạo trong toàn trường, với khoảng 1.600 khóa học được tạo ra nhằm hỗ trợ công tác giảng dạy của các giảng viên. Bài viết này giới thiệu về e-learning và các mô hình phổ biến trong e-learning, từ đó trình bày việc ứng dụng e-learning hỗ trợ dạy và học tại Trường Đại học Cần Thơ. Kết quả cho cho thấy e-learning đã trở thành kênh hỗ trợ hiệu quả cho công tác giảng dạy của giảng viên và tự học của sinh viên theo học chế tín chỉ, góp phần nâng cao chất lượng đào tạo của Trường Đại học Cần Thơ.

Mô phỏng mô hình động học của robot dây trên mặt phẳng

Trần Thiện Trường, Đỗ Minh Nhựt, Nguyễn Văn Ngọc Minh, Nguyễn Hữu Cường
Tóm tắt | PDF
Bài báo này giới thiệu hai cơ cấu robot dây CDDR phẳng 3 dây cáp và 4 dây cáp, đồng thời xây dựng một chương trình mô phỏng mô hình động học cho các cơ cấu robot dây này. Kết quả mô phỏng cho thấy rằng cơ cấu 4 dây cáp đòi hỏi ít căng dây hơn so với cơ cấu 3 dây cáp và do đó nó yêu cầu ít năng lượng hơn nếu thực hiện trên cùng một tác vụ mô phỏng. Từ kết quả mô phỏng cũng cho thấy được tính khả thi và độ tin cậy của các cơ cấu robot dây này.

Lựa chọn mô hình và tham số cho bài toán tư vấn lọc cộng tác dựa trên đồ thị đánh giá

Phan Quốc Nghĩa, Huỳnh Xuân Hiệp, Đặng Hoài Phương
Tóm tắt | PDF
Hệ tư vấn được xem là một giải pháp hiệu quả có thể ứng phó với vấn đề bùng nổ thông tin do sự phát triển quá nhanh của các dịch vụ Internet và được ứng dụng rộng rãi trong nhiều lĩnh vực. Tuy nhiên, để thiết kế một hệ tư vấn có thể đáp ứng được nhu cầu của người dùng thì việc lựa chọn mô hình phù hợp cho hệ thống tư vấn và lựa chọn các giá trị tham số thích hợp cho mô hình luôn là một thách thức lớn của người thiết kế. Trong nghiên cứu này, chúng tôi đề xuất giải pháp lựa chọn mô hình và các giá trị tham số phù hợp cho bài toán tư vấn lọc cộng tác cụ thể. Để đánh giá các giải pháp đề xuất, chúng tôi tiến hành thực nghiệm trên ba tập dữ liệu chuẩn gồm: MovieLens, MSWeb và Jester5k. Kết quả thực nghiệm cho thấy các giải pháp của chúng tôi đề xuất có thể hỗ trợ nhà thiết kế, nhà nghiên cứu xác định được mô hình cũng như các giá trị tham số của mô hình cho bài toán tư vấn cụ thể của họ một cách nhanh chóng.

Ứng dụng hệ thống thông tin địa lý và chuỗi Markov trong đánh giá biến động và dự báo nhu cầu sử dụng đất đai

Phan Hoàng Vũ, Trần Cẩm Tú, Phạm Thanh Vũ, Võ Quang Minh
Tóm tắt | PDF
Nghiên cứu được thực hiện nhằm ứng dụng hệ thống thông tin địa lý (GIS) và các thuật toán để đánh giá biến động sử dụng đất đai, dự báo nhu cầu đất đai cho phát triển kinh tế-xã hội, nghiên cứu điển hình tại thành phố Cà Mau, tỉnh Cà Mau. Phương pháp GIS và chuỗi Markov được sử dụng chính trong nghiên cứu này. Số liệu được tổng hợp, phân tích và đánh giá bằng phương pháp thống kê mô tả. Kết quả cho thấy, biến động đất đai giai đoạn 2005-2015 lên đến 54,2% diện tích tự nhiên. Nhu cầu đất đai theo dự báo của chuỗi Markov cho thấy, diện tích đất sản xuất nông nghiệp sẽ giảm để chuyển sang đất ở, đất chuyên dùng và nuôi trồng thủy sản. Nghiên cứu đã chứng minh khả năng hỗ trợ của công nghệ GIS và chuỗi Markov trong việc ra quyết định, quy hoạch sử dụng bền vững tài nguyên đất đai.

Xây dựng hệ hỗ trợ giải toán đại số tuyến tính trên cơ sở tri thức gồm các miền tri thức phối hợp

Nguyễn Đình Hiển, PhạM Thi Vương, Đỗ Văn Nhơn
Tóm tắt | PDF
Hiện nay, việc ứng dụng các phương pháp biểu diễn tri thức trong xây dựng các hệ thống giáo dục thông minh đang là một trong những xu thế phát triển, đặc biệt là trong giáo dục về STEM. Trong kiến thức toán cơ sở ở bậc đại học và cao đẳng, Đại số tuyến tính là một môn học rất quan trọng. Các kiến thức về ma trận, hệ phương trình tuyến tính và không gian vector là các kiến thức toán học nền tảng cho sinh viên. Trong bài báo này, chúng tôi sẽ nghiên cứu và đề xuất một mô hình biểu diễn tri thức Đại số tuyến tính. Miền tri thức này sẽ được phân thành ba miền tri thức: tri thức về ma trận, tri thức về hệ phương trình tuyến tính và tri thức về không gian vector. Trên cơ sở các miền tri thức này, chúng tôi nghiên cứu việc phối hợp các miền tri thức để giải quyết các lớp bài toán trong kiến thức về Đại số tuyến tính. Từ đó, chúng tôi xây dựng một hệ hỗ trợ giải toán tự động môn Đại số tuyến tính ở chương trình toán cao cấp bậc đại học cho khối ngành kỹ thuật. Chương trình có thể giải được các dạng bài tập thường gặp trong quá trình học. Lời giải chương trình rõ ràng, từng bước, tương tự như cách giải của con người.

Xây dựng ontology tự động từ bảng chú giải

Trần Công Án, Tống Thị Ngọc Mai, Lê Thị Thu Lan
Tóm tắt | PDF
Ontology là một hình thức biểu diễn tri thức cho phép chia sẻ giữa các ứng dụng và đóng vai trò rất quan trọng đối với web ngữ nghĩa. Việc xây dựng ontology thủ công tương đối phức tạp và mất thời gian. Do đó, trong nghiên cứu này, chúng tôi đề xuất một phương pháp xây dựng một ontology gọn nhẹ (light-weighted ontology) dựa trên bảng chú giải (glossary) kết hợp với cơ sở dữ liệu từ vựng WordNet và một số kỹ thuật trong xử lý ngôn ngữ tự nhiên như biểu thức chính quy, Link Grammar. Phương pháp này được thực nghiệm trên tập dữ liệu IMDB và đã xây dựng được một ontology với hơn 600 khái niệm và 200 quan hệ giữa các khái niệm. Kết quả cho thấy phương pháp được đề xuất là khả thi, cho phép xác định các khái niệm và một số quan hệ giữa chúng. Tuy nhiên, phương pháp vẫn còn một số hạn chế như phát hiện thiếu một số quan hệ giữa các khái niệm, đòi hỏi phải có thêm một số cải tiến khác để đạt được độ chính xác cao hơn.

Nhận dạng hành vi của bò sử dụng gia tốc kế và giải thuật máy học rừng ngẫu nhiên

Lê Đình Chiến, Lê Văn Lâm, Trần Công Án
Tóm tắt | PDF
Mẫu hành vi của bò cung cấp thông tin rất quan trọng về sức khỏe, tình trạng của bò. Do đó, phát hiện sớm các hành vi của bò có thể giúp người chăn nuôi nhận biết các vấn đề đối với sức khỏe của bò một cách kịp thời; qua đó, có thể sử dụng các biện pháp điều trị thích hợp để giảm thiểu các thiệt hại. Bài báo này sẽ đề xuất một phương pháp phát hiện hành vi của bò dựa vào dữ liệu gia tốc kế. Mô hình nhận dạng hành vi được xây dựng dựa trên giải thuật máy học rừng ngẫu nhiên (random forest). Nghiên cứu này sẽ tập trung nhận dạng 4 hành vi: đi lại, đứng, ăn (gặm cỏ) và nằm. Mô hình nhận dạng được đánh giá trên 1 bộ dữ liệu thật do chúng tôi thu thập. Kết quả phân loại hành vi của mô hình là 95%. Chúng tôi cũng so sánh kết quả thực nghiệm với một số phương pháp đã được đề xuất trong các nghiên cứu khác. Kết quả so sánh cho thấy phương pháp được đề xuất là khả thi và có thể áp dụng để xây dựng các ứng dụng nhận dạng hành vi của bò.

Tư vấn lai ghép dựa trên các độ đo hàm ý thống kê. Tạp chí Khoa học Trường Đại học Cần Thơ

Phan Phương Lan, Huỳnh Hữu Hưng, Huỳnh Xuân Hiệp
Tóm tắt | PDF
Bài báo này đề xuất một mô hình tư vấn lai ghép dựa trên các độ đo hàm ý thống kê nhằm gợi ý cho người dùng danh sách các mục dữ liệu phù hợp. Mô hình đề xuất được xây dựng trên hai mô hình con: tư vấn lọc cộng tác dựa trên k láng giềng (người dùng) gần nhất và tư vấn dựa trên tập luật kết hợp. Mô hình tư vấn lai ghép được đánh giá trên hai tập dữ liệu MSWeb và DKHP khi so với các mô hình con của nó và một số mô hình tư vấn hiện có như: dựa trên nhân tố tiềm ẩn, dựa trên các mục dữ liệu phổ biến nhất, và lọc cộng tác dựa trên người dùng sử dụng độ đo Cosine. Kết quả thực nghiệm cho thấy mô hình đề xuất có hiệu suất cao hơn so với các mô hình đó.

Phân loại nhạc Việt Nam theo thể loại dựa trên âm sắc và nhịp điệu

Phan Anh Cang, Nguyễn Thị Kim Khánh, Phan Thượng Cang
Tóm tắt | PDF
Hiện nay, các hệ thống lưu trữ nhạc số Việt nam thường sắp xếp các bản nhạc theo tên nhạc sĩ hoặc theo tên bài hát trong khi người nghe nhạc cũng cần tìm kiếm các bản nhạc theo thể loại và nội dung. Điều này đã nảy sinh nhu cầu phân loại nhạc theo thể loại trong các hệ thống lưu trữ nhạc số để cho phép người nghe nhạc có thể tìm kiếm bản nhạc theo yêu cầu. Tuy nhiên, với số lượng lớn nhạc số sưu tập được, việc phân loại chúng để dễ dàng quản lý trở thành một thách thức đối với các hệ thống lưu trữ nhạc số. Điều này cho thấy việc xây dựng một hệ thống phân loại nhạc tự động là rất cần thiết. Trong luận văn này, chúng tôi đề xuất phương pháp rút trích tập đặc trưng bố cục âm sắc của tín hiệu audio bao gồm kết cấu âm sắc (timbral texture) và nhịp điệu (rhythmic content) sử dụng phép biến đổi wavelet rời rạc. Dựa trên tập đặc trưng này, phương pháp KNN và SVM được sử dụng để nhận dạng thể loại của các tập tin nhạc. Nghiên cứu của chúng tôi thực hiện minh họa trên bốn thể loại Bolero, Cải lương, Chèo và Hát bội. Kết quả thực nghiệm cho thấy độ chính xác là 93,75 % và 94 % đối với phương pháp phân loại KNN và SVM tương ứng trên tập đặc trưng về bố cục âm sắc. Hơn nữa, phương pháp đề xuất này đơn giản, hiệu quả và có thời gian thực hiện nhanh phù hợp cho các hệ thống phân loại nhạc Việt hiện nay.

Phân rã ma trận với yếu tố thời gian trong hệ thống gợi ý

Lê Ngọc Quyền, Nguyễn Hữu Hòa, Nguyễn Thái Nghe
Tóm tắt | PDF
Bài viết này đề xuất một giải pháp dự đoán sở thích của người dùng dựa trên kỹ thuật phân rã ma trận (Matrix Factorization – MF) có tích hợp yếu tố thời gian trong hệ thống gợi ý (Recommender Systems – RS). Do sở thích của người dùng có thể thay đổi theo thời gian, để kết quả gợi ý có độ chính xác cao hơn chúng tôi đề xuất tích hợp phương pháp dự báo san bằng hàm mũ (Exponential Smoothing - ES) vào mô hình Tensor Factorization với mục tiêu khai thác và tận dụng được các thông tin về thời gian cũng như trình tự (sequence) mà người dùng đã đưa ra phản hồi. Thực nghiệm ban đầu trên các tập dữ liệu chuẩn trong lĩnh vực gợi ý và đánh giá bằng độ đo RMSE (Root Mean Squared Error) đã cho thấy hướng tiếp cận này cho kết quả rất khả quan.

Giải thuật ước lượng số cụm dữ liệu cải tiến cho tập dữ liệu lớn

Dương Văn Hiếu, Phạm Ngọc Giàu, Trần Huy Long
Tóm tắt | PDF
Bài báo này trình bày một giải thuật ước lượng số cụm dữ liệu cải tiến dùng để ước lượng số cụm dữ liệu của tập dữ liệu lớn. Giải thuật được thiết kế chạy trên máy tính cá nhân có cấu hình cơ bản. Đây là một sự cải tiến của giải thuật ước lượng số cụm Cell-MST-Based bằng cách áp dụng khoảng cách có trọng số thay cho khoảng cách Euclid. Thuật toán cải tiến được đặt tên là Weighted-Cell-MST-based cluster number estimation algorithm. Thuật toán cải tiến cho kết quả ổn định hơn so với thuật toán ban đầu khi xét trên cùng các tập dữ liệu và trong cùng một điều kiện thực nghiệm.

Ứng dụng giải thuật gợi ý dựa trên nội dung hỗ trợ nông dân phòng trừ bệnh đạo ôn

Trần Nguyễn Minh Thư, Nguyễn Thị Thanh Lan, Nguyễn Hoàng Mẫn
Tóm tắt | PDF
Bệnh đạo ôn do nấm Pyricularia oryzae gây ra và đã được ghi nhận ở 80 quốc gia có trồng lúa trên thế giới và bệnh đang có sự chuyển biến ngày càng phức tạp hơn, gây ra nhiều khó khăn cho người nông dân. Từ những nghiên cứu về bệnh đạo ôn trước đây, người ta đã phát hiện được 6 yếu tố quan trọng ảnh hưởng đến việc phòng trị bệnh: giống lúa, mật độ sạ, nhiệt độ, độ ẩm, màu lá (độ đạm), tình trạng vết bệnh. Ngày nay, với sự phát triển nhanh chóng của mạng lưới internet, các thiết bị di động,... đa phần người nông dân đều sở hữu cho điện thoại di động. Trong nghiên cứu này, để hỗ trợ cho người nông dân chọn lựa phương pháp phòng trừ bệnh đạo ôn, phương pháp gợi ý dựa trên nội dung được sử dụng để xây dựng ứng dụng trên điện thoại di động “BLASTRec”. Ứng dụng BLASTRec hoạt động trên hệ điều hành android dựa trên hai giải thuật phân lớp Naive bayes và cây quyết định (Decision Tree). Kết quả thực nghiệm cho thấy việc phân lớp của hai giải thuật có độ chính là trên 90%. Thực nghiệm được thực hiện dựa trên tập dữ liệu thu thập về bệnh đạo ôn tại địa bàn Trung An, quận Thốt Nốt, thành phố Cần Thơ kết hợp với ý kiến chuyên gia nông nghiệp để đưa ra cho người nông dân các giải pháp điều trị phù hợp.

Hướng đến một hệ thống tri thức dữ liệu lớn trong chẩn đoán xuất huyết não

Lê Thị Hoàng Yến, Phan Anh Cang, Phan Thượng Cang
Tóm tắt | PDF
Tai biến mạch máu não (TBMMN) được xem làm một trong hai nguyên nhân hàng đầu của các ca tử vong trên thế giới và là bệnh lý mạch máu não phổ biến, nguy hiểm nhất hiện nay. Ở Việt Nam, tình hình thiếu trang thiết bị và đội ngũ chuyên gia đang trở thành vấn đề nan giải trong việc chẩn đoán và điều trị hiệu quả TBMMN, đặc biệt là xuất huyết não, dạng cấp tính của TBMMN. Dựa trên việc phân tích các thách thức và đưa ra giải pháp cho các thách thức, trong bài báo này chúng tôi sẽ đề xuất một kiến trúc hướng dịch vụ cho hệ thống tri thức hướng dữ liệu lớn trên ảnh y khoa xuất huyết não. Kiến trúc được đề xuất cung cấp khả năng phát triển có hệ thống tri thức bệnh xuất huyết não bao gồm cả quá trình khai phá và khai thác tri thức; từ đó góp phần vào việc hỗ trợ kịp thời và hiệu quả trong điều trị xuất huyết não.  Ngoài ra, kiến trúc cũng đáp ứng xu hướng hiện đại về mô hình dịch vụ tri thức. Theo xu hướng này, hệ thống quản lý tri thức có thể được mở rộng, chia sẻ cũng như nhận được sự đóng góp tri thức từ các chuyên gia, bác sĩ, bệnh viện và các viện nghiên cứu.

Tìm kiếm ảnh theo nội dung và ngữ nghĩa

Lư Minh Phúc, Trần Công Án
Tóm tắt | PDF
Trong những năm gần đây, các nghiên cứu về tìm kiếm ảnh theo nội dung đang được quan tâm vì phương pháp tìm kiếm này có thể khắc phục nhược điểm của phương pháp tìm kiếm dựa trên meta data là không bị ảnh hưởng bởi sự thiếu hoặc sai của meta data kèm theo ảnh. Trong nghiên cứu này, chúng tôi sẽ xây dựng một hệ thống tìm kiếm ảnh theo nội dung dựa trên việc phân loại tập ảnh theo nội dung bằng mô hình mạng neural tích chập (CNNs) của kỹ thuật học sâu (deep learning). Đồng thời, chúng tôi sẽ kết hợp ngữ nghĩa vào quá trình tìm kiếm để cho phép mở rộng thêm kết quả tìm kiếm ảnh theo những khái niệm ngữ nghĩa mà con người đã chấp nhận, so với ý nghĩa của những thông tin có được từ những đặc trưng của ảnh. Việc kết hợp ngữ nghĩa vào quá trình tìm kiếm sẽ dựa trên một domain ontology do chúng tôi xây dựng để mô tả các mối quan hệ ngữ nghĩa giữa các chủ đề ảnh. Kết quả thực nghiệm cho thấy mô hình CNNs phân lớp tập ảnh kiểm thử đạt độ chính xác là 85,75% và việc kết hợp ngữ nghĩa cho phép mở rộng và đa dạng hóa kết quả tìm kiếm, đặc biệt hữu ích trong các trường hợp từ khóa tìm kiếm có nhiều từ đồng nghĩa hoặc nhập nhằng.