Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học tiếng Việt dựa trên cấu trúc

Tạ Nguyễn, Vũ Đức Lung

Abstract


Bài báo trình bày cách thức rút trích các câu có nội dung quan trọng trong các văn bản khoa học tiếng Việt dựa trên cấu trúc. Hệ thống rút trích được xây dựng dựa trên một quy trình chặt chẽ mà bài báo đề xuất với việc áp dụng nhiều phương pháp khác nhau trong việc tính toán độ quan trọng thông tin của câu. Kết quả thử nghiệm cho thấy kết hợp phương pháp độ đo cục bộ và toàn cục (TF.IDF) với cách đánh giá câu theo cách cộng dồn trọng số từ cho kết quả tốt nhất. Bước đầu thử nghiệm trên các bài báo khoa học và toàn văn báo cáo thuộc lĩnh vực Công nghệ thông tin đã cho những kết quả có độ chính xác cao so với yêu cầu.




DOI: https://doi.org/10.15625/0866-708X/52/3/3232 Display counter: Abstract : 169 views. PDF (Tiếng Việt) : 2012 views.

Refbacks

  • There are currently no refbacks.


Bioteknologi Agrikultur

Index: Google Scholar; Crossref; VCGate; Asean Citation Index

Published by Vietnam Academy of Science and Technology