Chọn khóa tốt nhất
Để chọn khóa tốt nhất trong danh sách khóa tiềm năng đã được sinh ra, nhóm đã sử dụng hai feature là term(key) và title(key)[theo bài báo (1)].
Feature | Mô tả |
---|---|
term(key) | Mô tả số lần xuất hiện của khóa trong tài liệu |
title(key) | Xem xét xem khóa có nằm trong tiêu đề của tài liệu hay không? |
len(key) | Xem độ dài của khóa |
Term frequency: term(key), mô tả số lần xuất hiện của khóa trong tài liệu, thường thì những từ quan trọng(không xét đến các từ nối) sẽ được xuất hiện nhiều lần trong tài liệu. Vì thế, term(key) là một tiêu chí quan trọng để đánh giá khóa.
In title: title(key), thuộc tính này xem xét đến việc khóa đó có nằm trong tiêu đề của tài liệu hay không. Những từ mà xuất hiện trong tiêu đề của tài liệu được đưa ra làm khóa tốt hơn những từ khác.
len(key): Khóa dài thì khả năng chứa đựng thông tin nhiều hơn so với khóa ngắn Trọng số của mỗi khóa tiềm năng trong danh sách khóa được tính dựa trên hai thuộc tính trên. Khóa tốt nhất được chọn từ trọng số của khóa được thể hiện như trong ví dụ (6):
Hệ sinh thái là một hệ thống hoàn chỉnh, tương đối ổn định, bao gồm quần xã sinh vật và khu vực sống của quần xã (sinh cảnh)(title: Hệ sinh thái).