Chọn câu phù hợp
Một câu được gọi là tốt nếu câu đó có chứa thông tin và câu đó có thể tạo ra được câu hỏi điền từ. Một câu chứa thông tin trong tài liệu là câu mà có thông tin hữu ích liên quan đến nội dung của tài liệu. Một câu có thể tạo ra được câu hỏi tức là câu đó được dự đoán có thể sinh ra khóa để tạo khoảng trống điền từ cho câu hỏi.
Từ tất cả các câu trong tài liệu, ta sẽ trích xuất những câu phù hợp thông qua việc xét chọn dựa vào các thuộc tính phụ thuộc cho từng câu. Sau đó, ta xem xét việc đánh trọng số cho mỗi thuộc tính được đưa ra trong bảng sau[theo bài báo (1)]:
Thuộc tính | Mô tả | Giá trị |
---|---|---|
f(si) | Mô tả si có phải câu đầu tiên trong tài liệu hay không? | |
sim(si) | Mô tả số lượng từ đếm đươc giống nhau trong câu si và tiêu đề của tài liệu / độ dài của câu si | |
abb(si) | Mô tả si có chứa từ viết tắt hay không? | |
super(si) | Mô tả si có chứa những từ có mức độ cao nhất hay không? | |
pos(si) | Vị trí của si trong tài liệu | |
discon(si) | Mô tả si có bắt đầu bằng từ nối kết luận hay không? | |
l(si) | Mô tả số từ trong câu si | |
nouns(si) | Mô tả số lượng danh từ trong si/độ dài si | |
pronouns(si) | Mô tả số lượng đại từ trong si/độ dài si |
Mô tả chi tiết các thuộc tính:
First sentence: f(si), thuộc tính này mô tả việc xem xét câu đang xét có là câu đầu tiên trong tài liệu hay không. Như ta thấy, những câu nằm đầu tiên thường là những câu quan trọng, tóm tắt nội dung của cả đoạn.
Common tokens: sim(si), thuộc tính xem xét đến những từ giống nhau trong câu đang xét và câu tiêu đề của tài liệu(tiêu đề của mục hoặc tiêu đề của cả chương). Những câu mà những từ có nằm trong tiêu đề của tài liệu càng nhiều thì càng quan trọng.
Ví dụ 2: Quần thể là một nhóm cá thể cùng loài cùng sinh sống trong một khoảng không gian xác định, vào một thời điểm nhất định và có khả năng giao phối sinh ra con cái (những loài sinh sản vô tính hay trinh sản thì không qua giao phối)(Tiêu đề: Quần thể).
Abbreviations: abb(si), thuộc tính xem xét trong câu có chứa từ viết tắt hay không, thường thì những từ viết tắt được đại diện cho một nhóm từ hoặc tổ chức,.. nên nó là quan trọng trong việc xem xét.
Superlatives: super(si), thuộc tính xem xét trong câu có chứa những từ ở mức độ so sánh cao nhất hay không. Với những câu có chứa từ so sánh cao nhất thường là những câu quan trọng để lấy. Ví dụ 3:
Sentence position: pos(si), mô tả việc xem xét đến vị trí của câu trong tài liệu. Thật vậy, khi viết văn thì vị trí của câu có sự ảnh hưởng lớn ví như khi viết đoạn văn quy nạp thì câu cuối cùng của đoạn là câu quan trọng nhất vì nó chứa nội dung tổng kết của cả đoạn, còn đối với đoạn văn diễn giải thì câu đầu tiên lại là quan trọng nhất. Chính vì thế, việc xét vị trí của câu là quan trọng, những câu nằm ở vị trí đầu hoặc cuối câu thường quan trọng hơn những câu ở vị trí giữa trong tài liệu.
Discourse connective at the beginning: discon(si), thuộc tính mô tả câu si có bắt đầu bằng từ nối kết luận hay không, ví dụ những từ sau “chính vì vậy”, “vì thế”, “thế nên”,…Những câu có chứa những từ này thường quan trọng bởi nó đem lại nội dung tóm tắt của tài liệu.
Ví dụ 4: Vậy, Quần xã sinh vật là một tập hợp các quần thể sinh vật được hình thành trong một quá trình lịch sử, cùng sống trong một không gian xác định gọi là sinh cảnh, nhờ các mối liên hệ sinh thái tương hỗ mà gắn bó với nhau như một thể thống nhất.
Length: l(si), mô tả việc xem xét đến độ dài của câu si bởi câu quá ngắn thì không đem lại nhiều nội dung và có thể không thể sinh ra được câu hỏi. Thế nên, độ dài của câu trong tài liệu cũng là một phần trong tiêu chí xét chọn câu làm câu hỏi.
Number of nouns: nouns(si), thuộc tính này là việc đếm số lượng các danh từ trong câu si, những câu càng chứa nhiều danh từ càng đem lại nhiều thông tin hữu ích và dự đoán có thể sinh ra được khóa tìm năng trong phần hai từ các danh từ này.
Number of pronouns: pronouns(si), thuộc tính này là việc đếm số lượng các đại từ có trong câu si. Những câu chứa nhiều đại từ thường không đem lại nhiều thông tin.
Như ta đã thấy về việc chọn lựa các thuộc tính thì có việc xét đến các từ là đại từ, danh từ,..để thực hiện công việc này thì trước tiên ta cần thực hiện việc tag câu. Trong hệ thống này, nhóm sử dụng một vài thư viện có sẵn để phục vụ cho việc tách từ trong câu tiếng việt, các thư viện sẽ được trình bày rõ hơn ở phần kết quả thực nghiệm.
Cách đánh trọng số cho mỗi thuộc tính:
Công thức tổng quát:
score = wi*fi,
wi là trọng số của thuộc tính thứ i,
fi là thuộc tính thứ i được xem xét trong bảng trên.