Chọn đáp án sai gây nhiễu

Để hệ thống sinh ra được câu hỏi điền từ với các đáp án phù hợp thì ngoài việc chọn khóa cho câu thì cần phải thực hiện chọn thêm các đáp án sai khác nữa. Đáp án gây nhiễu câu hỏi là một từ hoặc cụm từ mà có mối liên quan mật thiết đến khóa(từ đồng nghĩa, từ trái nghĩa,..), nhưng nó không phải là một câu trả lời chính xác cho câu hỏi. Việc lựa chọn từ gây nhiễu không đơn giản chỉ dừng lại ở những đồng nghĩa hay trái nghĩa mà trong hệ thống này, nhóm đã xem xét đến nhiều độ đo tương đồng về ngữ cảnh, độ tương đồng câu để tìm ra những từ phù hợp. Đây là bảng các thuộc tính được đưa ra[theo bài báo (1)]:

Feature Mô tả
context(distractor, key) Mô tả độ đo tương đồng ngữ cảnh giữa khóa(key) và các phương án nhiễu(distractor)
sim(distractor, key) Mô tả độ đo tương đồng giữa câu được chọn để sinh câu hỏi và câu có chứa đáp án nhiễu(distractor)
diff(distractor, key) Mô tả sự khác nhau trong tần số xuất hiện của khóa và đáp án nhiễu trong tài liệu

Trong phần này, nhóm ưu tiên lựa chọn các phương án nhiễu cho khóa sao cho nó nằm cùng trong mục với khóa. Những thuộc tính trong bảng trên được đưa ra để tìm được các phương án nhiễu tốt nhất cho khóa. Ngoài ra, nhóm cũng xem xét đến việc chọn các từ sao cho nó cùng từ loại với khóa(danh từ, vì trong bài toán này nhóm chỉ áp dụng việc lựa chọn danh từ).

Contextual similarity: context(distractor,key), là độ đo tương đồng giữa ngữ cảnh của khóa và phương án nhiễu tiềm năng dựa trên nội dung cơ bản của ngữ cảnh mà chúng xuất hiện trong câu. Hai từ phía trước và hai từ tiếp theo, mà chúng đã được gán nhãn loại từ trong phần một, được so sánh để tính trọng số.

Sentence Similarity: sim(distractor,key), giá trị của thuộc tính này thể hiện độ tương đồng về câu chứa khóa và phương án nhiễu tiềm năng, sử dụng theo công thức độ đo: dice coefficient(s1, s2) = 2*commontokens/(l(s1)+l(s2))

Difference in term frequencies: diff(distractor,key), thuộc tính này thể hiện sự khác nhau giữa tần số xuất hiện của khóa và của các phương án nhiễu tiềm năng trong tài liệu, sự khác nhau về tần số xuất hiện các nhỏ thì càng phù hợp.

Ví dụ (7) đưa ra các khóa và các đáp án gây nhiễu tương đồng:

Key Distractors
Quần xã Quần thể, hệ sinh thái, sinh cảnh, môi trường
Chuỗi thức ăn Lưới thức ăn, mắt xích, sinh vật tiêu thụ.