基于LSA模型和相似度计算根据题目题干抽取背景知识库的相关知识,训练BiLSTM深度神经网络找出四个备选选项中的最佳者
基于LSA模型和相似度计算根据题目题干抽取背景知识库的相关知识,训练BiLSTM深度神经网络找出四个备选选项中的最佳者
(1)数据集包括三部分:训练数据集、测试数据集和背景知识库。其中训练数据集和测试数据集都由一个个具体的问题组成,每个问题的结构为背景(B)+题干(Q)+四个选项(3错1对),背景知识库仅由数万条背景(B)组成,不含题干和选项。
(2)通过LSA在背景知识库中找到与训练集或测试集题干最相近的k条知识,具体方法为构造文本单词矩阵,对文本单词矩阵进行奇异值分解或正定矩阵分解得到话题向量空间和文本话题矩阵,基于文本话题矩阵找到与题干最相似的k条知识。
(3)构造BiLSTM深度网络训练模型,将题干和四个问题选项经过嵌入层和两个BiLSTM层后,计算题干与四个选项之间的余弦相似度,最后连接上一个softmax层预测最终结果。
(4)通过precision、recall、F1-Score评价模型在测试集上的预测结果,绘制热力图直观表示分类。