91网站服务首席科学家陈峥博士出席第28届国际计算语言学会议（C

时间： 2021-02-06 17:17:39 作者：媒介星软文平台

上月,第28届国际计算语言学会议(COLING 2020)在线上圆满举行,91获客首席科学家陈峥博士出席并发表论文演讲。

计算语言学国际会议COLING 2020(是计算语言学和自然语言处理领域的顶级国际会议,由ICCL(国际计算语言学委员会)主办,每两年举办一次,是CCF推荐的B类顶级会议。

陈峥博士发表论文主题为《ForceReader: a BERT-based Interactive Machine Reading Comprehension Model with Attention Separation》,主要提出了一种基于 BERT(Bidirectional Encoder Representations from Transformers) 的交互式机器阅读理解模型 Force Reader。

Force Reader是一种基于 BERT 的交互式机器读取器,通过大量分析论述,提出了Force Reader的总体模型,并且是通过多种实验方式结果比较推出。事实证明,Force Reader对于语言阅读理解任务执行能力有了显著性提高。

一、对目前 BERT 在机器阅读理解中的应用进行了详细分析,并通过可视化方式提出和解释了其存在的注意力分散问题。

首先,肯定了BERT的释放对NLP的发展带来的积极性推动。

一般情况,机器阅读理解需要一台机器根据给定的段落回答问题 Q。BERT通过将 Q 和 P 编码成单个单词序列作为输入来处理这个任务。然而BERT 的联合输入方法可能会让一个部分的语义受到另一个部分词的影响。自我保持机制在处理问题和段落相互作用时,也很难在联合输入序列中准确区分问题和段落对, 无法在问题词和段落之间建立适当的双向注意。

因此,当前BERT机器阅读理解任务的监督训练不足,存在注意力分散的问题。

二、提出Force Reader模型的总体结构,包括注意力分离表示、多模式阅读、条件背景关注和注意力分散问题的交互推理。

1、注意力分离表示法

为了解决注意力分散引起的问题,我们采用了注意力分离表示法。分别向 BERT模型输入Q和P,变压器模型必须分别计算 Q 和 P 上的注意,而不需要相互注意。这样,Q 的整体语义注意力只会分布在它自己的单词上,而不会被 P 中某些令人不安的单词分心。这种模型使捕获文本部分的语义核心词变得更容易,以便在以后的交互中更好地匹配交互的语义丰富性。

2、多模式阅读结合

我们的模型将Q2P(阅读段落之前,有人可能会先阅读这个问题,然后用问题的背景知识从段落中找到答案)、P2Q(在阅读问题之前阅读该段,然后用段落的记忆回答问题)、QCP(在阅读问题之前阅读该段,然后用段落的记忆回答问题)三种阅读模式结合起来,不断融合计算优势互补,使知识能够通过多种模式获得,以解决不同语境下的阅读理解问题。

3、条件背景关注

为了在阅读理解任务中执行更多的交互推理,将神经网络常用的特征融合方法如加法、级联和投影等模式进行特征融合,模式之间交互受益,并将其中一种的结果作为其他模式的条件背景语义进行计算,使之不再缺乏整体语义知识。

4、互动推理

基于前面的多模式阅读和条件背景注意模型后,提出了问题和段落之间的文字相似性是至关重要的基础信息,提升问题和段落之间的互动,将会是一种阅读理解任务中更好的方式。

通过余弦相似度和L1距离来表达这种相似性,并将这两种度量的结果叠加在一起,得到相互作用张量S。

除了直接的单词交互,还需要与短语片段的交互模型。还要基于单词交互的多层抽象来捕捉不同窗口段之间的信息交互。训练模型逻辑受卷积神经网络在图像处理领域的成功启发,使用多通道可分离卷积神经网络提取多个交互特征。首先,不同受体的每个通道进行逐点卷积操作。然后执行 1x1 信道卷积运算,以便在信道之间融合信息。经过多层可分离卷积运算后,我们在执行全局最大池化和换位维度以获得输出。