基于分组权重共享将领域知识应用于文本分类

核心提示ACL 2017 Short Papers基于分组权重共享将领域知识应用于文本分类Exploiting Domain Knowledge via Grouped Weight Sharing with Application to Text

ACL 2017短文

基于分组权重共享的领域知识在文本分类中的应用

基于分组权重共享的领域知识挖掘及其在文本分类中的应用

德克萨斯大学奥斯汀分校

德克萨斯大学奥斯汀分校

[摘要NLP神经模型的一个基本优势是能够从零开始学习表示。然而,在实践中,这通常意味着忽略现有的外部语言资源,如WordNet或特定领域的本体,如统一医学语言系统。我们提出了一种通用的、新颖的方法,通过权重共享来开发这些资源。以前关于神经网络中权重分配的工作被认为是模型压缩的一种方式。相比之下,我们将权重共享视为将先验知识整合到神经模型中的灵活机制。我们表明,与没有权重共享的基准策略相比,该方法不断提高分类任务的性能。

1导言

在学习原始文本输入表征方面,神经模型表现出良好的性能,同时缓解了对特定任务特征工程的需求。但是,从零开始学习的缺点是没有利用先验的语言或语义知识,它通常被编码在现有的资源如本体中。在评估高度灵活的模型时,这种先验知识可能特别有价值。在这篇文章中,我们讨论了在训练NLP任务的神经模型时如何利用单词之间的已知关系。

我们建议使用特征散列技术,它最初是作为神经网络压缩的一种方法提出的。这里,我们把特征哈希引起的部分参数共享看作是一种灵活的机制,它将网络节点权重与先前相似的网络节点权重相结合。事实上,这充当了一种正则化,限制模型学习与外部资源中编码的领域知识一致的权重。

图1分组零件的重量分担示例。这里有两个群体。我们随机选择嵌入权重在属于同一组的单词之间共享。

更具体地说,作为外部资源,我们使用Brown Cluster、WordNet和统一医学语言系统。从这些,我们得到意思相似的词组。然后,我们使用特征哈希在属于同一语义组的词向量表示之间共享权重子集。这迫使模型尊重先前的领域知识,因为在给定的本体下,相似的术语被迫具有相似的向量表示。

我们的贡献是提出一种新颖、简单和灵活的方法,通过随机权重共享将领域知识注入到神经模型中。七个不同分类任务的结果表明,我们的方法不断提高了不能利用领域知识的基线的性能,并将改进后的方法作为训练前编码领域知识的预处理步骤。

2分组重量共享

我们将现有资源中的相似关系结合到卷积神经网络的先验知识中。为了实现这一点,我们构造了一个共享词向量矩阵,使得先前已知的相似词的约束是共享词向量权重的一部分。

图2中提出的双通道模型。第一通道的输入是标准的预训练单词向量矩阵。第二通道接收由外部语言资源构建的部分共享词向量矩阵。

具体来说,假设我们有N组来自外部来源的单词。请注意,人们可以通过几种方式获得这样一个群体;例如,在SentiWordNet中使用synsets。我们使用{g1,g2,...,gN}来代表该组。每个组与表示ggi的单词向量相关联。我们通过平均组中每个单词的预训练单词向量来初始化它。

为了利用分组和独立的词权重,我们采用双通道CNN模型。用预训练的字向量初始化第一通道的字向量矩阵。我们使用

表示此输入。第二通道输入矩阵使用我们提出的加权字向量。

初始化。Es是根据我们下面描述的过程通过从Ep和外部资源中提取来初始化的。

给定长度为L的输入文本序列,通过使用相应的词向量矩阵来构建该序列的嵌入表示

.然后,我们对这两个矩阵应用独立的线性卷积滤波器集。每个过滤器将生成一个特征映射向量

.我们对每个V执行1-max池,每个特征图提取一个标量。最后,我们将所有特征图的标量连接成一个特征向量,该向量被馈送给softmax函数以预测标签。

我们如下初始化Es。每一行Es

是单词I的单词向量表示..单词可能属于一个或多个组。映射函数G检索单词I所属的组,即G返回{g1,g2,...,gN}。我们使用

其中K是包含单词I的组的数量。为了初始化Es,对于单词向量ei的每个单词的每个维度J,我们使用散列函数hi来将索引J映射到K个组id之一:

.下面,我们用第二个哈希函数B来消除哈希造成的偏移。这是一个将元组映射到{+1,-1}的签名函数。然后,将ei,j设置为

的产物。h和b是大致均匀的散列函数。算法1提供了完整的初始化过程。

参见插图图1。G1在这里包含三个词:好,不错和惊人,而g2有两个词:好和有趣。单词组gg1、gg2被初始化为包含单词的预训练单词向量的平均值。这里,单词向量参数e1,1和e2,1都映射到gg1,1,所以它们共享这个值。类似地,e1,3和e2,3将在gg1,3上共享权重。为了简化,我们从该图中省略了第二个散列函数B。

在训练期间,我们像往常一样使用反向传播来更新Ep。我们以类似于Chen等人的方式更新Es和词向量组G。在每个训练步骤之前的正向传播中,我们从G:

我们使用这个新更新的ei,j在CNN中执行前向传播。

在反向传播过程中,我们首先计算Es的梯度,然后使用它来导出梯度w . r . t . GS。因此,对于ggk中的每个维度J,我们将其元素映射到该维度的梯度w . r . t . Es以进行聚合:

其中当

时间

,否则为0。每个训练步骤包括执行等式1和2。一旦计算出共享梯度,梯度下降照常进行。我们以标准方式更新除共享权重之外的所有参数。

我们方法中的参数数量与通道数量线性相关。然而,对于每个通道,梯度实际上可以以分布式方式传播回来,因为卷积和嵌入层在这些通道之间是独立的。因此,训练时间与通道中的参数数量大致成线性关系。

3实验装置

3.1数据集

我们使用三个情感数据集:电影评论数据集;客户评价数据集;和意见数据集。

表1数据集统计

我们还使用了四个涉及系统评价的生物医学数据集。这里的任务是将描述临床试验的发表文章分类为与特定的临床问题相关或不相关。被认为相关的文章包含在相应的评论中,这是所有相关证据的综合。我们用的是关于评价的数据:氯吡格雷用于心血管疾病;用于评估肾病患者贫血和铁缺乏的生物标志物:他汀类药物;和质子束疗法。

3.2实施细节和基线

我们使用SentiWordNet来学习情感分析任务。Sentiwordnet给wordnet的每个synset分配三个情绪分数:积极、消极和客观,总和限于1。我们只保留正负分数大于0的synset,也就是说,我们删除被认为是客观的synset。SentiWordNet中的Synsets构成了我们的组。我们还在三个情感数据集上使用了布朗聚类算法。我们生成1000个聚类,把它们当作一个组。

对于生物医学数据集,我们使用附在每个摘要上的医学主题标题术语对其进行分类。每个网格术语都有一个树编号,表示从UMLS的根开始的路径。比如“阿拉吉勒综合征”的树号是“c 06 . 552 . 150 . 125”;周期树是分裂的,数字是节点。我们归纳包含网状项的组,这些网状项共享相同的前三个父节点,例如所有带有' C06.552.150 '的项,因为它们的树号前缀形成一个组。

我们将该方法与几个基线进行了比较。这些都是使用预先训练好的词向量表示来初始化Ep,但是我们探索了几种使用Es的方法:随机初始化Es;Es被初始化以反映单词向量组G,但是在训练过程中权重是不共享的,即当我们进行反向传播时,它的权重是不受约束的等等。使用语言资源来修改前词向量表示,并使用这些来初始化es。为了进行修改,我们首先构建一个源自SentiWordNet的图。然后,我们在图上运行信念传播,使得链接的单词具有相似的向量。这只是预处理步骤;我们不会在训练过程中强加体重分担的限制。

对于情感数据集,我们为两个CNN频道中的每一个使用三个滤波器高度。对于生物医学数据集,我们只使用一个过滤高度,因为输入是非结构化网格项。在这两种情况下,我们使用100个不同高度的过滤器。对于情感数据集,我们使用Google word2vec来初始化Ep。对于生物医学数据集,我们使用生物医学文本训练的word2vec来初始化Ep。对于参数估计,我们使用Adadelta。由于生物医学数据集的不平衡,我们使用下采样来有效地训练数据的平衡子集。

我们使用MR情感数据集开发了我们的方法,并调整了我们从可用资源中建立群体的方法。完成模型和超参数后,在其他情感数据集上进行了实验。类似地,我们使用贫血评估作为生物医学任务的发展,特别是w.r.t .使用UMLS从网格术语构建组。

4个结果

我们将每个实验重复五次,并记录这些重复的平均值。情感和生物医学语料库的结果分别列于表2和表3。这些不同的外部资源被用来分组单词,这又激发了权重共享。我们报告生物医学数据集的AUC,因为它们非常不平衡。

情感数据集的平均精度。“p”:通过预训练的字向量Ep的信道初始化。' r ':通道是随机初始化的。' Retro ':用重新安装的嵌入进行初始化。S/B ':信道通过Es初始化,但在训练期间权重不共享。“S/B”:本文提出的权重分配方法。

生物医学数据集的AUC平均值。如表2所示,只是这里的外部资源是UMLS网格本体。“u”是ULMS提出的一种权重分配方法。

在所有相关基线中,我们的方法在七个案例中的六个案例中提高了性能。使用外部资源初始化信息权重可以独立地提高性能,但是通过在训练中共享可以获得额外的好处。

我们注意到,我们的目标不一定是在任何给定的数据集上获得最先进的结果,而是评估通过权重共享将外部语言资源纳入神经模型的方法。因此,我们比较了使我们能够对此进行评估的基线。

5相关工作

自然语言处理的神经模型。近年来,神经模型成为自然语言处理研究中的一个热点。与这项工作最相关的是,基于CNN的简单模型已被证明对文本分类非常有效。

开发语言资源。在端到端神经模型中从头学习的潜在缺点是不能利用现有的知识源。已经努力使用这些资源来归纳更好的单词向量。然而,这些模型不像我们在这里所做的那样,在特定下游任务的训练期间一起使用外部资源。

先前关于稀疏线性模型的工作已经显示了在统计NLP模型中使用语言知识的潜力。例如,Yogatama和Smith使用外部资源来通知对数线性文本分类模型的结构和分组正则化,从而导致对标准正则化方法的改进。在其他地方,多希-维勒兹等人提出了LDA变体,使用先验已知的分词来构建主题建模中的关系。

神经元共享权重。最近的工作已经考虑在神经模型中随机分配权重。值得注意的是,陈等人提出在神经网络中随机分配权重。在其他地方,韩等人提出了定量权重共享作为其深度压缩模型的中间步骤。在这些作品中,主要动机是模型压缩,这里我们把哈希技巧看作是一种编码知识的机制。

6结论

我们提出了一种新的方法,通过随机权重共享将先验语义知识整合到神经模型中。我们已经表明,与不使用外部资源的模型变体和改进先前训练模型的方法相比,它极大地提高了文本分类的性能。在未来的工作中,我们将研究并扩展我们的方法到分类任务以外的领域,并在其他种类和来源的语言知识中实现权重共享。

论文下载链接:

http://www.aclweb.org/anthology/P/P17/P17-2024.pdf

留言发朋友圈。

让我们一起探讨AI落地的最后一公里。

 
友情链接
鄂ICP备19019357号-22