威斯康星大学麦迪逊分校:情感分类中领域自适应词嵌入方法的研究

核心提示这是读芯术解读的第123篇论文ACL 2018 Short Papers情感分类中领域自适应词嵌入方法的研究Domain Adapted Word Embeddings for Improved Sentiment Classificati

这是核心阅读的第123篇论文。

ACL 2018短文

情感分类中领域自适应词嵌入方法的研究

用于改进情感分类的领域适应单词嵌入

威斯康星大学

威斯康星大学麦迪逊分校

本文是美国威斯康星大学麦迪逊分校发表在ACL 2018上的作品。针对领域自适应的单词嵌入方法,提出了一种将一般单词嵌入的普遍性与特定领域嵌入的特殊性相结合的方法。通过使用典型相关分析或相关非线性核CCA来对齐对应的词向量,获得最终的领域自适应词嵌入。在情感分类任务上的评测结果表明,当DA嵌入作为标准或最新分类任务中句子编码算法的输入特征时,其性能明显优于普通和DS嵌入。

介绍

将Glove、word2vec等通用词嵌入到大量原始文本集中进行预训练,可以在文本情感分类等各种应用中作为特征使用,并显示出显著的成功。然而,许多应用程序有特定领域的词汇表和相对较少的数据。由于预先在通用语料库中训练的单词嵌入无法捕获特定领域的语义/知识,在小数据集上学习到的嵌入质量较低,因此在这种情况下通用单词嵌入的性能受到限制。

小型特定领域语料库的一个具体例子是物质使用者障碍数据集,它包含关于吸毒者论坛的信息。这些论坛是移动健康干预治疗的一部分,鼓励参与者参与有关戒酒的讨论。这些处理的目的是分析参与者的数字媒体内容,并通过机器学习算法提供人工干预。这些数据是特定于领域的,并且大小有限。其他例子包括客户支持投票报告出租车服务问题,产品评论,餐厅和电影评论,特殊利益集团的讨论和政治调查。

这样的数据集对单词嵌入学习算法提出了巨大的挑战。首先,词在特定主题的数据中的分布与在一般语料库中的分布是不同的。因此,嵌入在维基百科等语料库上训练得到的常用词,在特定的下游任务如情感分类中可能表现不佳。比如在SOD中,讨论集中在与恢复和成瘾相关的话题;在约会的背景下,“派对”这个词背后的情感可能与吸毒背景下的情感有很大不同。因此,特定领域的词汇和语义对于预先训练的情感分类模型来说可能是一个问题。第二,没有足够的数据来完全重新训练一组新的单词嵌入。SUD数据集由几百人组成,其中只有一小部分是活跃的。此外,内容每天都是自发生成的,语言使用也是非正式的、非结构化的。由于训练目标高度非凸,数据量小,嵌入通用词的精度也导致输出噪声非常大。因为这些数据集是常见的,所以采用简单有效的方法来适应单词嵌入方法是非常有价值的。然而,现有的工作大多是结合来自不同算法的单词嵌入来改善内部任务,如相似性和类比,而没有结合多个嵌入来执行领域适应或改善外部任务的具体方法。

在本文中,我们提出了一种获得高质量单词嵌入的方法,该方法捕获特定领域的语义并适用于特定领域的任务。通过CCA/KCCA,将一般嵌入和特定域嵌入结合起来,得到一种新的域自适应嵌入。一般情况下,嵌入是在大型语料库上训练的,不需要捕获特定领域的语义,而DS嵌入是通过潜在语义分析等算法或其他嵌入方法从特定领域的数据集获得的。两组嵌入使用线性CCA或非线性核CCA的组合。它们沿最大相关方向投影,通过平均一般嵌入和DS嵌入的投影形成一个新的嵌入。然后在情感分类任务中评估DA嵌入。实验表明,CCA/KCCA组合的DA嵌入性能明显高于一般嵌入、DS嵌入和级联SVD基线。

模型

直接在小数据集上嵌入训练词会导致噪声输出,而从一般语料库嵌入则无法捕捉到特定领域的局部意义。这里我们用CCA KCCA把DS和一般嵌入结合起来,CCA KCCA把对应的词向量沿着最大相关方向投影。

集合矩阵

它的列是特定于领域的单词嵌入,其中VDS是它的词汇表,d1是嵌入维度。同样,假设

是常用词的嵌入矩阵,其中VG是词汇量,d2是嵌入维度。设置

。让wi,DS成为单词。

Wi,G是它的一般嵌入。对于一维CCA,设φDS和φG分别为wi,DS和wi,G的投影方向。投影值为:

CCA大使

最大化它们之间的相关性,从而获得:

使用

给出了单词I的最终域适用嵌入,其中参数α和β可以通过优化以下公式来获得:

公式的解给出了α=β=1/2的加权组合,即新矢量等于两个投影的平均值:

例如,给出一个方向量。

,核函数K写成特征映射φ的形式,由

因此,给定wa和wb:

在内核CCA中,在执行CCA之前,数据首先在高维特征空之间进行投影。在这项工作中,使用的核函数是高斯核,即,

实验分析

我们在四个标准数据集上评估了在二元情感分类任务中使用DA嵌入的结果。文档嵌入是通过标准框架得到的,即文档嵌入是其组成词嵌入的加权组合,句子嵌入是用词嵌入初始化最先进的句子编码算法InferSent得到的。然后用逻辑回归对编码后的句子进行分类。

从下面两个表可以看出,当DA嵌入用于标准分类任务时,以及用于初始化句子编码算法时,DA嵌入的性能都优于concSVD和general以及DS word嵌入。正如所料,LSA DS嵌入比Word2VEC DS嵌入得到更好的结果。注意,在不平衡的A-CHESS数据集上,在标准分类任务中,KCCA嵌入的性能在所有三个性能指标上都优于其他基线。但是从第二张表可以看出,GlvCC嵌入比KCCA嵌入有更高的平均Fscore和AUC,KCCA嵌入的准确率最高。

评价分类器时,F值和AUC是较好的性能指标,但需要注意的是,A棋是高度不平衡的。还要注意,InferSent是在比A-CHESS测试集大得多的平衡NLI数据集上重新训练的。当然,这样的训练集有更多的正面样本的例子。因此,当使用一般单词嵌入来初始化句子编码时,通过使用分类任务中的输出,整体F-score和AUC更好。

根据我们的假设,KCCA嵌入有望比其他嵌入具有更好的性能,因为CCA/KCCA提供了一种直观和更好的技术来保存来自一般和DS嵌入的信息。因此,DS和泛型字嵌入适当加权组合形成的任务特定DA嵌入优于concSVD嵌入和单一泛型和/或DS嵌入。我们注意到LSA DS嵌入比Word2VEC DS嵌入更好。

摘要

提出了一种简单有效的学习领域自适应词嵌入的方法,在多种标准数据集上的情感分类实验中,该方法优于一般词嵌入和特定领域词嵌入。基于CCA/KCCA的DA嵌入通常甚至不能执行基于级联的方法。

 
友情链接
鄂ICP备19019357号-22