作者| Frederico Guth,Teófilo Emidio de Campos
编译|彦希
出品| AI技术大本营
【导读】人类能从少数样本中学习,可见其优秀的泛化能力,这是学习算法还远远达不到的。目前最成功的模型都需要大量的标注数据,但是这些数据价格昂贵且难以获取,这也成为了在实践中使用机器学习的最大障碍之一。最近的研究表明,当前的算法很难概括训练期间看到的数据。在这种情况下,迁移学习显示出巨大的潜力,其目的是更有效地利用先前获得的知识来学习新的任务。
在这篇系统综述中,作者采用定量的方法选取该领域的重大进展,并运用文献计量学的耦合计量方法确定研究前沿。此外,本文进一步分析了该领域“经典”与“前沿”的语言差异,并预测了潜在的研究方向。
1导言
图1:过去10年迁移学习的研究成果和引文的演变,以及具有高确定性系数的指数增长预测
虽然2018年出版数量有所下降。其中,被引用次数最多的前20篇论文几乎占到了引用次数的一半。
这显示了迁移学习的巨大潜力,它旨在利用以前的经验有效地学习新的任务。在实践中,目标语言往往被具体应用,其中迁移方法是所用学习算法的简单扩展。如此重要但缺乏统一的方法和理论表明这是一个潜在的研究领域。正如吴恩达所说,“迁移学习将是跨行业机器学习成功的下一个驱动力”。从这个角度来看,人们对这个话题越来越感兴趣是可以理解的。
1.1目标
我们的研究问题是:
迁移的研究前沿是什么?可以根据文献计量学进行这种评估吗?为了回答这些问题,我们将首先回顾文献,揭示在这一领域的主要贡献以及它们之间的关系。
1.2贡献
我们用TEMAC框架来介绍迁移学习文献的最新系统综述。这种方法有助于我们将注意力集中在影响最大贡献上。我们扩展了TEMAC,用散文本来分析摘要的语言变化,据我们所知,这是这种可视化工具的原始用法。在文献计量分析的基础上,确定了该领域的研究前沿和有待解决的问题。
1.3概述
在这篇简介中,我们将介绍相关作品。在下一节中,我们将解释研究方法和定量分析来支持我们的发现。在第三节中,我们给出了文献综述中的结果。未解决的问题将在第4节讨论。最后,我们在第5节进行了总结,并提出了我们的研究问题的答案。
方法:采用定量方法进行文献综述。
我们的文献综述采用2017年mariano2017revisao的文献计量学方法,为文献选择提供定量支持。
TEMAC包括:
研究准备;数据表示和相互关系;细节、概述和验证。
2.1研究准备
3月31日,搜索了图2所示的科学Clarivate Analytics网站,找到了1289篇文章。值得注意的是,对这个话题的兴趣正在上升,可以预测三年内文章数量将会翻倍。
{ tcolorbox }[col back =黄色!5!白色,colframe =灰色!75!black,title=Results: 1,289]您搜索了:主题:提炼者:科学网类别:和语言:和研究领域:时间跨度:2009-2019。索引:SCI-EXPANDED,CPCI-S,ESCI。图2:“十年搜索”:科学网上的搜索参数
第3.5节仅搜索最近的研究。
{ tcolorbox }[col back =黄色!5!白色,colframe =灰色!75!black,title=Results: 384 ]您搜索了:主题:提炼者:科学网类别:和语言:和研究领域:和出版年份:和文档类型:Timespan: 20 09-2019。索引:SCI-EXPANDED,CPCI-S,ESCI。图3:“3年搜索”:前沿分析的搜索参数
2.2数据表示和相关性
在此阶段,我们分析:
被引用最多的文章;文章数量逐年演变);引文逐年演变);以及发表和引用最多的作者;并公布被引用次数最多的会议;以及发表和引用最多的机构;按研究产出分列的国家;关键词频率。
2.3概述和验证
共被引分析:共被引是衡量两篇论文在同一参考文献列表中被引用的频率,并假设它们是同一“知识结构”的“片段”。因此,共被引分析通过识别有影响力的著作来描述研究领域的知识传承,但由于这些著作被引用的时间较短,并不处于研究的前沿。使用VOSviewer这款免费软件,对《10年搜索》精选文章中引用的作品进行聚类。这样,就确定了三个知识群。
双重耦合分析:当两篇论文至少有一个共同的参考文献时,就发生了文献耦合。因此,如果论文的参考文献重叠,则认为是耦合的。由于可以在被引和被引著作中按时间顺序排列,文献耦合使我们能够绘制研究“迭代”图,从而确定研究的前沿领域。需要注意的一点是,在这种情况下,走在前列只是时间上的一个概率,并不代表这是一份有前途的工作。这种定量方法的局限性,指向了鉴别“未来经典”需要定性的补充。在TEMAC的框架内,文学耦合的时间不应超过最近三年。在我们的分析中,我们将时间限制在2017年至2019年3月的会议纪要中的入选作品,假设这些作品的审核和出版时间较短,因此它们代表了该领域的更新内容。
文本分析:在这种分析中,文章被视为词包,用tf-idf的概念来定义哪些词能更好地识别每篇论文。比如,和那些解释“10年搜索”文章的人相比,哪个词更好地解释了前沿研究?Tf-idf的定义是:
Tf是单词t在文件D中的频率,idf表示t在文件D中的逆文档频率..
N:文件中语料库的大小N=|D|。
t是出现的文件数量的基础。这个工具用于生成图8和图12。
3文献综述
3.1迁移学习的历史介绍
自从1995年在一个主题为“学会如何学习”的NIPS研讨会上讨论了机器学习保留和重用先前获得的知识的必要性以来,迁移学习的研究越来越受到关注,尽管有时它被冠以不同的名称。
2005年,DARPA的一个项目首次使用了“迁移学习”这个术语。该术语被定义为从一个或多个源任务中提取知识并将其应用于目标任务的目标。在科学网上进行的搜索可以证实,第一篇使用“迁移学习”一词的文章出现在2005年。
2012年,Alex Krizhevsky和他的团队在ImageNet Challenge中使用的深度神经网络比第二名高出41%。这一令人印象深刻的成就激发了深度学习研究的指数级增长。这一结果凸显了数据可用性对于人工智能发展的重要性,使迁移学习进入了一个全新的时代。尽管使用ImageNet这样的大数据集学习成本很高,但事实证明,训练有素的模型非常适合初始化不同任务的模型。这种“微调”方法可以在许多任务中用较少的数据获得良好的结果。
目前,迁移学习已经成为著名会议的共同话题。
3.2注释和定义
转移是一个关于领域和任务的概念。根据潘阳,域D由特征空组成
和编辑分布。
组成,从集群中获取样本。
。例如,在图像分类问题中,x是具有一定大小和通道数的所有可能图像的空,
是图像,S是训练数据集。
如果域D=
测试任务可以按条件分配。
进行统计定义,即
是
当目标函数,预测其相应
假设
是源域,
是源任务,D_T是目标域,
是目标任务,迁移学习的目的是学以致用,学以致用。
在...中的作用
,其中
,
3.3迁移学习研究概述
潘是被引用次数最多的作者,共被引用2706次。影响力主要来自《迁移学习调查》,是该领域被引用最多的文章,引用次数达2240次。本文的主要贡献是为迁移学习提供定义、注释和分类,对研究界具有重要意义。这篇文章发表在IEEE期刊上,影响因子为2775,在煽动JCR的“计算机科学”和“人工智能”类别中排名第33,这意味着它不是迁移学习研究的常用出版物。
中国是该领域最具生产力的国家,其次是美国和英国。
大多数文章在会议上发表,占比 63%。CVPR 是迁移学习