UNIMO首次实现了仅用一个预训练模型同时处理多模态任务和单模态任务,验证了AI系统可以像人类一样学习各种模态数据,从而获得更强的统一认知能力。
人脑可以处理文本、图像、语音等模态信息,通过模态间的交互提高对世界的认知能力。因此,提出了一种综合模态学习方法,可以利用大量的文本和图像的单模态数据同时进行学习,并将模态联想与图形对的多模态数据进行比较,通过先验训练获得综合的语义表达。在理解和生成的各种下游工作中,超越了维尔伯特、奥斯卡等多模态预训练模式和罗伯塔、尤尼姆等文本预训练模式。
1.综合模态学习法。
近年来,预训练技术在计算机视觉和自然语言处理领域备受关注。在视觉领域,ResNet、VGG等图像特征提取模型通常采用ImageNet数据的单模预训练进行训练。在自然语言处理领域,基于BERT、UniLM、ERNIE等自监控预训练模式,使用大规模单模文本数据训练强大的语义表达能力。为了处理多模态场景,提出了多种多模态字典训练模型,如ViLBERT和UNITER。这种多模式模型提供了图形到数据的预先训练,以支持下游多模式操作。限于图文数据,多模式预训练模式只能训练小规模数据,难以用于单模下游操作。
事实上,在现实世界中,存在大量纯文本和图像的单模数据以及图形对的多模数据。显然,一个强大的通用AI系统必须具备同时处理各种模态数据的能力。因此提出了综合模态预训练,利用文本、图像和图形对数据进行预训练,学习文本和图像的综合语义表示,具有同时处理单模和多模下游任务的能力。对于大规模的单模图像数据和单模文本数据,MONUC将使用类似的掩码预测自我监控方法来学习图像和文本的表示。同时,为了将文本和图像的表达映射到统一的语义空,本文提出了模态对比学习,实现了基于图形的数据和文本的统一表达学习。综合模态学习的最大挑战是超越不同模态的意义鸿沟,实现意义表达的统一。为了实现图像和文本的统一语义表达,提出了一种多粒度交叉模式比较学习。在句子层面,连墨运用倒装法和搜索法,获得了大量的正反例。在短语和单词层面,UNIMO首先根据图片描述分析结构化的场景图,然后通过单词层面和短语层面的替换,得到很多细调的例子。这样就可以利用扩展约定和各种粒度的高质量反例来比较图像和语义的相似性,从而学习UNIMO的正确对齐的多模态语义表示。
2.实验。
在实验中,联利团使用了广泛的单模和多模数据进行联合预训练,同时验证了各种单模和多模下游任务。训练前的部分图像数据,包括维基百科、BookCorpus、OpenWebText等数据,是从互联网上获取的300K图像。多模式图形对数据包括可可字幕、视觉基因组、概念字幕和SBU字幕。下游任务包括视觉问答、生成图片描述、视觉推理等多模式任务,以及文本分类、文本摘要、问题生成等各种文本任务。在该模型中,本文采用12层变压器进行预训练。
在多模式工作中,主要比较了维尔伯特、VLP、统一者、奥斯卡、维拉等最新的多模式学前教育模式。实验结果表明,UNIMO在视觉问答VQA、图片描述生成CoCo Caption和视觉推理操作SNLI-VE上可靠地超越了以往的模型,集成的模态UNIMO模型可以有效地处理各种多模态操作。
特别是,与之前的多模式预训练不同,联索援助团还可以处理普通文本的单模式任务。之前的多模式预训练模式在处理单模式文本任务的效果上急剧下降,有的任务减少了10-20个以上。工发组织在文本理解和生成方面取得了良好的成果,如文本分类、文本推理、文本摘要和问题生成。部分工作超过了RoBERTa、UniLM等文本词典教育模式。
UNIMO的一个优点是可以同时使用单模数据和多模数据进行预训练,这样可以利用大规模数据学习更强的综合模态语义表达。为了验证单模数据的有效性,还进行了分离实验。实验结果表明,在不使用单模态文本数据的情况下进行预训练时,减少了联莫行动对多模态任务的影响。没有多模图形,UNIMO对数据和图像数据的理解和生成也会下降。这充分说明了单模数据在统一模态学习中的有效性,说明UNIMO模型可以有效地利用不同的模态数据进行跨模态联合学习。此外,基于UNIMO,视觉问答VQA权威榜单被刷新,超越微软、阿里巴巴、脸书等知名部门,排名第一,进一步说明了综合模态前期培训的引领者。
3.Outlook摘要。
总之,提出了综合模态学习方法UNIMO。通过非模态的比较学习,对视觉和文本信息进行语义排序,学习到文本和视觉强大统一的语义表达。工发组织首次将单模和多模数据用于预培训,并同时有效处理单模和多模任务。UNIMO提供了一种新的学习范式,使机器能够像人一样使用大规模的其他模态数据,学习统一的语义表达,提高认知能力。