(上图为微软全球资深副总裁、微软亚太研发集团主席、微软亚洲研究院院长洪小文)2018年11月8日,微软亚洲研究院迎来了二十周年庆典。1998年11月,微软亚洲研究院正式在北京成立,是微软设在美国本土以外规模最大的研究机构。
20年来,微软亚洲研究院已发展成为具有世界影响力的计算机基础及应用研究机构。
目前,微软亚洲研究院拥有200多名研究人员,以及超过300名访问学者和实习生,主要聚焦于自然用户界面、智能多媒体、大数据与知识挖掘、人工智能、云和边缘计算、计算机科学基础等六大研究领域。截至2018年11月,微软亚洲研究院已在国际顶级学术会议和期刊上公开发表5,000余篇论文,其中有50多篇荣获“最佳论文”奖,最近公布的人工智能领域顶级学术大会AAAI 2019论文入选名单中有27篇来自微软亚洲研究院。此外,诸多全球性的科技突破也来自微软亚洲研究院:2015年微软亚洲研究院开发的计算机视觉系统在ImageNet挑战赛中首次超越了人类物体识别分类的能力;2018年在由斯坦福大学发起的SQuAD文本理解挑战赛榜单上,微软亚洲研究院的R-NET和NL-NET模型分别在两个维度上率先超越了人类分数;2018年3月,由微软亚洲研究院与微软雷德蒙研究院共同研发的机器翻译系统,在通用新闻报道测试集newstest2017的中-英测试集上首次达到了可以与人工翻译媲美的水平。
而在不断突破科研边界的时候,微软亚洲研究院也在深刻影响微软的产品体系。
从微软智能云Azure、Office 365到微软小冰、必应(Bing)搜索、再到Xbox以及HoloLens,可以说微软几乎每一款产品都有微软亚洲研究院的烙印,微软亚洲研究院还通过自身的技术积累和科研创新孵化了很多广受欢迎的应用和技术平台。而从微软亚洲研究院走出来的人才,几乎撑起了中国科技产业的创新领军队伍,包括李开复、张亚勤、王坚、马维英、芮勇、李世鹏、王海峰等在ICT、互联网和投资领域都是顶尖级领军科技人才。微软亚洲研究院还孵化出了多个工程院,包括微软中国云计算与人工智能事业部和微软(亚洲)互联网工程院,不仅推动了微软产品的开发与落地,还进一步完善了微软在中国和亚太地区的研发布局,促进了微软亚太研发集团的成立。
2018年9月,微软亚洲研究院宣布在上海成立微软亚洲研究院-上海,同时宣布与上海市徐汇区人民政府以及上海仪电(集团)有限公司合作建立微软-仪电人工智能创新院。过去二十年,微软亚洲研究院已经做出了卓越的成就。
未来二十年,微软亚洲研究院怎么看?微软亚洲研究院成立20周年之际,微软亚洲研究院各领域的资深专家在机器学习、计算机视觉、系统研究、数据智能、个性化推荐系统、自然语言处理、计算机图形学等十余个人工智能核心技术方向发表了文章,解读了对未来十年到二十年技术趋势的观点。
本文节选了已经发表了六篇,与读者分享微软亚洲研究院的“预见未来”。好的系统“大象无形”在整个计算科研和产品创新体系中,计算机系统是最基础、最根本也是最重要的领域。计算机系统研究涉及的方面非常宽广,即包括软件层面的操作系统、数据库系统、编译系统行装,也包括硬件层面的CPU指令集、内存、存储系统、服务器和数据中心结构等。
微软亚洲研究院认为,“大音希声,大象无形”是“好系统”的体现。“无形”就意味着现代计算系统设计要能够自然而然地陪伴着大众,但却也让大众能够“视而不见”,这就像无处不在的加油站或电源接口,这些设施屏蔽了复杂的城市供油和供电线路。在可见的未来,系统研究仍将把“无形”作为重要设计理念,让应用开发者和大众无需面对底层系统的复杂性。未来的技术趋势是一个现实世界和虚拟世界边界消失的过程,也可以简单地说是“虚拟和现实世界的融合”。
而这些变化背后需要大量的各型可嵌入可连接的传感器和执行装置、智能化的数据分析和服务以及混合现实和浸入式体验设备的支持。在云计算系统架构方面,现在一个显然的技术趋势就是如何从完全中心化的云计算进化到新的去中心化的计算。例如:IoT和边缘计算的兴起就在这个背景下产生。更重要的,从计算机架构和哲学范畴出发,去中心化一直是整个世界占主导地位的一种系统设计。
当然,完全去中心化也是不切实际的。未来让数据和计算如何无缝在云端和终端迁移、交互以及协作将成为系统研究的一个重要方向,从操作系统、存储系统乃至一致性协议都需要进一步改进。未来计算对实时性的要求越来越高,如何针对性的设计相应的计算平台,是系统研究的一个课题。存储平台的发展,从BigTable、MongoDB到Spanner, 遵循以提高可扩展性为首要需求,但对一致性的要求也越来越强,高可扩展及强一致性的存储平台将是未来的趋势之一。
在智能边缘计算方面,如何对系统的性能和能耗进行优化,是一个值得持续研究的课题。另外,在边缘计算中,模型是存储和运行在边缘设备上的。因此,如何保护模型数据不被非法复制和盗用就成了一个重要的问题。
在安全、隐私和可信计算方面,安全硬件、区块链和可验证的软件技术将一起构成新的安全基础。软件和硬件的一体设计变为一个未来的重要趋势。如何更好的定义硬件和软件之间的边界以及合适的抽象、如何找出它们之间的最好划分成为了系统体系结构设计的重要问题。
例如,对于深度学习、Tensor和计算图的引入就软件和硬件如何合作完成这种新的计算模式提出了新的要求;大数据领域、数据运算的抽象结合定制的加密和压缩芯片也将进一步提高云计算平台处理大数据的效率。在新的一体化设计革命中,新的特定领域编程语言、编译器和优化、以及虚拟化技术也将同时变革。异构系统正成为近年来计算机体系结构研究的一个热点。深度学习加速器、FPGA为基础的可重构硬件、通用可编程加速器以及新的通用处理器都在不断创新。
而内存硬件的创新例如高速非易失性内存(Non Volatile Memory,NVM)、内存封装的创新例如HBM(High Bandwidth Memory )以及体系结构的创新例如内存解聚(Memory Disaggregation)也将帮助计算从内存访问带宽和延迟的瓶颈中解放出来。未来的人工智能计算系统的前端表达能力将越来越灵活,逐渐趋于通用计算;同时,后端的计算能力将越来越强大。面对前、后端的快速发展,自动化的编译优化框架成为了衔接两者的必经之路。
而在人工智能时代,大规模计算系统不仅要在大规模设备上才能高效地处理海量数据,更需要能支持多种不同类型任务的混合执行的能力。未来,不同的计算任务在实际中的边界将变得越来越模糊,很多现实的应用中的数据分析都是由这些计算任务组合而成的综合体。现在更多大型系统有着更多的随机性,控制变量和环境变量大幅增加。这些新的变化,让人工智能可能发挥更大的作用。
在将来,系统研究者需要探索如何将基于统计学习的方法更加广泛的应用到大型复杂系统的设计和控制中去。机器学习还有哪些可以期待?近年来,有很多新型的机器学习技术受到人们的广泛关注,也在解决实际问题中,提供了有效的方案,包括深度学习、强化学习、对抗学习、对偶学习、迁移学习、分布式学习、以及元学习。机器学习虽然取得了长足的进步,也解决了很多实际问题,但是机器学习领域仍然存在着巨大的挑战。
首先,主流的机器学习技术是黑箱技术,无法预知暗藏的危机。为解决这个问题,则需要让机器学习具有可解释性、可干预性。