以18世纪为起点的300余年间,世界跑完了一场关于自动化、电气化、信息化三次工业革命的马拉松。每一次主导技术的改变,都使那一时间节点上人类的生活水平、工作方式、社会结构迈入下一个崭新的节点,同时也开发了社会的经济潜能。近年,深度学习算法的突破,不仅仅让人工智能迎来了历史上的第三次热潮,也让我们看到了工业革命的浪潮将有望再一次被掀起。
随着人工智能的三大核心要素,算法、算力、数据的日益完善,人工智能众多应用型技术也开始逐渐渗透各个行业、影响着人类生活方式,可见,工业革命的马拉松还未跑完,而我们正逐步迈进智能新时代。笔者将分别从人工智能最基本的几个模块,语音识别、自然语言处理、计算机视觉、决策规划系统着手,回顾人工智能一路以来的发展脉络,以史为镜、正视未来。
语音识别
人类最直接最简洁的交流方式――语音识别,一直是人工智能实现人机交互寻求突破的一大目标。在1952年,第一个基于电子计算机的语音识别系统“audrey”面世,作为“开山鼻祖”,它能够识别10个英文数字,正确率高达98%。之后的70年代,在全球开始风靡大规模的语音识别研究,但认知局限使得当时的研究仅停留在对孤立词、小词汇量句子的识别上。
由于全球性电传业务积累了大量文本,且文本可作为机读语料用于模型的训练和统计,1980年代就成为了技术取得突破的时代,研究的重点也转向了大词汇量和非特定人的连续语音识别上,同时研究思路从基于匹配转变为基于统计,隐马尔科夫模型(hmm)的理论和应用趋于完善。20世纪90年代是语音识别基本成熟的时期,但识别效果的实用价值仍然需要完善,语音识别研究的进展也趋于趋缓。
随着深度神经网络(dnn)被应用到语音的声学建模中,深度学习带来了技术上的全新突破,音素识别任务和大词汇量连续语音识别任务都取得了进一步发展。基于gmm-hmm的语音识别框架被基于dnn-hmm的语音识别系统所替代,系统的持续改进使深层卷积神经网络和引入长短时记忆模块(lstm)的循环神经网络(rnn)出现,这样,识别效果就得到了明显的提升,许多语音识别任务,尤其是近场语音识别任务达到可以进入人们日常生活的标准。以apple siri为首的智能语音助手、以echo为首的智能硬件入口等应用的普及,进一步扩充了语料资源的收集渠道,使得构建大规模通用语言模型和声学模型将成为可能。 表一为语音识别技术的发展历程。
表1 语音识别技术发展历程
自然语言处理
语言交流是人类在日常生活中不同个体间信息交换和沟通的重要途径。因此,能否自然地与人类进行交流、理解人们表达的意思并做出合适的回应,被认为是衡量机器智能程度的一个重要参照,自然语言处理也成为人工智能的核心问题。
早在上世纪50年代,ibm第一台正式对外发布的ibm-701计算机进行了世界上第一次机器翻译试验,把几个简单的俄语句子翻译成了英文。电子计算机的出现,已然使机器翻译满足当时自然语言处理的任务需要,人们对于自然语言处理存在两派不同的处理方法。一种是基于规则的符号派,另一种为基于概率的随机派,而受限于当时的数据和算力,规则派的研究更具优势。在翻译方面,当时人们认为机器的翻译过程是在解读密码,于是试图让机器通过查询词典的方式来实现翻译,但达到的结果却不令人满意:翻译效果不佳、难以实用。
1966年,美国科学院的语言自动处理咨询委员会(alpac),发布了一篇题为《语言与机器》的研究报告,全面否定了机器翻译的可行性,认为机器翻译难以克服现有的困难且没有实用价值,因此许多国家开始大幅度减少在这方面的经费投入,自然语言研究从此陷入低谷。从中,研究者们意识到机器和人类两种语言间的差异体现在词汇和句法结构上,通过加强语言模型和语义分析的研究,从而可以提升译文的可读性。
1976年,是具有里程碑意义的一个时间点。这一年,加拿大蒙特利尔大学与加拿大联邦政府翻译局联合开发了名为taum-meteo的机器翻译系统,提供天气预报服务。这个系统每小时可以翻译6-30万个词,每天可翻译1-2千篇气象资料,并能够通过电视、报纸立即公布。到了90年代,自然语言处理进入了发展时期。
随着计算机的计算速度和存储量大幅增加、大规模真实文本的积累产生,以及被互联网发展激发出的、以网页搜索为代表的信息检索和抽取需求出现,人们对自然语言处理的热情空前高涨。在基于规则的传统处理技术中,人们引入了更多数据驱动的统计方法,将自然语言处理的研究推向了一个新高度,除了机器翻译之外,网页搜索、语音交互、对话机器人等领域的发展都有自然语言处理的功劳。
进入2010年以后,基于浅层、深层学习技术和大数据,自然语言处理的功能得到了进一步优化,专门的智能翻译产品面世,对话交互能力被应用在客服机器人、智能助手等产品中。机器翻译方面,谷歌推出的神经网络机器翻译(gnmt)相比传统的基于词组的机器翻译(pbmt),英语到西班牙语的错误率下降87%,英文到中文的错误率下降58%,取得了非常显著的提升。表2为自然语言处理功能的发展历程。
表2 自然语言处理功能发展历程
计算机视觉技术
九十年代,计算机视觉技术取得了更大的发展,开始广泛应用于工业领域。一方面是图像处理硬件技术有了飞速进步,另一方面是人们也开始尝试不同的算法,包括统计方法和局部特征描述符的引入。在“先验知识库”的方法中,事物的形状、颜色、表面纹理等特征受到视角和观察环境所影响,在不同角度、不同光线、不同遮挡的情况下会产生变化。因此,人们找到了一种方法:通过局部特征的识别来判断事物,对事物建立一个局部特征索引,即使视角或观察环境发生变化,也能比较准确地匹配上。
21世纪,得益于因互联网兴起和数码相机出现而带来的海量数据,加之机器学习方法的广泛应用,计算机视觉发展迅速。以往许多基于规则的处理方式,都被机器学习所替代:自动从海量数据中总结归纳物体的特征,然后进行识别和判断。这一阶段涌现出了非常多的应用,包括典型的相机人脸检测、安防人脸识别、车牌识别等。
2010年,借助于深度学习的力量,计算机视觉技术得到了爆发增长和产业化。通过深度神经网络,各类视觉相关任务的识别精度都得到了大幅提升。在全球最权威的计算机视觉竞赛ilsvr上,千类物体识别top 5错误率在2010年和2011年时分别为28.2%和25.8%,2012年引入深度学习之后,后续4年分别为16.4%、11.7%、6.7%、3.7%,出现了显著突破。由于效果的提升,计算机视觉技术的应用场景也快速扩展,除了在比较成熟的安防领域应用外,也有应用在金融领域的人脸识别身份验证、电商领域的商品拍照搜索、医疗领域的智能影像诊断、机器人/无人车上作为视觉输入系统等,包括许多有意思的场景:照片自动分类(图像识别+分类)、图像描述生成(图像识别+理解)等。表3为计算机视觉别技术的发展历程
图 计算机视觉别技术发展历程
规划决策系统
人工智能规划决策系统的发展,一度是以棋类游戏为载体的。早在18世纪,就出现过一台可以下棋的机器,当时几乎击败了所有人类棋手,后来才知道,这仅是一场骗局罢了。之后,电子计算机诞生,1962年基于人工智能的规划决策系统出现,arthur samuel屡次改进的西洋跳棋程序checkers终于战胜了人类棋手的州冠军,证明程序已具备了初步的自我学习能力,使得这场胜利在当时引起了巨大的轰动。
但人工智能所面临的困难比人们想象得还要难的多,以当时的计算能力,机器若想通过暴力计算战胜人类象棋棋手,每步棋的平均计算时长需要以年为单位。于是人们开始将“剪枝法”运用到了估值函数中,通过剔除低可能性的走法优化最终的估值函数计算。在此改进下,西北大学开发的象棋程序chess 4.5在1976年首次击败了顶尖人类棋手。随着算法上的不断优化,国际象棋程序由80年代开始,在判断能力和计算速度方面大幅提升,几乎已经能够击败所有顶尖的人类棋手。1997年那场著名的人机大战中,由于机器的运算硬件性能和算法能力等都已得到了大幅提升,由ibm研发的深蓝(deepblue)战胜了国际象棋大师卡斯帕罗夫。
2016年,硬件层面出现了基于gpu、tpu的并行计算,算法层面上出现蒙特卡洛决策树与深度神经网络的结合。4:1战胜李世石、在野狐围棋对战顶尖棋手60连胜、3:0战胜世界排名第一的围棋选手柯洁,足以表明人类在博弈游戏中已经完全败给机器。由此,从棋类游戏中积累的知识和经验被应用在更广泛的需要决策规划的领域,包括机器人控制、无人车等等,人工智能进入一个新的发展阶段。表4为规划决策系统的发展历程。
表4 规划决策系统发展历程