您的位置:402cc永利手机版 > 互联网动态 > 认识智能探秘,人工智能

认识智能探秘,人工智能

2019-10-30 13:21

1957年,人工智能(artificial intelligence,AI)的先驱、通用问题求解机(Global Problem Solver)的发明者之一赫伯特·西蒙(Herbert A.Simon)曾说过:“我不是故意让你震惊,但概括来说,现在世界上就已经有了可以思考,可以学习和创造的机器,而且它们的能力还将与日俱增,一直到人类大脑所能够应用到的所有领域。”

蓝色巨人IBM无疑是世界上最大的IT公司之一,从硬件到软件,从行业解决方案到大数据、人工智能产品,曾经头上光环无数。不过俗话说“花无百日红,人无千日好”,IBM这些年的路也是走得越来越艰难,去IOE蓝色巨人首当其冲(IBM,Oracle,EMC),还时刻面临着互联网巨头的挑战,以至于多年前就有不少专家在唱衰IBM,技术服务实力不够,产品性价比低,反正就是在加速没落。大象还能起舞吗?笔者表示很难回答,但IBM有个镇司之宝值得一说,那就是沃森(Watson),2011 年Watson一举击败两位人类选手,获得全美智力挑战赛 Jeopardy(危险边缘) 的冠军,成为继1997年超级电脑深蓝(DeepBlue)战胜国际象棋大师卡斯帕罗夫后的又一次人机大战。在比赛中,Watson展示出了超强的自然语言理解能力。本文就来探秘蓝色巨人的家底之一-“沃森(Watson)”认知智能。

西蒙当时曾预言,计算机会在十年之内成为国际象棋冠军。然而现实比西蒙的预测落后了三十年——直到1997年,IBM的电脑“深蓝(Deep Blue)”才战胜了象棋冠军加里·卡斯帕罗夫(Garry Kasparov)。

1.沃森(Watson)源起

图片 1深蓝与人类象棋大师的对决,堪称人工智能发展史上具有里程碑意义的一幕。图片来源:forbes.com

沃森(Watson)以IBM的首位CEO,Thomas J. Watson命名,是IBM大力推广的认知智能解决方案和系统。2011年Watson一举击败人类顶尖选手,获得全美智力挑战赛“Jeopardy(危险边缘)“冠军,从此名声大噪。Watson的起源,得从15年前说起,自从1997年深蓝电脑(DeepBlue)战胜国际象棋大师卡斯帕罗夫之后,IBM一直憋足劲在寻找一个新的挑战,准备再次大显身手。其中Charles Lickel(IBM的研发经理)某天在食堂吃饭时,注意到了同事们对智力挑战赛Jeopardy的热烈关注,顿时想到,为什么不能研发一个机器人参加这个全国闻名的竞赛呢?我们都知道这种智力抢答竞赛,需要极快的反应能力(秒级)和海量的知识存储、记忆、检索能力(智力问答涉及广泛的知识领域),在当时,Charles Lickel的这个想法被很多人认为是不可能实现的,这需要突破自然语言理解这一AI技术瓶颈。计算机可以在棋类游戏中击败人类,是因为下棋一般具有明确的规则,通过加强计算能力始终能找到有限的、可行的解;但现实世界中的自然语言和知识问答却有着不规则、不确定的复杂性,数据一般是非结构化的,语义结构的多样,问题不明确,还面临回答匹配评价的不确定性等等问题。总之,机器需要从海量的人类语言知识体系或语料库中快速找出确切的答案,特别是涉及语义挖掘层面,绝非易事。但辛亏Charles Lickel这一想法得到了他所在部门领导的肯定和支持。

卷土重来

在人工智能发展早期,学术界和工业界对其前景持有一种过分乐观的态度——这种乐观与其说是对技术的期望过高,倒不如说是当时人们对机器能力的估计实在是过低,以致于当计算机表现出一点点聪明,人们就为之惊叹,而这种惊叹又很容易演化成一种过分的自信。

这样的自信自然无法长久。度过了最初的兴奋后,无论是工业界还是学术界都遭遇了巨大的困难。以机器翻译为例,早期人们以为机器翻译只需要进行字典的对应转换,再加上人为制定的语法规则就能实现;而实际应用时却发现,这样的系统无法应对哪怕稍有复杂的多重语义,也无法针对上下文语境做出恰当的反应,很多理论上能够实现的算法也无法在有限的计算资源上展开。

1973年,英国政府委托数学家詹姆斯·莱特希尔爵士(Sir James Lighthil),对人工智能进行全面评估。结果显示,人工智能无法应对现实世界中存在的“组合爆炸”问题,因此只能实现一些简单的应用。以这份报告为基础,英国政府停止了对AI领域的研究支持。在这之后,人工智能研究陷入了长久的沉寂。

在近半个世纪之后,人工智能领域才又再一次回到人们视线,而这一次,我们拥有的资源与之前可谓不可同日而语——计算资源已经部署在云端,像水和电一样唾手可得;互联网所容纳的信息超过了前人所有的知识储备,现实和虚拟世界也不再泾渭分明。以深度学习为代表的算法发展,也使得机器有能力处理如此庞大的数据。

如果说这些只是理论,那么IBM的超级计算机“沃森(Watson)”在电视节目《危险边缘》(Jeopardy)中战胜人类,获得年度总冠军;Google X的虚拟大脑在没有预先输入的情况下,独立地从Youtube上的1000 万帧图片中学习到了“猫”的概念,就早已不是理论上的可能性,而是真实发生的现实。

图片 2虚拟大脑之父吴恩达,旁边电脑上显示的即为人工智能自我总结出的“猫”的样子。图片来源:nytimes.com

第四次工业革命的前夜

尼尔·杰卡布斯坦(Neil Jacobstein)在一次演讲中曾说过这么一句话:“当你站在太空中回望地球,你看不到争吵不停的200多个国家;而当你深入自然奥秘之中,你也看不到界限分明的学科划分。”这句话在一定程度上,可以代表杰卡布斯坦所在的奇点大学(Singularity University)的宗旨。与其说这所大学在教授最前沿的技术,倒不如它在传播最先进的理念。奇点大学专注的不是技术,而是现实世界的改变,这种改变无疑需要一种融合的视角才可能打破我们心智的成见,去实现真正的进步。

这一点对于杰卡布斯坦来说,并不是问题。作为奇点大学的人工智能与机器人项目负责人,他曾在斯坦福研究增强决策系统(augmented decision system),并担任过创新应用人工智能会议主席,同时有着环境科学与分子生物学背景。杰卡布斯坦对于整合也是游刃有余。

图片 3尼尔·杰卡布斯坦,奇点大学人工智能项目负责人,美国国防部及NASA顾问。图片来源:youtube.com

在杰卡布斯坦眼中,人工智能的发展同世界的改变一样,需要融合。杰卡布斯坦将AI划分为三个大的领域:机器学习,规则化的知识库,以及对于人类大脑的逆向工程。这三个方面也恰好对应着人工智能的三种主要做法。

2006年,Watson第一个内测版面世,在智力竞赛测试中只有15%的回答准确率,而人类选手回答正确率是85%。同年,还有两件大事值得同表。也是2006年,阿尔法狗的缔造者,正在攻读博士的黄士杰(Shih-Chieh Huang)独自开发出了第一款围棋程序(2014阿尔法狗项目才正式启动),并命名为AjaGo,当时的开发团队只有三个人:哈萨比斯、席尔瓦、黄士杰,哈萨比斯是谷歌DeepMind公司的老板,席尔瓦是黄士杰的经理,也就是说,阿尔法狗初期团队主力干活的是一位华人。也是2006年,深度学习之父Hinton在Science上发表了一篇论文,利用单层的RBM自编码预训练方法,使得深度神经网络的训练变得可能,开启了深度学习时代,并在2012年的ImageNet大赛夺冠,从此掀起了AI研究与应用的热潮。

机器学习

机器学习主要的目的是使机器拥有学习的能力。举例来说,当我们登录电子邮箱时,遇到一封广告邮件。我们手动将这封邮件标记为广告,并将其归为垃圾邮件。这个动作其实就是在对机器进行指导,在机器学习中,这一过程称之为标注,而机器可以从所有被标注为垃圾的邮件中,发现其共有的模式,并使用这种模式来对未知的邮件进行预测。此外,机器也可以在没有预先输入的情况下,自己进行学习,例如上文提到的Google X虚拟大脑。

图片 4机器学习示例。图片来源: yu.he

图1 深蓝人机大战

规则化的知识库

规则化的知识库则为机器提供了推理能力。当超级计算机沃森在《危险边缘》中面对这样一个问题:“When 60 Minutes premiered, this man was U.S . President(当《60分钟》初次上演时,这个人是当时的美国总统)”时,Waston需要使用句法分析之类的技术对句子进行句法分解,然后确定“permiered”的语义后面关联的是一个日期;同时要对“60分钟”进行语义消歧,确定它指代的是某个电视节目而非具体的时间。在进行句法分析后,沃森需要最后根据确定的日期,推断当时在位的美国总统。

图片 5规则化知识库示例。图片来源: yu.he

2.沃森的智能成绩单

人脑逆向工程

人脑逆向工程在人工智能领域也被称为联结主义,其主要内容是研究如何模拟人类大脑的神经网络运作——人工智能的发展受神经科学启发颇多,特别是在计算机视觉方面。深度学习算法在图像上对图像特征的表示,与一些生物学上的成果具有惊人的一致性。而如果我们要构建通用人工智能(Artificial General Intelligence,也称强人工智能。即像人类一样,甚至超越人类的智能系统),那么模拟神经网络看起来是最有前景的一条路径。

用IBM官方的宣传语讲[3]:沃森能在不到三秒钟的时间里对海量语料库挖地三尺,在长达数亿页的资料里展开搜索,通过集成大量的自然语言处理技术产生候选答案,再快速对候选答案进行各种维度的评价和评分。这个过程需要大量的计算,开发的100多套算法可以快速响应和解析问题,检索海量信息然后再筛选出答案。这种深度问答系统的核心技术是基于自然语言理解的认知挖掘,也就是IBM和一些专家大力宣传的的认知智能。下面来看看Watson从2006年诞生至今的智能成绩单[5]:

对人工智能的质疑

然而也有一些有识之士,对人工智能提出了不同的声音。一个有趣的现象是,在这些声音中,无论是对人工智能的发展过度乐观因而认为人工智能终将灭绝人类,还是对人工智能的发展过度悲观认为人工智能根本无法发展出真正的意识,都是围绕着人类的自主意识在做文章。

提到这个问题,就不得不对强AI做更进一步地阐述。当前的人工智能发展,更多是针对某个问题,发展对应的算法和技术,例如图像领域的技术无法直接应用到语言领域;而在这方面,人脑能够表现出比当时的AI更强的适用性。

这就导致许多人对人工智能的前景并不看好,并称之为集邮式的工作方法:我们做出了推理模块,然后拼上学习模块,然后再拼上视觉模块——把每个子领域的功能做好,然后再组合出一个完整的智能系统出来。

强AI正是针对这样的现状。强AI的研究者认为,人类智能不是这样拼起来的,在我们没有理解人类智能的运作方式前,拼合式的做法只是做出了一堆零散的工具。因此他们致力于发展智能的统一框架。强AI可能是每个AI从业者心中的圣杯,无论是Google虚拟大脑之父吴恩达(Andrew Y. Ng)追求的大脑皮层单一算法,还是《人工智能的未来》(On Intelligence)一书的作者杰夫·霍金斯(Jeff Hawkins)所致力研究的脑皮质学习算法(Hierarchical Temporal Memory),无一不是在试图克服这种拼合式的智能,转而追求一个更基础的框架。

除了对做法的质疑之外,还存在着对于机器本性的质疑,哲学家约翰·塞尔(John Rogers Searle)大名鼎鼎的中文屋即是其中代表。塞尔这一思想实验的焦点在于,机器只是机械地执行人们交给他的命令,并没有产生智能。

图片 6塞尔假想,将一个美国人放在一个房间中,并给他极为庞大的中英对照辞典,里面有着极为详明的注释,以及丰富的语法规则,然后从房间外面的小窗口塞进中文,这个人去翻辞典,找到对应的汉字形状,将按照说明,将汉字摆在一起递出去。那么问题来了,可以说这个人理解中文么?图片来源:blogspot.com

而斯图尔特·罗素(Stuart Russel)在《人工智能:一种现代方法》(Artificial Intelligence A Modern Approach)中举了一个例子来反驳塞尔:我们能够说CPU会开立方根么?众所周知,CPU所能够执行的基本操作,只有加1、减1、存储、移位等等。然而可以说,CPU不能开立方根么?

塞尔的思想实验的问题在于,他混淆了不同的层次(这也是在谈到意识问题时,大部分情况下人们所犯的错误)——我们并不会讨论这个人是否拥有智能,而是说这个房间作为一个“整体”,是拥有智能的。正如我们不会说人类大脑的布罗卡区拥有智能,而是说这个人拥有智能一样,即使布罗卡区在语言的产生中发挥着极重要的作用。

其实人工智能开创者之一的阿兰·图灵(Alan Turing)早在1950年的论文《计算机器与智能》中就给出了意见。而人尽皆知的“图灵测试”之所以提出,最大的原因就在于“智能”这个概念是模糊和易混淆的,我们需要使用行为来定义智能。没有外部可感的行为,空谈大脑中意识的意向性和灵魂,是没有价值的。

而另一方面,将人工智能想象成灭绝人类的邪恶机器人,终有一天要取代人类的想法也由来已久。但是与其考虑人工智会能像电影《黑客帝国》中描述的那样,将人类奴役并毁灭,我更愿意列举每年交通事故的死亡人数,来论证没有什么便利是没有代价的。在一项技术推广前,进行审慎的评估并做好风险控制,才是更应该做的事情。

1)2006年,Watson第一个测试版本面世,在智力竞赛内部测试中只有15%的回答准确率,回答一道题要花费数小时。

映照人类自身的一面镜子

正如杰卡布斯坦在一次TED演讲所称,要应对即将到来的人工智能革命,我们需要在数学素养、生态素养,尤其是道德素养上进行不断地自我提升,从而确保当我们手持利器之时,不会对同胞兵刃相见。

人们对人工智能最多的讨论,其实更像是对我们自身的讨论——关于自身的情感,关于自身在宇宙中的地位,关于自己是渺小还是伟大的一种心情。毕竟,用心理学的观点来看,人工智能,这个除了人本身以外最像人的东西,实在是我们心理投射里一个再好不过的客体。(编辑:Calo、球藻怪)

2)2008年,通过两阶段学习和并行计算优化,大幅提高问题回答的准确率和响应效率,Watson开发团队增加到数十人。

文章题图:valuewalk.com

3)2011年,Watson参加智能挑战赛“危险边缘(Jeopardy)”,这是该节目有史以来第一次人与机器对决。Watson打败人类记录保持者,成为冠军并获得100万美元奖金。

图2 沃森人机大战

4)2012-2014年,IBM成立Watson集团,并与克利夫兰医院合作挑战医疗大数据,让肿瘤专家开始使用 Watson 去分析基因数据和医疗诊断数据之间的关系,以完善个性化的治疗方案。并宣称,东京大学的研究者利用 Watson 成功治愈了一个 60 岁的白血病患者,其做法就是将该病人的基因数据与数以万计的医疗文献做对比,形成针对该患者的定制医疗方案。

图3 Waston辅助药物设计发现

5)2015 年,Watson紧跟当下人工智能前沿发展趋势,计划为 Watson 加入深度学习技术,比如翻译、语音文本的互转等等。早期自然语言处理与大规模数据集的分析技术,拓展了深度学习技术的使用。

6)2016年,以Watson集团为中心,通过密集收购相关企业,大力拓展各行业数据智能解决方案业务。比如收购医疗成像和数据分析公司Explorys、交易欺诈公司Iris Analytics,云端医疗数据存储公司Truven Health Analytics,天气数据分析公司The Weather Company等等。

通过上述技术发展,和行业数据整合,沃森逐步在各行业数据智能分析领域站稳脚跟,以Watson为核心的沃森集团,涉足医疗健康、法律、农业、金融、教育、保险、市场营销、人力资源等多个领域。特别在医疗领域的进展喜人,与全球很多的知名医院展开合作,在中国就有20多家三甲医院。虽然也有挫折,比如和著名医疗机构德克萨斯大学附属癌症中心(MD Anderson Cancer Center)项目合作的失败。但不可否认,面对整个科技行业都在大力转型人工智能的趋势,Watson作为IBM抢占人工智能最高点的杀手锏,未来的应用潜力还是很大的。

3. 认知智能与自然语言理解

最近几年,IBM大推“认知智能”,可以说是继“智慧地球”之后的一次重大战略转型,凸显了沃森在IBM未来的核心战略地位。那什么是认知智能呢,我在前文《深度智能的崛起》[12]中有谈到,一般来讲,传统的符号逻辑方法及一般的统计机器学习方法以科学运算、逻辑处理、统计分析和规则式AI、专家系统等为核心,很难称得上智能,人工智能要真正走向智能,认知是关键,需要从如下三个层次进行突破(如下图):

图4 人工智能的三个层次

(1)计算智能:计算智能的概念由IEEE神经网络学会于1990年提出,通常是指计算机从数据或实验观察中学习特定任务的能力,计算智能是借鉴自然进化等计算方法(如仿生类算法:遗传算法、蚁群算法、DNA计算等,还有如神经网络算法,这些算法也可以看作是数据挖掘,机器学习和人工智能部分支撑技术)以解决复杂的问题。这种方法接近于人的推理方式,即使用不精确和不完整的知识,并能够以自适应的方式产生控制行为,比如使计算机能够理解自然语言的模糊逻辑,使系统通过像生物一样学习数据中的经验和模式。

(2)感知智能:感知智能就是要使机器具有视觉、听觉、触觉等感知能力。这离不开机器学习,所有机器学习方法都是关于从数据中识别出趋势,或者识别数据所适用的类别,以便在提供新的数据时,可以做出适当的预测。通过这种学习方式,能初步让机器“看”懂与“听”懂,并据此辅助人类高效地完成如图像识别、语音识别、语言翻译等工作。近年来,以深度学习为核心的机器学习方法取得重大突破和进展,使得机器的感知智能水平正在逐步接近或超过人类,AI当前的研究应用水平就处于这一阶段。

(3)认知智能:相比感知,认知智能更进一步,能初步掌握人类一样的理解、情感和交互能力。旨在让机器学会主动思考、决策及行动,以实现全面辅助或替代人类工作。认知智能具有自适应性,及能随着目标和需求进行自适应变化;交互性,能与外部参与者进行流畅互动和交流;迭代性,能通过反馈、记忆等升级优化自己的能力;最后一点要有对环境的理解能力,比如初步认识和理解所出的世界,对语言交流的环境理解等等。要实现认知智能绝非易事,必须解决机器非监督学习问题,技术难度很大,长期以来进展缓慢。认知智能也会用到各种机器学习技术,但只要机器学习方法是不够的,如何实现记忆、情感和复杂知识推理等,要么需要终极算法的支持,要么是集成多个高级AI子系统的一整套架构协同工作。在这个层面,AI的研究还处于相当初级的水平。

而IBM沃森现阶段的认知智能水平,笔者认为还比较初级,Watson的认知特指机器通过与人的自然语言交流及不断从大规模语料库中学习,使机器更好地从海量语料数据中获得深入洞察,从而辅助人类做出更精准的决策。驱动沃森的核心技术之一是自然语言理解。我们再来看看什么是自然语言理解。对机器来讲,我们把语言分为两个大类,一是自然语言:人类交流的语言,口语、书面语、文本等,特指人类交流用语;二是人造语言:机器语言,如汇编,C , Java,Python等,是人类设计出来的供机器使用的语言。自然语言理解主要研究如何使计算机能够理解和生成自然语言。自然语言理解既是人工智能研究较早的一个领域,同时也是计算机智能化的一个必备特征。到目前为止的人类知识有80%以上使用自然语言文字记载下来的。将来用计算机语言形式记载和处理的知识将会越来越多,比如自动问答、提取材料摘要、自动语言生成、不同语言翻译、信息检索搜索、自动语音识别等等。

图5 机器翻译的瓶颈

作为AI的关键研究领域,自然语言理解面临的复杂的技术挑战,比如图灵在50年底就提出了著名的图灵测试,就是力图解决机器的语言理解问题,相比较人工智能其它领域,自然语言理解是难度最大,进展最慢的,至今为止还未能达到期望的水平。其研究目标是建立足够精确的语言模型使计算机通过编程来完成自然语言的相关任务。如:听、读、写、说,释义,翻译,回答问题等。传统AI方法有基于规则的语言模型,如词法、语法和文法分析等,当前大规模语料库流行的时代,基于统计推理和深度学习的方法越来越重要。

图6 Watson认知智能技术范畴

沃森的认知智能处于什么样一个技术层面呢,我们简单回顾一下AI技术三个范畴:首先是传统的人工智能技术,定义广泛,涵盖所有可能的模拟智力的方法,那时候研究人员还不清楚什么技术最有可能胜出,所以任何一本人工智能教材都可谓是一锅大杂烩,列出了智能技术相关的方方面面。其次是人工智能的一个子集机器学习,它使用数据和经验自动调整算法,成为基于规则AI之后的一种新的学习范式。再就是机器学习的一个子集深度学习,这里我就不做赘述了,前文有很多介绍。Watson的核心技术应该说是基于海量的语料库数据 统计推理结合规则式AI方法 少量机器学习方法的组合体(如上图)。接下来我们就来一探沃森技术的究竟,看看其认知智能平台架构和关键技术到底涉及哪些内容。

4. 沃森的认知智能架构与关键技术

简单来讲,Watson是一个基于深度问答技术的自然语言理解系统,依托海量语料库数据的组织和检索,加上大量统计推理算法和机器学习训练的组合。这就像若干专家系统的组合,整个系统由许多较小的功能组件组成,一个组件代表了一个子领域的专家,专注于解决一个特定的子问题。平台核心是机器阅读和理解,从自然语料库中半自动地获取知识,并将统计推理、规则方法与知识相结合。这种架构也是传统AI要进化为智能机器的经典思路,不过在李飞飞高徒andrej karpathy(现为Tesla AI部门总监)看来,这条路是不可行的。

(1)Watson认知智能架构

我们首先从软件角度,来分析Watson的认知理解过程(参考维基百科[3,6]):“在Watson分析问题并确定最佳解答的过程中,运用了自然语言处理、信息检索、知识表示推理和机器学习技术。Watson基于DeepQA技术框架,来生成假设、收集大量证据、并进行分析和评估。Watson通过加载数以百万计的文件,包括字典、百科全书、网页主题分类、宗教典籍、小说、戏剧和其他资料,来构建它的知识体系。与搜索引擎不同,用户可以用自然语言向Watson提出问题,Watson则能够反馈精确的答案。从解答的过程来看,Watson通过使用数以百计的算法,而非单一算法,来搜索问题的候选答案、并对每个答案进行评估打分,同时为每个候选答案收集其他支持材料,并使用复杂的自然语言处理技术深度评估获得的初步答案和证据。当越来越多的算法运算的结果聚焦到某一个答案时,这个答案的可信度就会越高。Watson会衡量每个候选答案的支持证据,来确认最佳的选择及其可信度。当这个答案的可信度达到一定的水平时,Watson就会将它作为最佳答案呈现出来“。整个平台架构如下图。

图7 Watson认知智能平台架构

其中包含三个层面的核心技术:

1)对问题和语料库数据的理解:通过自然语言理解技术,基于结构化与非结构化数据处理能力,与用户的问题进行交互,并理解和应对用户的问题。这里面的核心技术是自然语言处理引擎,通过将问题解析为单词来加以理解,并映射单词之间的关系(如图8)。

2)基于假设和证据的推理:Watson具有简单的逻辑思考能力,首先像搜索引擎一样搜索海量语料库,筛选非结构化数据,如维基百科和新闻,以及结构化数据库(如病例库)数据,通过假设生成,透过数据揭示洞察、模式和关系。根据关键词检索或本体逻辑匹配技术,将散落在语料库中各处的知识片段连接起来,产生潜在的答案之后,沃森还需要搜索更多的证据,通过证据提供的新的信息,来评价答案的正确性,并消除弱的答案。通过一系列推理、分析、对比、归纳、总结和论证,来获取答案决策。

3)学习和训练:能够从海量语料库数据中快速提取关键信息,存储相关模型和中间数据库,像人类一样进行认知学习。通过学习算法训练,并在交互中通过经验学习来获取反馈并优化模型,从而提高知识理解水平。

图8 Watson认知过程解析

为什么Watson能从刚开始数小时回答一个问题,降到2-3秒回答,这就需要并行计算的支持。基于UIMA非结构化信息管理框架的Watson平台架构十分有利于并行化,整个系统由许多较小的功能组件组成,一个组件代表了一个子领域的专家,专注于解决一个特定的子问题,通过其子问题的大规模并行计算能极大提高整个系统的响应效率。其服务器集群如下图,详细硬件配置大家可以做个了解,网上官方公布的参考数据是[3,6]:“Watson由90台IBM服务器、360个计算机芯片驱动组成,拥有15TB内存、2880个处理器、每秒可进行80万亿次运算。这些服务器均采用Linux操作系统,配置的处理器是Power7系列,这是当前RISC(精简指令集计算机)架构中最强的处理器,拥有8核、32个线程,主频最高可达4.1GHz。”

图9 Watson服务器集群

(2)深度问答(DeepQA)技术

对上面的认知智能平台架构进行细化,可以得到下图,IBM称之为DeepQA即深度问答技术架构。首先我们通过一个例子来看其深度问答是怎么样一个过程[3]:比如要回答“《星球大战》的导演是谁?”这个问题。Watson通过摄像头识别文本来输入这个问题,先分析这个问的是人,然后再细化到是一位导演。接着分析《星球大战》,会从海量的语料数据库中找到很多文章。它要定位某篇文章,其中把星球大战的导演那一段找出来,然后对这一段做深度分析,比如找到一句话,这句话里说到这是某人在哪一年执导(direct)的,但没有提导演(director)这个词。实际上还可以找到很多类似的词,它就需要过滤,它先会找人名,比如斯皮尔伯格、卢卡斯等,这些都是潜在答案。针对这些答案它要找相关的证据去支持。它会再把“星球大战”和“斯皮尔伯格”一起搜索,或者是和“卢卡斯”搜索,结果发现“星球大战”和“斯皮尔伯格”共同出现在同一篇文章中比较少,而“卢卡斯”比较多。但是这还不是一个足够强的证据,还要列出证据一、证据二、证据三、证据四是什么。下一阶段是对于卢卡斯和斯皮尔伯格做快速排序,通过一个模型来确定哪个应该排在前面,哪个应该排在后面。沃森就要根据过去的比赛和知识库来确定。最后它得出的答案是‘卢卡斯’。

本文由402cc永利手机版发布于互联网动态,转载请注明出处:认识智能探秘,人工智能

关键词: www.402.com 402cc永利手机版