人工智能问世60多年来,承载着人类对自己的智慧的无限自信。在这样的自信下,人工智能发展到了今天,人们在追求机器从事尽可能多的智力劳动的路上走得很快,也很远。今天人工智能的发展,实际上标志着人类第三次认知革命,即它的目标是通过探求人类智能认识自我而形成主观世界的机制,并把这样的能力赋予机器以改造客观世界,以实现人类智能的体外延伸。从这个意义上来说,人工智能的发展将会改变整个人类的文明进程。
香港浸会大学副校长郭毅可认为人工智能发展到今天所面临的主要问题是:“缺乏知识”。目前机器还没有掌握总结知识、积累知识、应用知识、传承知识和建立组织管理知识体系的能力。今天人工智能面临的挑战,也为中国人工智能的发展带来了难得的战略机遇。中国人工智能发展战略的关键就是直面挑战,大力发展人工智能的基础理论,确立自己的学术自信和话语权,在人工智能赋能上下大功夫,建立自己的人工智能工业体系,实实在在地在有选择的重点领域中,以人工智能技术作为推动力,实现革命性的产业创新。
重要观点
当前我国人工智能技术发展面临知识匮乏的问题,以佛学的“五明”理论来阐释,一是缺乏“声明”,人类智能对自己行为的解释以及和世界交流的能力依然不足;二是缺乏“因明”,无法揭示和演绎因果关系;三是缺乏“内明”,智能体没有主观能动性;四是缺乏“医方明”,需要形成系统观;五是缺乏“工巧明”,需加强对智能体行为的研究。
中国推动人工智能发展首先要明确研究的方向和切合实际的目标。我们在确定人工智能研究的发展道路和长期目标的时候,一定要对人工智能发展有一个正确客观的科学思考,这样才能避免许多由于盲目乐观或技术跟风而造成的时间和资源上的巨大浪费。
其次要切实重视人工智能基础理论的研究与创新,培养有创造力的人工智能人才。必须创造一个生态环境,使得科学家能够沉下心来,进行跨学科的深入的理论研究,并培养出具有扎实的理论素养、宽广的知识面、丰富的科学想象力创造力的人工智能研究型人才。
第三要建立人工智能发展的生态环境,需要建立具有中国特色的数据市场和数据经济体系、算力体系,以及加强对于人机二元社会的新的社会形态、准则、相关法律和道德伦理的研究。
第四是建立完整的人工智能化产业体系,应利用好我国在数据和算力上的优势,建设好我国基于大模型的“智能能源”和人工智能产业链,从而形成一个完整的人工智能赋能环境。
更多精彩观点
人工智能问世60多年来,承载着人类对自己的智慧的无限自信。图灵思想实验的哲学基础,就是认为人的智能是世上所有可能智能的极限,所以只要机器可以让人无法区分其智能行为与人的差异,那么机器就有了智能。在这样的自信下,人工智能发展到了今天,人们在追求机器从事尽可能多的智力劳动的路上走得很快,也很远。例如,让机器写新闻、让机器作音乐、让机器改照片等。根据世界经济论坛与诸多机构于2018年共同提出的“人工智能发展时间表”的若干预测:
2024年,人工智能可自行撰写Python代码(根据笔者判断,其实现在应该已经有这类的研究成果,所以机器在2024年可以自己编写程序的预估决不夸张,而如果机器能够写出好的程序的话,那么机器就能够自行发展和创造新的机器功能);2028年,人工智能可以创造出影片;2049年,人工智能写的小说会成为畅销书籍;2059年,人工智能甚至可以自己进行数学研究。
这些预测说明了人工智能的发展已经进入了一个新的历史阶段。根据斯坦福大学最近的报告,2020年全球企业对AI领域的投资增至近680亿美元,比2019年增长了40%。人工智能的研究也在蓬勃发展:2019年,全球发表了超过12万篇关于AI的论文。2000年至2019年之间,人工智能的论文占所有同行评审论文的比例从0.8%上升到了3.8%。总之,人工智能的发展可谓方兴未艾。今天人工智能的发展,实际上标志着人类第三次认知革命,即它的目标是通过探求人类智能认识自我而形成主观世界的机制,并把这样的能力赋予机器以改造客观世界,以实现人类智能的体外延伸。从这个意义上来说,人工智能的发展将会改变整个人类的文明进程。
01 对人工智能发展的回顾
对人类智能的理解。作为生物链最顶层的人类,需要有更复杂、更强大的思维能力,来合理分配资源、优化自己的生存条件、预见和应对不断变化的威胁因素,为此人类进化出独特的能不断产生和运用智能的脑神经系统,近代神经科学的研究表明:人类大脑中具有的新皮层是学习和记忆功能的载体,从而开启了专门研究神经的思维机制的学科——认知神经学,它的核心就是研究大脑皮层中神经元的活动以及他们之间飞速传递的电脉冲与思维活动之间的关系。
认知神经学的产生和人工智能的发展同步。在人工智能发展的初期,正是借着对人脑机制的初步认识,开启了人工智能的第一个高潮。1958年,在标志性的达特茅斯会议之后仅仅2年,美国学者弗兰克·罗森布拉特就提出了感知器,这是一种参数可变的单层神经网络模型,是人类第一次把自己所具备的学习功能用算法模型的形式表达出来,第一次赋予了机器可以从数据中学习知识的能力,它是今天神经网络的雏形,提出了许多今天机器学习的核心概念。美国军方认为感知器可以识别坦克,从而投资进行研究,但很快人们就认识到了这样简单学习模型的局限性,从而结束了人工智能研究的第一次高潮。在以后的研究中,人们对于认知神经科学的研究有了巨大的进展,特别是90年代发展成熟的核磁共振技术,可以通过对人脑神经细胞中血氧的变化,来衡量人脑神经元在思维过程中神经元的活动和神经元之间信号的传递,从而使认知神经学的研究真正成了基于脑神经大数据的实验科学。今天,我们对于产生智能的人脑发展有了较深刻的认识,提出了许多有关思维的机制理论,我们普遍认识到,大脑的皮质层是有自我组织能力的模式识别器,谷歌的首席创新官雷·库兹韦尔,在他的名著《如何创造思维》一书中,提出了思维模式认知理论,其核心思想在于思维机制的模块化所组织起来的神经元网络的信号传递,而模块化的互联互动形成智能,这个思想和马克拉姆的乐高式模块组织形成智能的观念是一致的。这种模块化神经元组织机制形成智能的思想,也是近来兴起的深度学习的神经学理论基础。
对机器智能的发生发展的机制的理解。人工智能发展之初,机器的计算和存储能力都非常有限,同时,机器也缺乏感知外部世界活动的功能及手段,所以机器智能的范围只限于对在有限的问题求解空间中的搜索。因此,机器智能的机制,早期被局限于搜索。而逻辑推理是一个典型的应用范例。用逻辑推理对符号进行演绎,以模仿人类的逻辑思维,成为人工智能的一大流派,称之谓“符号主义”。从早期纽维尔、西蒙、王浩等人在机器定理证明的工作,到1965年罗宾逊发明了归结算法,即把一阶逻辑推理变成一个机械的搜索算法,符号主义的工作使推理成为机器智能的主要机制。这些工作,直接导致了20世纪80年代初的以日本第五代计算机为代表的人工智能研究的第二次高潮。以推理作为机器智能的机制,要求人类把知识以逻辑的形式告诉计算机,然而人们很快就认识到,这样靠人工获取知识的手段是机器智能的一大瓶颈,机器的智能,只有在具有自动地从客观世界中获取知识的能力之后,才能取得革命性的进步。
步入21世纪,人类进入了互联网时代。这时不仅计算机的计算和存储能力得到了巨大的提升,而且世界的万物互联和传感技术的发展,使人们在量化世界的道路上飞速前进,人类步入了量化万物的大数据时代,这样的量化世界所提供的无尽的数据资源以及以云计算技术组织起来的空前的计算能力,终于使得我们有可能使知识的自动获取成为现实。于是,从大数据中自动获取知识的机器学习,成为新一代人工智能的主要机制和技术驱动力。1985年辛顿和谢诺夫斯基发表了《玻尔兹曼机的一种学习算法》一文,提出多层神经网络的学习机制,1986年罗姆哈特和辛顿发表的《通过误差的传播学习内在表示》一文,提出了反向传播算法,从而使神经元网络具有了可以自动调节神经元连接的权重,进而实现了不断优化目标函数的学习功能。后来十几年,计算机科学家们提出了包括像卷积神经网络等一系列神经元网络结构,使得神经元网络可以自动提取对学习有意义的数据特征。这一系列的成果使得今天我们称之为深度学习的人工智能技术,成为机器智能的主要内在机制。
人工智能对人类社会发展产生深刻影响。在人工智能的发展历程中,每一次前进都受到了世界主要经济体政府的积极推动。这样的推动都来自它们对人工智能在经济发展中的领导力的战略考虑。在我们谈论人工智能技术在今天的经济发展中的重要作用时,不能仅仅着眼于当前的人工智能技术在今天的经济和社会生活环境下的应用,更重要的是要把人工智能作为一种新的发展中的生产力。这样的新生产力和以往导致生产力革新的技术,如蒸汽机、电力计算机和互联网有着本质不同,它是一种可以反作用于人类的生产力,是可以和人类一起共生、共长的生产力,它的发展可以促进人类自身的智能的进步和拓展,而这样的进步反过来又会增进机器智能的进一步发展。
所以,我们不能简单地把人工智能在经济上的作用,用一个“人工智能+”来总结,人工智能不只是一个赋能技术,其本身在创造崭新的社会形态和经济结构,对现在和未来生活的影响无处不在,我们正在进入一个人工智能“Inside”的时代。今天人工智能的产业化,正在走向“智能能源化”的产业模式,即通过设计先进算法,整合多模态大数据,汇聚大量算力,训练出通用的、可迁移的大模型,来服务于不同的应用领域和解决实际问题。这样的“大模型”作为对于大数据的归纳和抽象,成为一种“预训练模型”,作为构造各种人工智能解决方案的基础。从2018年10月Google发布了3.4亿参数的BERT模型,2020年5月Open AI发布了1750亿参数的GPT-3模型,到2021年6月北京智源人工智能研究院发布了1.75万亿参数的“悟道2.0”模型,以及2021年6月阿里达摩研究院仅用480片GPU实现了国内第一个商业化的万亿多模态大模型,这样的大模型把大数据转化成了一种“智能能源”,在通用的大模型基础之上,应用方可以使用自己特有的数据对模型进行小计标量的微调迁移,以达到目的。这是一个人工智能很有希望的产业化途径。
02 人工智能面临的问题
人工智能发展到今天,硕果累累。但是,我们必须清晰地认识到,人工智能技术今天依然面临着许多根本性的问题,一言以蔽之就是:它缺乏知识。现阶段,我们的机器并没有掌握总结知识、积累知识、应用知识、传承知识和建立组织管理知识体系的能力。人工智能在知识上的缺乏,可以用佛学的“五明”理论来阐释。佛学把世间的一切学问归结为五种学问,称为“五明”:即语文学的“声明”、工艺学的“工巧明”、医药学的“医方明”、科学的“因明”、哲学的“内明”。“五明”被视为道行者的基本功,是佛教对人间知识的总结,行道要从“五明”入手,来传播佛法普度众生。用“五明”来观察人工智能今天面临的知识匮乏问题,实际上是很贴切的。我们可以把佛学“五明”的涵义加以扩展:“声明”指的是人类智能对自己行为的解释以及和世界交流的能力;“工巧明”指的是人类智能对行为的指导;“医方明”指的是人类智能的系统观;“因明”指的是人类智能的因果推理能力;“内明”指的是人类智能的主观能动性。今天的机器智能,恰恰缺乏的就是这“五明”!
缺乏“声明”:今天的机器智能与人交流的根本障碍。机器智能作为一个与人共存的智能体,和人的交流是一项根本的要求,这样的交流不是指今天的Siri或“度秘”以及智能手机或智能音箱的这种简单的人机对话,而是在学习层面上,人可以准确地告诉机器学习的目的、学习的环境、学习的要求,而机器也可以与人交流学习的过程、学习的结果和得到结果的缘由。也就是说机器学习目标的正确性、合理性是可以表达的,而学习结果和学习目标的一致性是可以论证的。只有这样的人工智能才是可信的,才能形成构造于人类共生、共存的智能体的基础。今天所进行的人工智能的可解释性、可论证性的研究,正反映了人工智能在今天所面临的巨大挑战。目前的深度学习技术,说到底就是对一个由神经元网络所构成的非线性函数在大数据上做拟合,这种学习行为使得它在应用的普适性上有很大的优势,满足了我们对让机器“做得多”的要求,但是,它的结果的合理性、可靠性无法得以完备的验证,因为我们无法完全理解机器学习结果生成的逻辑,无法完美解释学习的认知行为。所以它的稳定性分析和可靠性验证都是有待解决的难题。我们可以在许多应用中用到深度学习的技术,但我们无法对这样的智能加以“对或错”的评价。这个问题在“大模型”中尤为突出。从这个意义上来讲,我们离图灵对智能的期望还很远,因为当我们向人和机器共处的黑屋提问,并无法区分得到的回答是从人还是机器来的时候,我们可以再加上一句:请告知你是如何得到这个问题的答案?人是能回答这个问题的,而今天的机器对此则往往茫然无措。
缺乏“因明”:无法揭示和演绎因果关系。人类可以在自然界和社会中发现规律,并抽象出规律之间的逻辑联系,这样的归纳和演绎的能力是人类智能的一个重要的特征,也是人类文明发展的一个伟大结晶。作为一个人类社会中与人共存的智能体——人工智能,应当也必须具备这种对因果的发现和演绎能力。而今天在数据驱动的学习系统中,我们还只能发现事物之间的相关关系。这样的相关性对于组成一个知识体系来理解世界是远远不够的,在大数据发展之初,曾有“因果无用,相关万能”的说法,现在看来,如果一个智能体仅仅具备了对相关性的理解,那么它对于这个世界的认识将远远低于一个一般的儿童,所以,如何让智能体具有发现因果关系的“因明”,是人工智能今天的又一个大难题。
事实表明,和所有过去的人工智能系统一样,今天的深度学习系统,即使有了一些迁移学习、无样本学习、知识图谱、图神经网络等先进技术,可以在一定程度上实现知识查询推理等功能,但在面对与训练数据完全不同的新数据的时候,依然会表现出不可避免的脆弱性,也就是说,由于算法是从训练数据中挖掘其特征间的统计关联性,而这些关联关系并没有抓住数据背后的因果实质,算法无法得出关于这些数据内在关系的归纳。换句话说,这些算法没有学习到我们真正需要的概念和概念间的映射关系,而是在走捷径,仅在训练集中完成学习任务,而往往无法学习到具有普遍意义的抽象概念,从而无法使它们能够将所学到的知识应用到新的情况或任务中。这些系统很容易受到“对抗性扰动”的攻击,即人们对系统的输入进行特定的选择,从而导致系统犯错误。
缺乏“内明”:智能体没有主观能动性。人是有主观能动性的,人的思想是人对于客观世界的主观认识,而人又是通过这样的主观认识来指导自己的行动,从而对客观世界作出改变。著名认知神经学和理论物理学家弗雷斯顿曾提出过一个机器智能的认知学模型,在这个模型中,人的知识形成一个主观的世界模型,而这样的模型和观察之间的一致性衡量决定了对世界的认识和对世界本身的改变,这个模型具有相当的普遍性。今天基于神经元网络的机器学习系统中被视为金律的“反向传播”,正是这种宏观认知模型中对模型修正的一个简单的实现方法,而模型和观察一致性衡量恰恰又是机器学习中常用的“损失函数”提出的基础,更进一步,今天的强化学习也是在模型和观察上一致性的推动,在策略模型的驱动下,针对环境观察作出相应行动,以求达到回报激励机制下的一种有益的状态。但从总体而言,今天的智能体依然没有形成主观意志的能力。这也是为什么今天人工智能虽然可以完成一些艺术创作,但是,这些创作也仅仅在于对人类已有的作品和形式的模仿、形变和叠加,尚无法在艺术美学和表达意义层面上进行真正的创作。
人工智能研究中,有一个以机器人学家莫拉韦茨命名的悖论:机器对于那些人做起来非常困难的任务,往往可以驾轻就熟,而对于一些对人来说非常简单的事情,却无能为力。莫拉韦茨这样解释这一悖论:“人类经历了上亿年的进化,大脑中深深烙印着一些原始的生存技能,其中包含了高度进化的感官和运动机制,这些都是人类关于世界本质以及如何在其中生存的上亿年的经验。我相信,执行这种需要深思熟虑的思考过程是人类最外在的表现,而其背后深层次和有效的推动力,则是源于这种更古老和更强大的感知和运动能力的本能反应。而这种本能反应通常是无意识的。换句话说,因为我们祖先的强大进化,我们每个人都是感性理解、人情世故和运动领域的杰出运动员,我们实在是太优秀了,以至于我们在面对实际上十分困难的任务时还能驾轻就熟。”
中国人工智能学者李德毅院士指出:新一代人工智能的硬核是交互学习和记忆。记忆的本质不是存储,而是对知识的不断凝炼而形成主观意志(或称为知识)。在贝叶斯理论框架中,这个主观意志是认知的先验,而观察就是在这个先验下,产生对认知的可信度的修正(后验概率),如何在这样的一个认知体系中,实现对主观意志的组织、进化和有效作用?在今天的人工智能研究中,这还是一个处女地。
缺乏“医方明”:智能体需要系统观。作为一个社会的原子,每个人生活在系统中,人对于系统的理解是深刻的,究其原因是在今天的社会中人类对于系统的认知和依赖是前所未有的,这样的系统观也深深地影响着人工智能的研究。以自动驾驶为例,研究的开始是以视觉的感知出发,把“认路”作为自动驾驶的重点,但随着研究和发展,人们认识到,自动驾驶的发展瓶颈并不是认路,而是对“路况”以及“路权”这样的交通系统的概念的理解。如人一样,一个认路的人不是一个好司机的充分条件,一个好司机的关键是可以很好地适应交通系统,可以作出符合系统,而又有利于自己的目标的判断,李德毅院士对这个方向的研究提出了发展“驾驶脑”的总结,一个驾驶脑的关键就是系统观,前面有车,超不超车,这不仅仅是一个视觉的判断,还是一个对所处环境下,对自己所处的状态和未来的目标的一个整体判断,今天的自动驾驶研究的关键就是系统观下的智能行为的研究,人工智能的系统观研究是一个大挑战,也是一个大方向。
缺乏“工巧明”:智能体行为研究的重要性。在人机二元社会中,智能机器的行为对世界的改变和对社会的影响,使得今天对人工智能伦理研究成为一个重要的课题,这个问题涉及面很广,人机一起从事社会活动,机器行为必须合乎伦理是个起码的要求。人们已经普遍认识到,我们对机器“做得多”的要求也许不难实现,但要机器“做得对”,则不那么简单了。从“对抗攻击”到“深度作假”,一次又一次地证明,今天的技术不仅不牢靠,而且很容易做坏事。从埃塞俄比亚航空302号班机的坠毁,到自动驾驶车的事故,人们开始认识到机器是有行为的,而机器的行为也不一定是有益的,很可能会带来危害。于是,人们开始提出了人工智能伦理性、有益性的问题,开始关注机器行为的合理性和正确性,开始认真地询问一些人工智能的基本问题:
机器行为的目的是什么:机器是不是能按照人们意图去改变世界?机器行为的原则是什么:机器如何不违背人类的伦理和规范?机器行为的结果的验证:如何来衡量结果和目的的一致性?机器行为如何来解释:如何来理解机器获得结果的过程?
这些问题是相互关联的,构成了机器行为学的基本研究主题。对于机器行为的研究和前面所述的人工智能面临的挑战密切相关,譬如,我们如何向机器表达学习的目的,我们如何来验证机器行为结果的正确性和我们期望的一致性,以及对机器行为过程的可解释性,这些都是今天机器学习研究中最困难也是最基本的问题。
03 中国人工智能发展战略
中国人工智能发展的机遇是巨大的、难得的。改革开放四十多年来,中国科学技术和经济实力的发展,为我们今天在人工智能这个新技术领域中奠定了前所未有的实力地位,全球化的市场的开放环境,又为我们的研究和全世界的发展努力融合在一起创造了条件。所以我们在人工智能上的研究和世界是同步的。由于国家强大的经济实力和制度优势,我们得以有可能集中资源来发展关键技术。而且中国发达的互联网社会,以及作为第一人口大国而特有的天然的大数据,为人工智能的发展创造了独有的生态环境,这些都是人工智能发展的独特机遇。中国人民的创造力,促进了我国在人工智能应用领域的特殊优势,中国在人工智能和互联网应用的结合,超越了西方,走出了自己的发展道路。一些人工智能独角兽公司成长起来,例如:由智能推荐技术发展而来的今日头条,由图像合成技术发展而来的抖音,由机器翻译工业化发展而来的科大讯飞,由计算机视觉技术发展而来的商汤、旷视、依图等。在这次抗疫中,人工智能在防疫体系的建立、在物流和资源优化中发挥了独特的作用。中国人工智能发展的光明前景是可期的。
今天人工智能面临的挑战,也为中国人工智能的发展带来了难得的战略机遇。笔者认为,中国人工智能发展战略的关键就是直面挑战,即大力发展人工智能的基础理论,确立自己的学术自信和话语权,在人工智能赋能上下大功夫,实实在在地在有选择的重点领域中,以人工智能技术作为推动力,实现革命性的产业创新。具体来说可以从以下几个方面来考虑。
要明确研究的方向和切合实际的目标。在人工智能的研究中,正确的科学思想决定了有效的研究方向和切合实际的目标。在方向上的错误,是过去人工智能屡经挫折的一个重要原因。今天我们在面向解决特定问题任务的“弱人工智能技术研究”中不断的成功,也往往使得我们有了很多不切合实际的想法,认为弱人工智能技术的积累是走向发展类人的通用人工智能,即“强人工智能”的必由之路,弱人工智能的每一个技术进步都会使人工智能的通用性越来越强。但这样的观点并不一定是正确的。有人甚至调侃这样的思维方式:“这就像是说第一只爬上树的猴子正在朝着登陆月球前进一样荒诞不经。”
我们应该认识到,我们用于弱人工智能发展的研究技术和方法论,可能和探求强人工智能的科学理念、技术方法以及哲学思想是完全不同的。对于弱人工智能而言,为了解决一个具体领域的问题,如医学影像的处理或股市风险分析,基于统计的数据驱动学习方法是适用的。把求解问题抽象为一个目标函数,把学习的过程组织成对目标函数的优化是一个有效的方法。但是如果我们认为,这样的以统计学为基础的数据驱动的学习方法,最终可以达到我们所追求的强人工智能,可能会是一个方向性的错误。今天我们对机器表达的行为目的的要求通常很简单,往往就是一个效用函数,反映的是对机器学习结果的一些简单的质量要求(如精确度、紧致度和稳定性等)。但是,如果我们要对于机器行为有很多的要求,要向机器描述如何做对的、有意义的工作,那么这样的效用函数就会非常难定义。如果我们更深究一下这个问题的话,不禁要问:“对学习目的或行为目的的表达,一定是要通过效用函数吗?”斯图尔特·拉塞尔曾经很形象地提出了,如果我们用这种效用函数求优的方法,来让一个有着强智能的智能体来解决问题时,可能会导致很多不可预测的后果:“如果一个超级智能的气候控制系统想要解决全球变暖,降低二氧化碳,但是它发现其中最行之有效的方法是将二氧化碳的排放量降低到第二次工业革命前的水平。而达到这个目的的简单路径就是将人口减少到零,那它会怎样做呢?”“如果我们把错误的目标输入人工智能机器,而它比我们更聪明,那局面很可能就不可控了。”
所以,我们在强人工智能的研究中,要充分认识到人类的智能是一个由复杂的、紧密相连的属性所组成的复杂系统,其中包括情感、欲望、强烈的自我意识和自主意识、价值判断,以及对世界的常识性理解。在没有情感、没有文化基础,也没有人类对于世界的常识体系的前提下的“纯粹的理性”化的智能,是无法和人类共通共存的。我们在确定人工智能研究的发展道路和长期目标的时候,一定要对人工智能发展有一个正确客观的科学思考,这样才能避免许多由于盲目乐观或技术跟风而造成的时间和资源上的巨大浪费。
切实重视人工智能基础理论的研究与创新,培养有创造力的人工智能人才。人工智能发展的根本驱动力在于基础理论上的不断创新和突破。今天的人工智能,特别是机器学习,主要是建立在数据驱动的基本思想上的,就是以在统计中的函数拟合的方法为基础,把学习问题作为一个回归问题,寻找一个和数据拟合得最好的函数作为模型。这样的思想得益于我们今天丰富的大数据和强大的算力,可以拟合一个极为复杂的非线性函数,这就是深度学习得以成功的缘由。但正如前面所叙,这样以复杂函数拟合为基础的方向,有着根本的缺陷,它不能揭示事物间的因果关系,不能反映人类的以知识为基础的学习准则、面向知识积累和在与世界的互动中不断学习的思想。一些非数据驱动的机器学习机制如强化学习理论,已经在人工智能的实践中体现出杰出的学习能力,所以,建立一个新的融知识、数据为一体并支持机器与环境互动的机器学习理论框架是非常重要的。
其实这样的学习框架可以基于认知学中机器学习和人类学习的相似性来阐述,在此我们用基于贝叶斯理论的“认知学”的原理来简单介绍一下这个学习过程。
我们可以从两个层面来看人类学习:第一个层面是大脑,在大脑里面有我们对世界的认识,也就是所谓的认知,若将之应用在机器学习上,就是透过模型或知识来诠释人类对世界的认识,而根据这些认知,对这个世界作出判断(或称之为预测)。第二个层面是人类通过五官来观察这个世界,让我们获取更多的讯息、更多的资料。我们可以对观察结果及判断预测之间进行比较。如果两者是一致的(预测没有出现误差),即表明模型(对世界的认知)是合理的,那么人类会给予对自己的认知更高的信任度,不会对它有进一步改变。但有趣的是,当观察结果与判断预测不一致的时候(预测出现误差),有两种选择。第一种选择是认为自己的认知可能是错的,再根据观察结果,来修正模型,换言之,这是一个模型构造的进化(学习)过程;还有一种选择,是认为模型是正确的,观察结果是错的,也就是认为这个世界出现问题,那么就会根据自己对世界的认知来改变这个世界,也就产生了“行为”。因此,机器学习和机器行为之间形成了一个紧密的关系:构造一个跟观察结果一致的认知,让其尽量接近真实世界,而我们的行动就是改变世界,让其与主观产生的模型相趋一致。在这样对学习的认知学框架中,知识(即认知)、数据(即观察)以及认知主体(人和机器)和世界的互动(学习和行为)统一在一个知识的验证和积累的过程中。
这样的认知模型强调了认知主体和认知客体交互中的学习过程,但是,对于我们未来的二元社会中人和机器这两个认知主体的交互却没有阐述,人和机器的共通交流是未来人机二元社会的基本形态。而人和机器共通交流的一个重要基础在于人和机器的相互理解,如前叙,目前,人和机器在学习的目的、方法、结论的解释上的交流是非常薄弱的。我们对于机器给出的学习结果和由其导致的行为都无法作出清晰解释,也就无法对其合理性作出判断,这是机器学习研究中的一大挑战,也是对机器学习理论的重大要求。
人工智能理论的另一个重大的研究方向就是人工智能的伦理。我们已经充分认识到让“机器做得对”,要比让“机器做得多”要困难得多,这里有一系列很根本的理论问题。一个非常重要的问题就是“机器行为的伦理性是外在的还是内生的”,也就是说,我们是不是应该在机器产生智能的时候,就要求其把伦理作为一个基本的出发点,而不是在机器有了智能行为之后再来规范它。对于这一系列的理论问题的深入研究是我们未来是否能在人工智能发展中取得领先地位和科学话语权的一个关键。总而言之,我们对于人工智能基础理论的研究,应给予高度的重视,我们必须创造一个生态环境,使得科学家能够沉下心来,进行跨学科的深入的理论研究,并培养出具有扎实的理论素养、宽广的知识面、丰富的科学想象力创造力的人工智能研究型人才。这样的工作是艰苦的,也是激动人心的,中国科学家一定能以自己的想象力、文化底蕴和扎实的理论基础及智慧,在人工智能理论的研究中作出创造性的贡献。
建立人工智能发展的生态环境。人工智能的发展需要一个生态环境,它包括:丰富的数据资源以及支持可持续发展的数据经济体系,数据资源的合理开发、数据隐私的保护和其他理论性与技术性的支持,发展数据产品以及交易的工业经济体系。有了这样的数据经济体系,我们就具备了人工智能产品发展的物质基础。这样的数据经济体系的建立是很不容易的,实际上,早在十年前,我们就开始了建立数据交易市场的试验,但这样的试验还是不成功的。一个很重要的原因就是我们把数据资源变成资产时,没有解决它在经济学上的根本问题,其中一种最重要的问题就是数据的消耗使用是没有排他性的,因为复制数据的代价极低。这样的非排他使用,使得数据可以被任意共享,因而无法定义其价值/价格,使它无法成为商品。近年来,区块链技术快速发展,它可以溯源数据资源的产生和使用,同时不可对链上的资源进行复制,区块链的这一特性为数据的资产化和资本化提供了基础框架。我们对这一关键技术的开发,应该从建立数据经济的基础设施这一高度来理解。进而发展出具有中国特色的数据市场和数据经济体系,这样的数据经济体系是基于大模型的人工智能产业体系的基础。
生态环境的另一个方向就是算力体系的建立。人工智能对计算能力的要求是很高的,这些年来云计算服务体系的发展,使得我国算力服务基础设施在世界上占据领先地位,5G通讯技术上的领先,使得我国在边缘计算上也有着突出的潜在优势,移动端上的应用的广泛普及使得我国有了一个先进的算力环境,这为我国人工智能发展奠定了一个很好的算力基础,这样的集汇化的大算力对于支持基于大模型的人工智能产业体系也是至关重要的。当然,我们要充分认识到,计算技术的发展是日新月异的,新的计算技术如类脑计算、量子计算正在孕育着新的计算革命。新的计算器件,如亿阻器也在成熟,我们应当在这些新的领域中锐意创新,使我们在未来的算力竞争中保持领先地位,支持人工智能的快速发展。
人工智能的生态环境发展离不开对于人机二元社会的新的社会形态、准则、相关的法律,以及道德伦理的研究和建设。目前,在欧盟,这方面的工作受到了空前的重视。2021年4月,欧盟颁布了其最新的AI监管草案,为人工智能的社会化使用立法,目的在于为实现可信赖的人工智能生态系统提供牢固的法律框架,欧盟竞争事务负责人直言:“通过制定标准,我们可以为符合伦理的人工智能技术铺平道路,并确保欧盟在此过程中保持竞争力。”目前,由欧洲理事会,经合组织、北约、联合国教科文组织和七国集团主导的全球人工智能伙伴关系,对于可信赖人工智能的框架方案有着重要的影响。我认为我国对这样的人机二元社会的伦理体系设立的法律框架是我们人工智能发展的重要的软实力,我们应当充分依据我国的国情和发展特点,有前瞻性地制定我国自己的可信赖人工智能的法律体系,以建立我们在这个至关重要的问题上的话语权。说到话语权,一个重要的方面就是建立标准,我们在这个方面谈得不少,也越来越重视。但是,要在人工智能上真正做出有价值的标准,我们必须有很大的、长时间的战略投入。譬如,如果我们有一批全世界都使用的、高质量的、较完整的训练数据集,又可以给出一系列精心设计的测试人工智能功能的方法,并为全世界研究者共享,那么我们就在学习算法上有了定义标准的基本能力。标准需要被广泛接受,而共享数据往往是获得制定标准的话语权的有效途径。
人工智能赋能应用,建立完整的人工智能化产业体系。人工智能是各行各业所需的赋能技术,它的运用的广泛性使其成为一个工业的先进性标志,我们常说的“智能化”就是衡量人工智能在这一产业中的应用程度,但是,在智能化各行各业的进程中,我们要把“科学性”和“实效性”放在第一位。以机器人工业发展为例,机器人在制造业、国防、医疗、金融等几乎所有领域都有着非常广泛的应用,在机器人的发展中,一条重要的技术路线就是让机器人做人做不到、做不好的事,譬如,“达芬奇”系列的手术机器人为人类的外科手术的发展作出了革命性的贡献,我国的大疆发展的“无人驾驶飞行物”也是机器人工业发展的一个成功范例。它们的成功都是把构造智能行为体系来完成一个对人类行为的挑战作为出发点的,而不是玩一些人形机械的噱头。在人工智能产业的发展中,我们要深刻认识到人工智能应用的普适性,只要我们面临着数据驱动和知识驱动的决策行为的需要,人工智能就有其用武之地。在智慧城市、自动驾驶、制药、金融、设计、医疗等众多领域,人工智能系统都能成为数据驱动和知识驱动的决策者。从这个意义上来说,应利用好我国在数据和算力上的优势,建设好我国基于大模型的“智能能源”和人工智能产业链,从而形成一个完整的人工智能赋能环境。
04 结语
人工智能的发展,源于人类对于自身的认知能力、智慧和创造力的崇拜和追求。它对人类文明进步的推动具有根本性的意义。对于人类发展的重要性、科学上的挑战性、技术上的复杂性,使得人工智能未来的道路一定是艰苦漫长同时又激动人心的。对此我们应当充满信心,同时又要踏踏实实,坚持科学的精神和态度。我们中国人有智慧、有能力,也有信心,在人工智能的发展中,为人类作出自己的贡献。
原文来源:《学术前沿》杂志2021年12月上
作者:香港浸会大学副校长 郭毅可