“哲学前沿”课程第七讲纪要|沈榆平:图像与对话的机器可构建性

       2023年4月7日下午,中山大学哲学系2022级研究生“哲学前沿”系列讲座第七讲在锡昌堂103室举行。讲座主题为《图像与对话的机器可构建性》,由中山大学哲学系沈榆平副教授主讲,中山大学哲学系谢耘教授主持。

主讲人中山大学哲学系沈榆平副教授

主持人中山大学哲学系谢耘教授

 

引 子

       讲座首先通过洞穴隐喻的例子引出主题。沈老师回顾了柏拉图《理想国》中苏格拉底和格劳孔的一段经典对话,其中苏格拉底描述了一群被困在洞穴里,只能看到墙上阴影的人群。这是广为流传的隐喻,用来描述为何人们只能看到事物表象而很难获得真相。令人印象深刻的是,当大语言模型ChatGPT被问及这个比喻时,在对话中展现出了一种非常合理且恰当的回应。

       对于这个寓言,沈老师进一步比较了由人类艺术家创作的图像和由Microsoft Bing Image Creator (DALL-E)引擎生成的图像,从而引发听众思考——图像和对话是否能真正地由机器构建?这些呈现的对话与图像是创造还是整合?

 

机器、计算与编码

       为了讨论此次的主题,理解机器如何处理信息,我们先回到机器和计算的本质。一般而言,机器由不同的工作状态和使状态发生转移的操作(输入)组成。比如,一个判定奇偶性的机器具有两个状态q1和q0:分别代表着机器的回答——“是”和“否”。输入“1”使系统在两种回答中切换。在这个计算模型中,从q0出发输入奇数个“1”时,就会得到“是”的回答;输入偶数个“1”时,会得到“否”的回答。

 

图像、语言的机器处理

       通过上述讨论我们知道,多媒体信息的处理在机器中本质上是对数字的运算:机器根据对应的指令(程序),通过机械步骤得到数字结果,并将结果通过硬件输出呈现为图像、文字或视频等内容。所以,对一幅图像按照一定规则(算法)改变表示图像的数字,理论上就会得到另外一幅图像。考虑下面的“美颜”例子:小狗面部的痘痘在图像的数字表示中用一组较大的数值表示(8),周围浅颜色的部分用一组较小的数值表示(1),通过平均化深颜色区域的数值,就能够达到“消除”痘痘的效果。

       不难想象,根据不同的数字运算方式(图形算法),不但可以对图像施加各种效果,而且还可以通过算法将不同的图像结合在一起,形成一副新的图像。

       除了图像以外,语言也可以被看作按特定规则形成的符号串序列,进而被机器处理。艾弗拉姆•乔姆斯基(Noam Chomsky,1928- )对多种语法规则进行了深入的研究,包括正则语言、上下文无关语言、上下文相关语言和递归可枚举语言等。沈老师使用GNU prolog展示了一个从简单语法规则集和语料库生成合法句子的实例。具体而言,从一个初始变元出发,按照规则集逐步替换变元符,可以得到一棵语法树,其叶子结点的单词就构成了一个符合语法规则的句子。通过对计算机语法系统的应用,一方面可以从语料库生成对应句子,另一方面,也可以分析给定的句子,抽取其语法结构。这个原理为自然语言的处理提供了一种理论方法。

       沈老师同时指出,以上只是为了方便听众理解图像与对话的机器处理原理而给出的简单示范。当下实际的语言模型和图像处理是大数据和大算力的条件下使用非常复杂的机器学习算法得到的成果。

 

创造还是整合?

       不同于个别实例的处理,在互联网时代,大规模语言与图像系统从公开库中搜集数据并进行统计学习。如著名的Common Crawl提供百亿级别的语料库、LAION提供50亿级别的“图像-标题”集。当用户输入关键词时,程序会根据习得内容提供反馈或回答。沈老师以“riding horse”和“astronaut”为关键词在Adobe Stock素材库中展示了人工完成的图像标注实例。可以设想,算法在学习了许多这些标注的图像之后,掌握了宇航员的图像特征和人骑马的图像特征。在输入“an astronaut riding a horse”的时候,算法将这些数据融合在一起得到了输出的图像。类似的,在自然语言对话方面,通过对全球互联网数据包括各类知识库等大量的内容进行学习和抽取,语言模型可以基于对应的关键词构造出令人印象深刻的对话。

       那么,机器提供的图像和对话是否可以和人类区分?沈老师首先用自己构思的winograd模式问题与chatGPT进行了如下对话。显然,机器对这种常识问题的回应出现了明显的失误。正确回应winograd问题需要有处理常识的能力,包括对概念的语义理解和逻辑推理等,但似乎目前大数据学习模型对此仍无好的解决方案。

chatGPT对Winograd模式问题的回应

       此外,由于缺乏对概念的理解,机器提供的图像也常常会出现明显的不当之处,如由MidJourney可能提供以下六条腿的小熊玩偶图像。

小熊玩偶(来源:MidJourney)

       用户虽然可以通过进一步反馈纠正chatGPT对上述戒指与胡萝卜问题的回答, 但我们仍能像哥德尔不完全性定理证明中使用自指句一样,构造出其它令chatGPT无法正确回应的Winograd等常识问题。此外,沈老师还展示了chatGPT无法正确进行命题逻辑推理和专业知识回应的实例。

 

总 结

       目前机器提供的图像和对话,更像是基于人类创作成果的再创作或再整合,其应用对一般用户而言已足够满足需求,甚至可认为已经通过简单版本的图灵测试。相关大数据和机器学习技术将对一些行业形成可预见的冲击,同时也是一个催生重大变革的新事物。此外,我们还有更多哲学上可以思考的问题:人类在何处区别于机器?当我们面对屏幕和对方进行深刻的对话,但不知道对方是人类还是机器的时候,应当认为对方具有心智和自由意志吗?当机器在对话中提供了错误的信息,谁应该对这样的“欺骗”负责?我们像是在一个22世纪的洞穴里——在这个洞穴里,面对的不再是火光的阴影,而是连接互联网的终端设备和信息。那么我们将如何区分真相和表象?此时什么是现实?机器提供的图像在美学上有何意义?在法律上,目前机器提供的内容也面临着许多争议。例如机器在对话中给出的虚假信息的责任问题,以及图像生成使用的数据集的版权问题等等。

 

评议和回答

       讲座结束后,谢耘老师对讲座进行了评议。谢老师认为,在本次讲座中,沈老师从计算机最基本的运作原理开始讲起,介绍信息编码的方式,并解释机器学习的算法,深入浅出地带领大家了解了目前机器生成内容的本质,使得我们能够对图像和对话的机器可构建性在当下语境的讨论有更多的思考。基于机器学习的原理,谢老师提出,在某种程度上而言,算法是从大量的经验数据中得到了较为普遍和共性的结论,因而算法是否能从归纳推理出发来实现一定程度的演绎推理?沈老师回应道,目前的学习算法还缺乏逻辑推理的机制,对话的生成更像是一种精巧的模仿而并非真正开展了复杂的逻辑推演,对实现演绎推理尚有相当大的难度。

       对于同学们提出的问题,沈老师也一一予以回答。沈老师补充道,要得到更完善的结果,目前的机器还需要进一步地添加符号推演和常识推演的能力。但逻辑推理在计算复杂性中属于难解问题,同时,还存在计算机不可解问题,这在理论上为计算机的能力画上了一条边界,机器运算取代人类的创造性似乎仍比较遥远。

扫描此二维码分享