当微软(Microsoft)本月在其必应(Bing)搜索引擎中添加一个聊天机器人时,人们注意到它在提供各种虚假信息,比如Gap、墨西哥夜生活和歌手比莉·艾利什(Billie Eilish)。
然后,当记者和其他早期测试者与微软的人工智能机器人进行长时间的交谈时,它开始表现出粗鲁和令人不安的令人毛骨悚然的行为。
自从必应机器人的行为在全球引起轰动以来,人们一直在努力理解这个新发明的奇怪之处。科学家们经常说,人类应该承担大部分责任。
但是关于这个新的聊天机器人能做什么,以及它为什么会这样做,仍然有一些谜团。它的复杂性使得它难以解剖,甚至更难预测,研究人员正在通过哲学的镜头以及计算机科学的硬代码来看待它。
和其他学生一样,人工智能系统也会从错误的来源学到错误的信息。那奇怪的行为呢?神经科学家、心理学家和计算机科学家特里·塞诺维斯基(Terry Sejnowski)说,这可能是聊天机器人对使用者话语和意图的扭曲反映。他曾帮助为现代人工智能奠定智力和技术基础。
“当你越来越深入地研究这些系统时,就会发生这种情况,”塞诺维斯基博士说。他是索尔克生物研究所(Salk Institute for Biological Studies)和加州大学圣地亚哥分校(University of California, San Diego)的教授,本月在科学期刊《神经计算》(Neural Computation)上发表了一篇关于这种现象的研究论文。“无论你在寻找什么,无论你渴望什么,他们都会提供。”
谷歌本月还展示了一款新的聊天机器人Bard,但科学家和记者们很快意识到它在写关于詹姆斯·韦伯太空望远镜的废话。旧金山初创公司OpenAI去年11月推出了ChatGPT,引发了聊天机器人的热潮,但它也不一定会说真话。
这种新型聊天机器人由一种被科学家称为大型语言模型(large language model,简称l.l.m)的技术驱动。这些系统通过分析从互联网上剔除的大量数字文本进行学习,其中包括大量不真实、有偏见和有毒的材料。聊天机器人学习的文本也有点过时,因为在公众使用它们之前,它们必须花几个月的时间分析它。
当L.L.M.分析来自互联网的海量好坏信息时,它学会了做一件特别的事情:在一组单词中猜测下一个单词。
它的运作就像一个巨大版本的自动补全技术,当你在智能手机上输入电子邮件或即时消息时,它会提示下一个单词。考虑到“汤姆·克鲁斯是____”这个序列,它可能会猜出“演员”。
当你和一个聊天机器人聊天时,这个机器人并不只是在利用它从互联网上学到的一切。它利用了你对它说过的话,以及它对你说过的话。它不仅仅是猜测句子中的下一个单词。它是在一长段文本中猜测下一个单词,其中包括你的单词和它的单词。
聊天时间越长,用户在不知不觉中对聊天机器人说的话的影响就越大。如果你想让它生气,它就会生气,塞诺维斯基博士说。如果你把它哄得毛骨悚然,它就会变得毛骨悚然。
人们对微软聊天机器人奇怪行为的惊慌反应掩盖了一个重要问题:聊天机器人没有人格。它通过极其复杂的计算机算法提供即时结果。
微软似乎限制了这种最奇怪的行为,它限制了与必应聊天机器人的讨论时间。这就像从一辆汽车的测试司机那里得知,太快开太长时间会烧坏发动机。微软的合作伙伴OpenAI和谷歌也在探索控制机器人行为的方法。
但这种保证也有一个警告:由于聊天机器人正在从如此多的材料中学习,并以如此复杂的方式将它们组合在一起,研究人员并不完全清楚聊天机器人是如何产生最终结果的。研究人员正在观察机器人的行为,并学习限制这种行为——通常是在行为发生后。
微软和OpenAI已经决定,要想知道聊天机器人在现实世界中会做什么,唯一的方法就是让它们自由自在——当它们迷路时,把它们拉回来。他们相信他们的大型公开实验值得冒险。
塞诺维斯基博士将微软聊天机器人的行为比作厄里斯之镜(Mirror of Erised)。厄里斯之镜是J.K.罗琳(J.K. Rowling)的《哈利波特》(Harry Potter)系列小说中的一种神秘神器,也出现在许多以她的年轻巫师的创造性世界为原型的电影中。
“Erised”是“desire”的倒写。当人们发现镜子时,它似乎提供了真理和理解。但事实并非如此。它显示了任何凝视它的人内心深处的欲望。有些人如果盯着看太久就会发疯。
“因为人类和l.l.m.都是互为镜像的,随着时间的推移,它们会趋向于一种共同的概念状态,”塞诺维斯基博士说。
他说,记者们开始在必应聊天机器人身上看到令人毛骨悚然的行为,这并不奇怪。无论是有意还是无意,他们都在把系统推向一个不舒服的方向。当聊天机器人接收我们的话并将其反馈给我们时,它们可以加强和放大我们的信念,并诱导我们相信它们所说的。
上世纪70年代末和80年代初,为数不多的研究人员开始认真探索一种名为神经网络的人工智能,如今的聊天机器人就是由它驱动的。塞诺维斯基博士是其中之一。
神经网络是通过分析数字数据来学习技能的数学系统。这项技术也能让Siri和Alexa识别你说的话。
2018年左右,谷歌和OpenAI等公司的研究人员开始构建神经网络,从大量数字文本中学习,包括书籍、维基百科文章、聊天记录和其他发布到互联网上的东西。通过在所有这些文本中精确定位数十亿个模式,这些l.l.m.学会了自己生成文本,包括推文、博客文章、演讲和计算机程序。他们甚至可以交谈。
这些系统是人性的反映。它们通过分析人类发布到互联网上的文本来学习技能。
但新墨西哥州独立实验室圣达菲研究所(Santa Fe Institute)的人工智能研究员梅兰妮·米切尔(Melanie Mitchell)说,这并不是聊天机器人产生有问题语言的唯一原因。
当它们生成文本时,这些系统不会逐字逐句地重复互联网上的内容。它们通过组合数十亿种模式自行生成新的文本。
即使研究人员仅根据同行评审的科学文献来训练这些系统,它们仍然可能产生科学上荒谬的陈述。即使他们只从真实的文本中学习,他们仍然可能产生谎言。即使他们只从有益健康的文本中学习,他们仍然可能产生一些令人毛骨悚然的东西。
“没有什么能阻止他们这么做,”米切尔说。“他们只是想制造一些听起来像人类语言的东西。”
人工智能专家早就知道这项技术会表现出各种意想不到的行为。但他们并不总是在如何解释这种行为或聊天机器人将以多快的速度改进方面达成一致。
因为这些系统从远比我们人类能够理解的多得多的数据中学习,即使是人工智能专家也无法理解为什么它们在任何给定时刻生成特定的文本。
塞耶科夫斯基博士说,他相信从长远来看,新的聊天机器人有能力提高人们的效率,并为他们提供更好、更快地完成工作的方法。但这对制造这些聊天机器人的公司和使用它们的人都是一个警告:它们也会让我们远离真相,进入一些黑暗的地方。
“这是一个未知领域,”塞科夫斯基博士说。“人类以前从未经历过这种情况。”