“开放域”聊天机器人有多开放,我们真的需要它们吗?
人们对开放域聊天机器人越来越感兴趣,这些聊天机器人旨在与人类就任何主题、任务或领域进行交流。这种兴趣得到了娱乐行业中的虚构人物和系统(例如电影“她”)的支持,以及大型科技公司研究实验室开发的聊天机器人(例如谷歌的LaMDA和脸书的Blender)受到的媒体关注。
“开放域”一词表明这些聊天机器人可以就任何话题进行交流,这被认为比早期构建特定任务系统的尝试更具挑战性。然而,“开放”的界限和评估这些对话的标准并没有明确界定。
通常,人类测试人员会收到一个空提示,并要求“与系统聊天”。这是人类交流的一个非常不寻常的环境,因为我们不会随意与任何人和任何地方谈论任何事情。相反,我们会根据我们的对话伙伴和环境(例如,在工作或学校)在对话主题方面对我们的交流选择更具选择性。因此,构建一个真正的“开放域”聊天机器人可能是不现实的,甚至没有必要,因为人与人之间的对话也不是那么“开放域”和随机的。
在最近的一篇论文中,我们认为“开放域”一词可能不是很有用,并且当前开放域聊天机器人的评估方式可能无法真正测试它们是否真的可以参与人类可以参与的所有各种形式的对话加入,参与。
当我们作为人类进行交流时,我们假设某种形式的共同点,也就是说,我们彼此之间有一些共同点。除了文化规范和(也许)共享经验之外,我们假设的一件事是某种形式的联合活动或对话的目的。即使我们在等公共汽车时开始与陌生人交谈,我们都知道这是我们所从事的活动类型,这将指导我们在这种情况下可能适合谈论什么。当被要求与计算机“只是聊天”时,我们可以假设没有共同点或共同活动。
对对话中的联合活动进行分类的一种方法是Goldsmith&Baxter(1996)引入的“演讲事件”的概念,他们在几周内记录了学生的日常对话并确定了39个演讲事件。这些可以大致分为非正式/肤浅的谈话(例如,“闲聊”、“开玩笑”、“体育谈话”、“八卦”、“结识某人”)、涉及谈话(例如,“化妆”、“爱情谈话”、“关系谈话”、“抱怨”)和目标导向谈话(例如,“小组讨论”、“说服谈话”、“决策谈话”、“审讯”、“请求帮助”).
当被要求“只是聊天”时,开放域聊天机器人的用户实际上参与了什么样的语音事件?为了回答这个问题,我们让两个注释者根据他们的语音事件类别对公开可用的“开放域”谷歌Meena聊天机器人对话的随机样本进行注释。大多数对话(约88%)被证明是关于“闲聊”的语音类别,尽管人类测试人员被指示谈论任何话题而没有任何限制。
如前所述,虽然实际的闲聊也假定某种形式的共同点,但鉴于有限的指示,这可能是最有可能发生的演讲事件。如果这些是在这些评估中发生的唯一语音事件,我们怎么知道它们是真正的“开放域”?当前的开放域聊天机器人能否参与其他语音活动?
为了解决这个问题,我们使用脸书的Blender聊天机器人进行了初步实验。(人类)测试人员根据上面列出的16个语音事件类别与聊天机器人进行交互。为了设置类似的上下文,同一位测试人员还与另一个人就相同的主题进行了聊天。两个人(即测试者和对话者)事先并不认识对方,也不知道对方的身份。
对产生的对话进行了比较(人与人与人与系统)并由第三方人类评委进行评估。总体而言,评估人员在多项评估标准上对人际对话的评分较高,并解释说人与人的对话比人与聊天机器人的对话更连贯,流动性更好。这与描述脸书Blender的论文中提出的评估形成鲜明对比,在该论文中,评委们无法根据他们评估的方式(正如我们已经见,引起闲聊对话)。因此,他们的评估真正表明的是,Blender聊天机器人相当擅长闲聊,但并不擅长“开放域”对话。
自从我们在2021年进行研究以来,已经出现了新的“开放域”聊天机器人,它们使用了更多参数并在更多数据上进行了训练,例如谷歌的LaMDA。我们还没有测试它们在多大程度上可以处理其他形式的语音事件,以及它们是否真的是“开放域”,但正如我们所展示的,目前的评估无法帮助回答这个问题。
一个可能更重要的问题是,“开放域”聊天机器人的想法对我们人类来说是否有意义。相反,我们或许应该关注以有意义的方式存在于人类活动中的对话系统,并且用户可以在其中假设某种形式的共同点和联合活动。