“如果机器在某些现实的条件下,能够非常好地模仿人回答问题,让提问者在相当长时间里误认它不是机器,那么机器就可以被认为是能够思维的。”—— 阿兰·图灵
“一个人的成功,约有15%取决于技术知识,85%取决于口才艺术。”—— 戴尔·卡耐基
“与机器像和人一样对话”大概是人类对人工智能最初的设想,也是人类希望在人工智能领域实现的目标。
在不少科幻电影或小说里,人工智能可以和人自然交流,甚至可以谈情说爱(如电影《her》中的萨曼莎)。但我们不得不承认,现实和理想差距很大。现在的人工智能虽然已经“可以说话”,但大多数都“不会说话”,我们经常可以听到“这个问题我还理解不了,如果你想……,可以这样对我说……”。
为了教会机器“像人一样说话”,人们在语音识别、自然语言理解、语音合成等诸多方面进行了大量探索,但这些探索主要集中在技术维度,而对机器话术涉猎较少。
在汉语中,“术”有技艺、方法之意,话术即指说话的技艺和方法。和技术相比,话术更偏艺术和人性。乔布斯说“只有技术是不够的——技术与人文艺术结合、与人性结合,才能带来让我们内心喜爱的结果”。因此,我们本次从用户视角出发,尝试从艺术和人性的角度对话术进行探索。
研究主要包含以下内容:
话术设计研究:我们如何做的
话术设计原则:用户关注什么?哪个更重要
话术设计建议:原则如何指导话术设计
当下的话术研究多从研究者视角出发,原则主要源自研究者的日常观察、哲学思辩和专业判断。本次,我们从用户视角出发来探讨话术,研究过程如下:
我们对人与人的对话结构和对话原则进行了系统梳理,特别推荐Grice的“合作原则”(出自《逻辑与会话》演讲,1967)和索振羽的“得体原则”(出自《语用学教程》第二版,2014)。这一步至关重要,它加深了我们对“对话”的理解,这些原则也成为我们设计实验话术时的重要参考依据。
为覆盖尽可能多的场景,我们系统梳理了语音交互的典型场景,如听音乐、问天气、家居控制、生活服务等。同时,每个场景下也细分了机器的不同状态,如是否听清、能否识别、是否有能力满足等。
对话场景梳理清晰后,我们针对每个场景设计实验所需话术。话术来源主要有二:一是主流语音交互产品的现有话术,二是研究者基于人与人的对话原则撰写而成的话术。
上述准备完成后,进入正式实验阶段。在实验中,我们创设了各类场景(具体场景见“对话场景设计”部分),并且模拟了真实的人机对话过程(所有实验话术均转为语音合成音进行播报),要求用户基于真实体验对不同场景下每类话术的喜好度进行评价。
同时,我们使用了“参与式设计”,以“假如你是机器,你会如何回答”为起点,引导用户更深地参与到话术设计中,共同探讨实验话术以及更为理想的表达方式。这一过程使我们获得了大量源自用户的鲜活话术,也使我们能从更丰富的角度挖掘用户构建话术的原则、方法与技巧。
基于案头研究和实验发现,我们提炼了初步的设计原则。之后,要求用户对原则的可理解性、全面性、适用性等进行评估。经过多轮评估,我们不断调整原则,最终获得了现在的话术设计原则。
我们发现,在用户心中,好的话术要兼顾理性和感性原则。理性原则体现在“机器的话是有用的”,话术应该是以目标为中心、准确、简洁的;感性原则强调“对话过程令人愉悦”,话术应该是自然、友好、有个性的。
同时,我们要求用户基于自身体验对各原则的重要性进行了1-10级评价,其中1分代表非常不重要,10分代表非常重要,分数越高,重要性越高。
结果发现,现阶段,用户更看重理性原则,尤其是以目标为中心,准确,而自然、友好等感性原则暂居相对次要的位置。
此外,我们也梳理了不同原则下的具体评估指标,这些指标代表在该原则下,用户在对话中具体的关注点。不同指标的重要性有所不同,详见下表。
接下来,我们一起看看上述这些原则如何指导具体的机器话术设计。
以目标为中心是用户最为看重的原则。用户非常重视效率(闲聊场景除外),他们希望机器的回复与自己的需求高相关,可以快速达成心中所想。
同时,用户表示在语音交互中,需要更多“引导”,尤其需要了解机器当下和未来状态。语音看不见摸不着,我们无法像在图形用户界面(GUI)中那样——通过导航条判断所在的位置,看到按钮可以判断是否点击等。如果缺少必要的引导,用户在语音交互中很容易迷茫,产生各类负面情绪。
因此,话术设计时,必须遵循以目标为中心原则,做好引导,让用户可以通过声音“看到”通往需求的路径。基于此原则,设计话术时可考虑以下几条建议:
建议1:优先回应用户的核心意图
围绕用户最关心的问题优先给出适合的回应。
建议2:清楚传达机器当前的情况
如果因为各种原因无法直接满足用户需求时,应及时告知,避免用户困惑。
建议3:澄清目标,不轻易终结对话
对话过程中,引导用户不断澄清目标,不轻易做话题的终结者。
建议4:告诉用户接下来怎么做
不能清晰识别用户意图时,可主动询问用户有可能的意图,引导用户完成目标。
建议5:提供相关替代方案
在无法直接满足用户时,可考虑提供相关度较高的替代方案,间接满足用户。
用户认为表达准确是最基本的原则。表述不准确可能导致用户误解、无法判断机器所要传达的真正含义,使对话脱离正轨甚至无法进行。
基于准确原则,设计话术时可考虑以下建议:
建议1: 避免表述有歧义
表述的含义要确定,不要说让用户“这样理解可以,那样理解也可以”的话。口语中最常见的歧义是同音歧义,即语音相同带来的歧义。以下两类同音歧义,话术设计时需要注意:
同音异形词歧义,如播放菜谱时提到“切ji放糖”,是“记”还是“忌”?
同音同形词歧义,如闲聊时提到“我最喜欢杜鹃啦”,是杜鹃这种花还是杜鹃这种鸟?
建议2:避免表述过于笼统模糊
表述要尽可能具体明确,避免过于笼统模糊。
我们来看下面一个案例,研究中,面对第一种话术,大多数用户表示“有点懵”,“是给音箱起名字,还是告诉音箱自己的名字?不知道该怎么回答”。而第二种话术则明确指出是“音箱对自己的称呼”。
在研究中,用户多次提到“不喜欢这个话术,太啰嗦了,能不能拣重点说”,“说太多了,压根没记住啊”,这些抱怨体现了用户对简洁的重视。
用户如此重视简洁是必然的。语音是一维线性的,只能一个字一个字的听完,无法快进,不能后退。哪怕信息不相关、无意义,用户都无法略过。这些冗余信息既浪费用户时间,也会增加用户的烦躁情绪。
更重要的是,大脑能处理的语音信息量有限,一旦超出会给人的工作记忆造成负担。长期以来,神奇数字7±2被认为是工作记忆的容量,但近期这一标准遭到质疑,普遍认为这一估计偏高。有研究者(Mastin,2010)认为这一数字可能是4±1。
基于此原则,设计话术时可考虑以下几条建议:
建议1:表述简单明了,不啰嗦
传递必要信息前提下,保持话术简洁。
建议2:避免信息量过大,一次提供的选项不超过三个
单次交互提供的信息量不要过大,以免给用户造成认知和记忆负担。
在研究中,听到某些话术,用户纷纷表示“这太生硬了,一点都不自然”,“这明显就是机器说的话,人怎么可能这么说呢”。用户希望话术可以贴近生活,尽可能自然。
这是非常好理解的。在人机语音交互中,人类最想使用的肯定是自然语言。口头语言是人类最擅长,使用门槛最低的自然语言,人类使用口头语言进行交流的历史已跨越十万年。与之相比,书面语言的发展不过五千年,计算机语言更是刚刚萌芽。因此,设计话术时,可参考汉语口头语言的特点,营造“自然感”。
基于此原则,设计话术时可考虑以下几条建议:建议1:措辞口语化
日常对话中,我们会使用丰富多彩的重叠词(如看看、马上马上)、语气词(如吧、呢、哈)、感叹词(如哎!天!)、惟妙惟肖的象声词(如噗通、呼啦)、填补词(如嗯,呃),也会妙用各种副语言,如“哼哼”之类的鼻化音、笑声、颤音等等。话术设计中,可以参考这些口语化的表达。
尤其注意,话术设计时要尽可能避免专业术语、技术名词、晦涩用语等。
建议2:句式自然,可使用话语标记
口语中句子多短小,结构简单。语言学研究发现,口语中长句占比仅19%,短句占比达到81%(超过7个实词的单句为长句,反之为短句。实词指具有实际含义且能单独充当句子成分的词)。话术设计时可考虑这一特点,尽可能使用短句。
另外,口语对话中会使用“话语标记语”做句子之间的过渡,话术设计时也可参考。常见的话语标记有:“首先…然后…最后”之类的序列标记;“开始”、“以后”之类的时间标记;“这”、“那”之类的指示词等。
建议3:增加措辞多样性
使用同义词为固定的答案增加多样性,比如表示确认的时候,可以随机呈现“ok”、“收到”、“好的”、“没问题”等等。这些同义词可以增加对话活力,让对话更自然。
研究中,我们发现,用户很反感机器以“高人一等”的姿态说话,尤其反感被机器指责。高人一等的话语和指责会让用户觉得“不忿”、“挫败”,甚至会丧失对机器的“信任”。
人是社会性动物。日常交往中,我们更喜欢对我们友好、喜欢我们的人,而倾向远离那些不够友善的人。判断对方是否友善,语音是最直观的线索。在人机语音交互中,我们同样能根据机器的应答判断其是否友好。因此,话术设计时要重视友好。
基于此原则,话术设计时可考虑以下几条建议:
建议1:错误归为机器,而非人
错误发生时,从机器的角度说明出错原因。
建议2:避免要求用户按照特定的方式表达
尊重用户的说话方式,不要试图教给用户怎么说话
建议3:体现“关注用户需求”的服务态度
即使不能满足用户需求,也要体现出努力帮助用户的态度。
必须强调,话术体现的个性必须与产品人设保持一致,比如冷静成熟的产品人设就不太适合嗲嗲说话撒娇卖萌的话术。
本次我们发现,用户对“幽默”的话术接受度较高。在人际交往中,幽默能提升他人对自己的印象,让人感觉亲密并能帮助人们缓解压力。语用学研究也发现,只要适合特定场景,幽默话语的交际效果是最佳的。
不过,幽默具有明显的文化和群体差异,“甲之蜜糖,乙之砒霜”,设计话术时需特别注意。
建议1:遇到难题时,可考虑使用幽默话术回应
遇到无法实现的功能时,通过幽默话术回应用户,调节氛围。
建议2:娱乐话题的表述可以更加活泼有趣
讨论一些娱乐话题或闲聊时,话术可以考虑增添更多趣味元素。
本文从用户视角出发,阐述了机器话术设计的6大普适性原则,以及如何基于这些原则设计话术。我们定义的设计原则及提供的设计建议如下:
话术研究具有挑战性。话术与对话场景、对象,产品本身的人设、特性,系统语音识别、语义理解能力等均具有密切关系。但这不妨碍我们通过参与式的用户研究探索话术设计的普适性原则。所谓“深根固柢”,这些原则是机器话术设计时的基础与根基,有助于我们打造更自然和极致的语音对话体验。
我们也以此研究为契机,开始探索在AI时代,在机器话术这个领域,如何将技术和艺术、人性结合,希望能带来让用户内心真正喜欢的体验。
机器话术作为一个充满艺术特色又与人性密不可分的主题,还有着许多未知且充满魅力的方面值得探索。