表情 添加表情

您还可以输入 2000 个字符

取消回复

妙语匠心——智能语音交互的设计探索与实践(原创文章) 站酷推荐文章

系统分类: 设计文章 - -

文章版权:阿里巴巴CBU设计 原创,如需商业用途或转载请与 阿里巴巴CBU设计 联系,谢谢配合!

阿里巴巴CBU设计

/ 网页设计师
9天前发布

阿里巴巴国际UED-智能产品设计 张琬(婉语)

2018年初,我从新加坡国立大学博士毕业,加入阿里巴巴国际UED,从语言学研究领域跨界到语音交互设计领域,我将自己的阿里花名取为“婉语”——“婉”来自我的本名,意为美好,“语”是语言,亦是语音。我期待自己为用户创造美好的语音交互体验。


入职以来,我参与设计的项目包括公共服务领域的大屏语音设备以及家庭私域场景的智能音箱,这些产品几乎涵盖了人机对话的全部主要类型。基于各种对话类型的设计经验,我进行了一些整理与总结,希望这些尚为粗浅的专业沉淀,以及我的语言学专业背景,能为同类型设计师、跨界设计师、UXD设计师带来一些不同的灵感。



一、为何我们如此关注语音交互?


自从计算机诞生以来,人机的交互手段,经历了键盘、鼠标、触屏等阶段。交互方式的每一次的演化都向着更便捷、更自然、更趋近于人类本能的方向前进。新一次的交互革命已经开始,结合人类“五感”的多模态手段,成为未来产品的新趋势。


在听觉、视觉、触觉、嗅觉、味觉5个通道中,听觉通道无疑最为重要。首先,语言是人类传递信息、交流沟通的最主要手段,对于用户来说,语音交互的学习成本最低,也最为自然。同时,在很多场合中,语音可以解放我们的双手,允许用户同时处理多个任务。语言还是人类智能的象征,在人类的幻想中,一旦某种生物获得了人性,首先它就会“开口说话”。因此,用户对于人工智能直观感知就是语言能力。可见,要想在自然交互、情感交互的体验上取得突破,语音能力必须先行。

二、在语音交互中,体验设计师扮演着什么角色?


产品的本质是满足用户需求,“以用户为中心”的视角永远不会改变。因此,在人机交互发展的任何阶段,都需要体验设计师。技术只是一种手段,如何让技能能力服务于用户、如何让用户在交互过程中获得良好的体验,这是设计师的天职。设计师搭建起了技术与用户之间的桥梁。


从技术层面来看,语音交互过程就是将用户的语音信号转化为文本,再对文本进行语义理解,触发不同领域的服务、内容、信息等,并以合成的人声反馈给用户,形成对话式的交互。

对应技术框架,设计师的主要职责围绕两条主线展开,即分析用户需求、设计对话体验剧本:


1)分析用户需求

语音识别技术能够将人的语音转化为文本,计算机通过分词、parsing(句法分析)等方式理解文本中词与词的关系。但是,在真实世界中,用户语言和用户意图之间的关联却是很复杂。在语言学上,我们称之为“会话隐含意 (conversational implicature)”。这种语义高度依赖语境,具有不确定性,无法通过分析语法和词汇而得出。这样的用户需求无法完全依靠计算机的能力进行解析。以最简单的天气问询为例,“今天出门要带伞么?”对男性用户来说,关注点可能是天气的降雨情况;对女性用户来说,关注点可能是天气的日晒情况;如果当下的天气状况是乌云密布,用户意图大概率上又是询问降雨。这时,就需要设计师构建细致的判断逻辑,辅助计算机进行语义理解。

2)设计对话体验剧本

正如前文所说,只有得到符合预期的反馈,用户才会认为计算机理解了自己的意思。用户对于对话式交互的预期来源于生活经验,因此,计算机的反馈话术则需要具备“人格化 (impersonated) ”的特征。所谓“人格化”的话术需要具备三点特征:


  • 符合统一的人格设定和语言特征;

  • 符合自然语言的会话结构和逻辑;

  • 符合对话场景中的交际习惯。

首先,语言是人类智能的象征,用户对语音产品会产生“移情”效应,不可避免地认为语音产品具有拟人的属性。因此,具有设计一个语音产品之前,也应该为语音系统设定一个固定的人格类型,并设计具有一致性的语言体系,避免给用户造成人格的“分裂感”。


其次,自然语言中存在固有的会话结构。如,一个完整的对话结构必须具备“开始模块”和“结束模块”,跳转话题时需要一个“话题枢纽”。“话轮枢纽”可以用一个简单的词语来承上启下,如“对了……”、“其实……”等,也可以是一个或多个句子来过渡话题,但少了这个部分,对话就会显得生硬。不论是什么类型的对话设计,都需要按照这样的模块细化展开。

最后,人在不同场景中,具有不同的语言行为特征。如在公域中,更偏重效率和隐私性,因此公域的服务场景话题延展性较低,设计重心围绕核心需求展开;而在私域中,则更偏重情感体验,话题的延展性较高,设计还需考虑更多的交互细节。



三、在语音交互中,如何分析用户的意图?


刺激语言表达的来源有两种,一种是说话人的内在感受,一种是客观环境的外部语境。那么,要想知道用户在语音交互场景中会「说什么」,首先需要分析用户是谁,即分析用户画像;其次要分析交互场景,除了空间时间场景外,多模态的交互界面也是场景语境的一种。 除此之外,我们也能够运用一些语言学上的方法来帮助我们在前期进行用户意图的挖掘。


1. 语言的替换组合原理

首先,语言是一个可以替换组合的装置。那么,我们从一个典型意图开始扩散,通过概念拆解,运用有规律的替换,可以发散出多种用户需求,并为之设计具有针对性的回复模式。如在“问天气”这个简单的场景中,最典型的用户意图是“今天杭州天气怎么样?”,但在现实中,用户的需求远不会这么简单。当我们对这个意图进行拆解,将其中的三个组成部分「今天」「杭州」「天气怎么样」进行有规律的替换和组合时,就会生成出复杂而众多的用户需求。

2. 真实口语中的语用规则

其次,中文口语常常的凌乱的,语法不严密的,口语的规则常常超出句子范围,我们还需要考虑篇章结构的规则,这是语言学中的“语用规则 (Pragmatic Rules)”。例如,一般认为中文语法的名词中心语是后置的,修饰语在中心语前面不断叠加,如“美丽的风景“、”旋转的风车”,这称之为“向心结构”。以点咖啡的场景为例,理想的语法状况为“我要打包一杯大杯香草口味的热拿铁”。但这类结构的句子在实际生活出现的可能性极低。在口语中,通常以“主题+描述性成分”展开,如“一杯拿铁,大杯,热的,加香草,打包,啊……还是冰的吧,那个……去冰”,呈现出“离心结构”的倾向。


口语中,语言是伴随思考进行的,还受到思维逻辑结构的影响,这是跨句子范围的“语用规则”。人在提出需求时,通常遵循“提出-补充-修改-澄清”的逻辑。因此,最核心的需求往往最先提出,随后对需求进行细化描述。我们在语音点单机项目中,运用这种逻辑对何时截断用户的语音、何时执行指令、在遇到用户停顿时应该如何处理,这些前端操作进行辅助优化后,用户意图的识别率和执行执行的正确率都有了较为明显的提升。

四、如何设计符合用户思维习惯的对话剧本?


1. 模拟真实生活的对话场景

人和人之间的日常对话,通常不是直接的功能性问答,也不是单一话题的,而是在不同话题间不断转换。用户对人机对话的预期也是如此,不是冷冰冰的一问一答,而是能够能加自然真实。所谓的“自然真实”,其实就是与用户固有的思维习惯类似。


我们模拟日常生活中的对话场景,为AI人物建立「用户生活参与者」的身份。以天气问答场景为例,人和人之间关于天气的对话,不仅是获取资讯,还会基于天气进行话题扩展。因此,我们在对传统的天气播报进行了「场景话术包」的升级方案,在基础信息模块的基础上还增加了人格话术模块,依据天气类型和气温类型,选取了语义网络中高关联度的节点作为话术维度,在基本的信息模块基础上,建立人格话术模块,根据AI人物的性格设置编写话术。这些维度包括,安全、出行、健康、心情等与用户日常生活息息相关的方面。

这种场景话术包模拟人和人之间真实的交际场景,会给用户带来符合预期的对话体验。同时,在每次与用户交互时,人格话术库都能够根据当下场景提供不同的对话内容,用户能够在每次对话中都能获得一些新的体验,从而引发用户对再次交互产生好奇。更重要的是,我们基于场景对用户表达主动的情感关怀,营造出「生活参与者」的角色形象,为用户构建起虚拟的人际关系,满足用户更高层的社交需求。从这三个角度,立体地塑造出具有EQ的机器语言,让用户的对话体验更加生动有温度。


2. 有边界的聊天逻辑

传统的聊天机器人是无边界的,依赖于积累语料、标注数据、搭建知识图谱等方式。一般来说,这种回复内容的适用范围很广,不受语境的制约,在任何时候都能差不多兜住用户的问题,给人一种似乎对、也似乎不对的感觉。但是这种交互没有主题,也没有记忆,完全基于用户的上一句话术,这就很容易在对话过程中脱离语境,跳出用户的预期。


而在自然语言的会话结构中,即使跳转话题,也通常有话轮枢纽来承接上下文,整个对话始终是在双方的预期中进行的。脱离语境会给用户造成认知上的违和感。


以下是某聊天机器人与用户的对话,这两种情况都属于用户的预期外情况,当前话题就只能终结,用户必须另起话题才能继续。

于是,我们在小的垂直场景(诗歌领域)中做了试验性的尝试,采取另外一种“有边界”的闲聊逻辑:


  • 首先,这种交互是有始有终的,围绕单一话题展开,通过机器的主动引导来完成整个流程,有独立的开场模块和结束模块。

  • 将诗歌能力结构化,变成独立的技能模块,进行主动输出,例如猜诗人、猜诗名、诗歌对句、诗歌释义、诗歌冷知识等,为每个技能模块设置引导话术和对话模版。一个模块作为一个技能进行主动输出,并在主动结束前吸引用户下一次再来进行交互。

  • 用户的每次交互都被记录下来,作为下一次交互的话题,这样,机器人和用户之间就有了共同的经历。


在这种有边界的闲聊逻辑,具有上下文的强关联性、同时场景明确、主题突出,当然也有相应的缺点,对场景强依赖、通用性低。从交互平均时长的绝对值来看,也许低于无边界的聊天机器人。但是,在相对较窄的垂直应用场景中,如游戏和教育,这种思路的闲聊机器人也许会有更强的适用性。

这种闲聊模式是半封闭的,「开场——引导——技能——结束」是一个完整的happy path,但是用户的思维具有发散性,很可能由现有语境跳转去其他话题,当用户的意图跳出话题时,使用百科知识和兜底话术应对,再通过话轮枢纽将重新引导回话题,尽量完成一个完整的对话流程。这种闲聊模式,我们称之为“对话情感体验地图”。

我们之所以将诗歌作为闲聊主题,是因为技术团队现有一个较具规模的诗歌知识库。但用户主动去获取诗歌知识的场景并不多见,那么这些能力很大程度上是被“闲置”了。如何充分利用计算机现有技术能力和信息储备,将其转化为活的服务,主动触达用户,这是设计师需要思考的。在人工智能尚未达到“全知全能”的现阶段,如何充分利用当前的已有资源,完成计算机能力向用户需求的转化,我认为这是设计的核心意义所在。


四、语音交互需要怎样的体验设计师?


语音交互的特殊性为体验设计师提出了新的要求和挑战。人类的语言能力是天生的,用户的语言行为模式不会因为交互对象是计算机而发生改变。传统的交互方式要求用户学习计算机的规则,而在语音交互中,计算机必须完全顺应用户的逻辑。因此,设计师首先要理解“语言”的本质,理解用户的“语言逻辑”,才有可能设计出流畅自然的语音交互体验。其次,设计师还必须理解技术的实现机制,才能和技术配合,将技术能力最大化,并和技术携手不断拓宽彼此的边界。


语音交互渗透人类生活场景的方方面面,这就对我们设计师提出了更高的综合素质的要求。阿里常说“既要、又要、还要”,对语音交互的体验设计师而言,既要具备语言学能力、技术背景、交互设计能力,又要有产品思维、营销思维、结构化能力、可视化能力,甚至是编剧能力,还要有一定高度的哲学思考。在人工智能的时代中,产品的形式不断突破人类的认知边界,如何理解人、如何理解人的认知、如何为计算机构建世界观,这都是值得我们思考的哲学命题。


写在最后的一点感想


以上就是我作为语音交互领域中的一个“异类”设计师,在项目过程中的一些经验之谈。人工智能、机械智能是一个长期发展的过程。在“强人工智能”——机器自主学习和进化的阶段到来之前,“人工”的因素仍然十分重要。通过模拟人类行为,为计算机搭建“世界观”,为机器学习积累有效数据,不断提高人工智能发展的起跑线,是一个必然且长期的阶段。


所谓“妙语匠心”,人工智能在语音交互中所展现出的每一分“妙语”,不仅仅是强大技术能力的支撑,实际上也蕴含着设计师十分甚至一百分的“匠心”。同时,在设计上,我们也在不断探索设计和技术的结合方式,在对话内容和对话剧本的自动生成、人格化语言体系的构建等方面,我们已经开始了一些探索。语音交互行业才刚刚崭露头角,我们在设计上还有很长的路要探索,设计和科技需要携手不断拓展边界,我们共同的目标都是提供给用户更好的服务、带给用户更好的体验。不管技术如何发展,时代如何变迁,不变的是对人和人的需求的关注,UXD时刻关注用户视角、价值导向。


同时,感谢团队中与我通力合作的小伙伴们,体验设计师的视角和语言学者的视角碰撞出了很多火花,给了我不少设计灵感和有益的帮助,让我在短短不到一年的工作中,沉淀出了这些心得。同时,我也十分希望能给同行业的设计师们一些不同视角的参考,期待语音交互这个新兴的行业因为我们的探索而更加蓬勃地发展。

----------------------------------------------------------------

 阿里花名:婉语

毕业于新加坡国立大学,之前的标签是#语言学 #女博士,现在还多了#语音交互 #体验设计师。

和“语言”结缘8年时间,仍然保持着新鲜感与好奇心。之前我研究语言的历史演变与地域变异、语言和人类认知的关系,现在我更多思考语言和技术的结合、语言和用户的需求。



*感谢团队中并肩作战的小伙伴定谦、勺峯、喂料、伊昂、鉠鉠。感谢老板Paul、李龙、玄城的帮助与指导。


200
文章人气
11277
浏览:11277人 收藏:139次 评论:20次
推荐:200
阿里巴巴CBU设计

/ 网页设计师
9天前发布


表情 添加表情 上传作业 还可以输入2000 个字符