• QQ空间
  • 收藏

苹果语音团队主管AlexAcero:Siri追求真正的人性化,而不是功能累积

| 2021-02-23

[ 导读 ] 多年来,苹果在开发Siri的道路上缓步前行,一度落后于谷歌和亚马逊,加之Siri的众多槽点也令一些人对其抱有怀疑态度。而苹果语音团队主管Alex Acero表示,苹果Siri要实现真正的人性化,而不仅仅是功能的累积。

图片来自“123rf.com.cn”

【编者按】苹果在开发Siri的道路上缓步前行,一度落后于谷歌和亚马逊,加之Siri的众多槽点也令一些人对其抱有怀疑态度。难道Siri真的就这样发展下去吗?

本文从以下三方面进行分析:1)Siri艰难的成长之路;2)Siri如何学习说话;3)苹果对Siri的愿景。

本文来源于wired.com,作者David Pierce;由编译。

当Alex Acero第一次看电影《Her》时,并没有表现出与常人的不同之处。但是,当他再次看这部电影时,他的注意力却根本不在电影情节上。作为苹果语音团队主管,他静静地坐在那里,闭上双眼,倾听着演员Scarlett Johansson如何通过配音,表现出电脑系统中“女主人工”Samantha的人工智能的性格。他将大部分注意力放在Samantha与男主Theodore Twombly之间的对话。Acero试图了解Samantha是如何让一个人在没有见过她的情况下坠入爱河。

我问Acero为什么电脑系统里的女生有如此魔力,他笑了,因为答案显而易见。“这是自然的!”他说,“因为她不是传统意义上的机器人!”这对Acero来说几乎是一个启迪。很大程度上,Samantha的成功证实了其Siri项目的正确性,即让Siri听起来更加人性化。

今天凌晨,苹果再次发布了iOS 11的第十个新测试版,未来这一新软件也必将赋予Siri一种新的声音。尽管这一新版本并未增强Siri的新功能,但是你会发现,目前Siri在语句中会有更多的停顿,且在停顿之前拉长音节,以及说话的时候,语音也会上下起伏。Siri说得话更加流畅,且语言种类也更加丰富。

苹果花了数年时间重新设计了Siri背后的技术,把它从一个虚拟助理打造为所有苹果智能手机的潮流概念。Siri不断扩展到新的国家,并增加新的语言识别。如今,Siri由苹果软件部门主管Craig Federighi负责,这表明,Siri对于苹果的重要性可以和iOS相媲美。

要想通过科技让你爱上虚拟助理,还需要一段时间。但Acero及其团队已经取得了巨大的进步。他们坚信,如果能让Siri听起来不像一个机器人,反而像你所认识或信任的人的话,那么即使Siri失败了,也可谓虽败犹荣。

Siri艰难的成长之路

如果你想知道苹果为什么想对其所有产品进行全面把控的话,不妨看看Siri的发展历程。在Siri推出6年之后,其在虚拟助理竞赛中却已经远远落后于其他大多数同类产品。亚马逊的Alexa背靠众多开发支持者;Google Assistant具备更多功能;这两种设备均应用于很多公司的设备中。

但苹果声称这不是他们的错误。当Siri首次推出时,另一家公司为其提供语音识别的后端技术,苹果将Siri的早期问题归咎于他们。苹果产品营销副总裁Greg Joswiak说:“这就像是一场比赛,然而有些人却阻止了我们的前进。”Joswiak表示,苹果曾对Siri制定了一个很大的计划,即你可以与手机上的虚拟助理进行谈话,并且可以让它以更简单的方式为你做事,但技术支持却不够好,因此造成了“无用输入、无用输出”的局面。

几年前,Acero带领团队来负责Siri的后端技术,并改进Siri的体验。目前,Siri基于深度学习和人工智能,取得了巨大的进步。Siri的原始语音识别可以与其他所有竞争对手相匹敌,能正确识别95%的用户语音。人工智能技术应用于其两个截然不同的关键部分:语音到本文,Siri试图弄清楚你说了什么;以及文本到语音,Siri对你所说的话进行回复。

对于Siri来说,最重要的是把你的声音和其他人的声音区分开来,尤其是当这些系统变得更加个性化的时候。Siri拥有的数据越多,就越能在人们之间进行辨别,甚至听懂很浓的口音。Siri的设计也包含安全考虑。研究人员最近发现,他们可以与Siri进行高频次对话,从而使黑客无法侵入。因此,Siri需要学会的从机器语音中分离人类语音,以及区分其他人的声音。

Siri如何学习说话

要想了解这些工作系统是如何运转的,就不得不提到苹果是如何为Siri增加新的语言功能。当Siri进军上海市场时,其团队借助本地已有的数据库,并通过雇佣上海本地人,让他们阅读数据、报纸、网络文章等来丰富其数据库。

该团队将这些录音文字与声音进行匹配,并识别音素。他们试着捕捉到每一种可以想象到的音素,比如在单词末尾逐渐消失的音素,在开始时的发力音素,在停顿之前发音更久的音素,以及在问句中语调上升的音素。每句话都有一个略微不同的声波,苹果的算法分析找出最适合的回复语句。Siri说的每句话都包含了几十个或几百个这样的音素,因此,你听到Siri说的每一句话都不是录音者所说话的方式。

Acero举了一个例子:“你想看(watch)这个吗?”和“我喜欢你的手表(watch)。”这两句话中的watch是同一个单词,但是在两句话中的语调完全不同,第一句是升调,第二句话则是降调。因此,这两句话不能用同一个“watch”的录音,也不能用同样的音素。

几年前,计算机和服务器还没有足够的处理能力来对一个庞大的数据库进行仔细研究,以找到合适的组合音调进行应答,但这就是Acero现在正在做的事情。苹果收集并转录这些数据,同时改进算法,训练网络。他们补充了特定位置的数据和语音定制,不断完善这个系统,直到Siri几乎完全理解了上海话的内容以及人们说话的方式。

与此同时,苹果疯狂地寻找合适的语言人才,来选取适合Siri的语音。Acero与苹果的设计师和用户团队合作,来共同探讨他们最喜欢哪种声音。这项工作更倾向于艺术,而不是科学。而接下来的事情便是科学部分。Acero说:“尽管很多声音听起来很好听,但这并不意味着他们是文本到语音转换的优质声音。”他们要求语言人才按照规定的模式进行演讲,寻找音素的变化——本质上是,每一句简短话语前后部分都存在声波差异。由于音素的变化很大,所以很难用一种自然地方式把它们连到一起,且人类很难通过倾听来识别,只有电脑才能发现这种区别。Acero说:“这就像贴壁纸一样,必须检查接缝,以确保它们在一条直线上。”

当他们发现声音听起来对人类和电脑都合适的人时,苹果在一段时间内会保留这些数据,这就成为了Siri的声音。目前Siri能够使用36个国家里的21种语言,其中涉及到的不同口音和方言,这远超其他智能助理。尽管,Siri槽点很多,但每月3.75亿的用户数量也不容忽视。

不过,相比于全球10亿多苹果用户来说,其3.75亿Siri用户仍显得相形见绌。几乎苹果的所有产品中都包括Siri功能,从iPhone到Apple Watch,甚至是Apple TV都可以看到Siri的存在。分析师估计,仅iPhone用户很快就会突破10亿。尽管Siri作为一个受欢迎且重要的功能,但对于大多数用户来说,使用Siri并非是绝对必要的。

苹果对Siri的愿景

苹果对Siri的愿景是什么呢?不妨先看一下Dwayne Johnson与Siri的一天。Johnson使用Siri来查看日历和备忘录,打开Lyft打车软件;在西斯廷教堂的时候检查他的电子邮件;打开FaceTimes,并举起手机进行自拍。Siri称他为“大先生、光头先生、漂亮先生”,但这让Siri看起来很糟糕。

Joswiak说,从一开始,苹果就希望Siri能成为一种让人喜欢的应用。但人们总喜欢通过问一些琐碎的事情来将Siri与其他虚拟助理进行对比,这让Joswiak很抓狂,因为Siri在这方面看起来很糟糕。Joswiak表示:“我们并不想把Siri设置为完美地处理琐碎事情的工具。”

相反,Joswiak表示苹果系统通过自动化助手帮助人们做更多的事情。他指出,Siri能够在Mac上进行复杂的文件搜索,或者是即将到来的HomePod对音乐渊博的知识。但Siri仍有很多事情做不了,比如不能帮你解决复杂的琐事或争论。但Acero表示,他们正试图让Siri学习它所不知道的事情。

除了Siri的众多槽点之外,其另一个挑战就是如何让人们习惯使用Siri。Acero说:“人们做事情往往都具有习惯性,从打字到语音仍然需要一段时间。”因此,苹果试图引导其用户。在iOS11中,Siri变得更加具有前瞻性,也更加主动。如果拟浏览网页,Siri会建议你阅读苹果的新闻故事,或者你通过Groupon预定按摩服务后,Siri会帮你添加一个日历提醒,同时也会在设备中进行同步设置。

多年来,苹果开发Siri的进程一直比较慢。在许多人看来,苹果已经失去了领先地位,落后于谷歌和亚马逊。但Joswiak表示,问题不在于Siri能做多少事,而是如何正确地做事。苹果既然选择做这件事,就不希望半途而废。

Acero听到荧屏上Samantha有正确的停顿、正确的语调、流畅的声音,以及些许金属感。他表示,苹果想要给用户呈现一些更优质的服务,而不仅仅是功能的累积。

2021-02-23
智能生活 互联网视频的下半场:抖音、B站和爱奇艺三国杀
抖音的过早商业化、B站的商业化难题以及爱奇艺,能否笑到最后? 最近这段时间,视频领域似乎一下子找到了自己的“关键时刻”:其中不乏2012就开始转型的快手;以及... <详情>
2021-02-23
智能生活 苹果语音团队主管Alex Acero:Siri追求真正的人性化,而不是功能累积
[ 导读 ] 多年来,苹果在开发Siri的道路上缓步前行,一度落后于谷歌和亚马逊,加之Siri的众多槽点也令一些人对其抱有怀疑态度。而苹果语音团队主管Alex... <详情>
2021-02-23
智能生活 早讯丨李克强:再推促进创新改革措施;今日头条欲将收购锤子科技专利
[ 导读 ] 今日看点:①李克强:再推促进创新改革措施;②天津十部门联合打击保健品违法行为;③央行决定调整普惠金融定向降准小微企业贷款考核标准;④原金立总裁卢... <详情>
2021-02-23
智能生活 不再怕疼?研究发现能抑制疼痛和焦虑的突变基因
  中新网3月28日电 据外媒报道,当地时间28日,一个在《英国麻醉杂志》上发表的研究报告称,研究人员发现了两种变异基因,它们在共同抑制疼痛和焦虑的同时,能给人... <详情>
2021-02-16
智能生活 兴业管家携手兆日银企通获“金松奖”最佳金融科技创新奖
4月24日,移动支付网、北京移动金融产业联盟主办,由中小银行互联网金融联盟、中国金融认证中心(CFCA)、山东城商行合作联盟等协办的2018第二届中国移动金融发... <详情>
2021-02-16
智能生活 复旦大学&引力区招生简章 | 区块链技术管理体系(区块链+)研修班
关注EOS引力区获取更多最新EOS资讯! 课程宗旨 2018年,一边是币圈熊市,以及资本方不再盲目,一边是不少地方出台各种政策... <详情>