拿下「麦克风」之后,百度AI输入法下一步要抓住你的「摄像头」
2018-01-19 17:16:00 1378阅读 发布地区:

「输入法」是日常生活最平常但也最容易忽略的人机交互场景之一。

问:用了“人工智能”和没用“人工智能”的输入法有什么区别?

答:你用一下微软全拼、智能ABC就知道现在的输入法的词条有多么智能了。 

以上是来自知乎网友「简单粗暴」的问答。但同时也能反应一个问题,被炒得火热,又似乎无所不能的人工智能技术,是怎样应用在「输入法」这点小事儿上的?做语音输入法的头部玩家也都是标榜做人工智能的巨头公司,到底谁行?

1月17日,百度输入法AI新版正式上线,百度副总裁、AI技术平台体系(AIG)总负责人王海峰为输入法站台,他表示,“输入法是百度AI技术的桥头堡,未来我们将用更多人工智能技术打造AI输入,让输入法更懂你的表达。”

一项技术突破:“深度尖峰技术Deep Peak 2 模型”

百度语音技术部总监高亮带来的“深度尖峰技术Deep Peak 2 模型”堪称AI新版输入法的一大亮点,通俗地解释一下这项技术。 

Deep Peak 2 模型的全称为基于 LSTM 和 CTC 的上下文无关音素组合建模,该技术将高频出现的音素联合在一起,形成一个音素组合体,然后将这个音素组合体看作一个基本建模单元。 

拿下「麦克风」之后,百度AI输入法下一步要抓住你的「摄像头」这可以看作是一次技术创新,此前数十年用的模型一直是上下文相关的建模方式。 

与上下文相关建模方式相比,Deep Peak 2 模型能够充分发挥神经网络模型的参数优势,对多种说话方式的稳定性更强、准确度更高;同时能够带来更快的解码速度,提升语音识别的整体效率,百度称,聊天场景下的相对正确率已领先行业20%,而这个解码速度也可提升10倍。

高亮向36氪解释到:“20%这个数字怎么得出来的?是拿1400句语料来和竞品进行对比,来比较谁的句准更准。我们更关心字准和句准。过去的模型和竞品比,是比较持平的。而这1400句是一直以来积累的「黑盒子」,训练数据完全看不到。” 

举个例子,现在人们中英文夹杂着说话,发送语音已是稀松平常事。现在是上下文无关的建模方式,就可以把中文、英文一起识别,提高识别的准确率。

据称,百度研发该技术有1年多之久,研发中遇到的最大难题就是解决「过拟合」的问题,百度通过声学模型学习和语言信息学习相分离的特殊训练方法,使用音素组合来保留最重要的音素连接特性,最终成功解决了建模时的过拟合问题。 

高亮表示,国际上谷歌也发布论文在尝试训练上下文无关的模型,但在工程上尚未体现。后续这项技术还将在百度其他产品中使用,验证模型的稳定性。 

2012年,百度上线了基于 DNN 的语音识别模型,此后随着技术的不断迭代,每一年都有新的语音识别技术上线。 

「抓住麦克风之后,下一步要抓住摄像头」

百度本次输入法发布会主题是「AI输入,开启全感官输入时代」。

拿下「麦克风」之后,百度AI输入法下一步要抓住你的「摄像头」

高亮告诉36氪,在识别率和准确率达到一定技术高度,输入法这个产品接下来的发展走向一定是应用的场景越来越丰富。 

比如:“声纹识别”、“轻声识别”,在开会过程中若有需要轻声发送语音,按住就可以轻声说;在会议上做速记,可以根据声纹的不同,可对不同发言的人内容进行分别记录。 

而未来,也许一个手势、一个眼神,甚至到终极一个脑电波,输入法就可以get到你的意思进行输入。 

拿下「麦克风」之后,百度AI输入法下一步要抓住你的「摄像头」

“AR表情”功能

在高亮看来,“抓住麦克风之后,下一步要抓住摄像头”,因此百度输入法这次还推出了“AR表情”的新功能。

这次是结合了百度人脸识别技术和AR技术,用户不仅可根据相机或相册进行人脸识别、制作表情包,还支持用户通过自己的表情控制虚拟人物形象,比如你可以看到孔子、武则天这些古代的人物冲你微笑抑或翻白眼。制作出来的AR表情,可以直接通过输入法搜索、语音输入和键盘输入时展示出来。 

除此之外,为了丰富表情包的种类和风格,一些中国民间传统艺术如年画等也引入到表情中,众多古典人物形象冲破次元壁垒“活”了起来。

就在昨天,微博也上新了点赞的新玩法,长按点赞按钮,就可以出现多种表态,如:高兴、愤怒、惊讶等。 

搞怪有趣的表情可以俘获年轻人的心,也更贴近用户的个性化需求,百度输入法在拥抱年轻的群体。 

输入法本身是一个to C的产品,谈不上何种商业模式,但是在和手机厂商合作预装中,能够敏感地捕捉到他们的需求,合作较好。

百度表示,截至目前百度输入法月活用户已达4亿,语音输入日流量超过2.5亿。百度输入法除了有自己的核心研发团队,攻克技术难题,还背靠技术大山,有王海峰领导的AIG团队的技术支持。

其实,语音识别这一单点技术已被突破,头部玩家的识别准确率早已都在97%以上,而接下来则更多是对语义的分析和理解,用户的意图判断等。输入法可以为百度积累分析语料以及盘活流量等,加之推出的“AR表情”功能,百度的AR怕是也要跟着火一把了。