搜狗语音王砚峰:听写产品背后是搜狗语音技术的能力和底气
[钉科技专访]假如用“春风十里”形容速度之快,用在人工智能领域应该再合适不过。CB Insights数据表明,2016年,人工领域的共有涵盖13个种类的超过1600家公司获得了超过90亿美元的融资。《乌镇指数:全球人工智能发展报告2016》则显示,2016年,全球每10.9个小时诞生一家人工智能企业。市场并不缺乏概念炒作者,但技术的发展更需要应用和落地,在钉科技看来,从相关分支切入,再在细分领域产
原创
2017-08-11 07:37:59
来源:钉科技  
作者:郭建辉

[钉科技专访]假如用“春风十里”形容速度之快,用在人工智能领域应该再合适不过。CB Insights数据表明,2016年,人工领域的共有涵盖13个种类的超过1600家公司获得了超过90亿美元的融资。《乌镇指数:全球人工智能发展报告2016》则显示,2016年,全球每10.9个小时诞生一家人工智能企业。

市场并不缺乏概念炒作者,但技术的发展更需要应用和落地,在钉科技看来,从相关分支切入,再在细分领域产品化,单点渗透,或许是在现阶段突破市场的最好方式。

自2012年涉足领域,搜狗就专注于自然交互和深度计算,以语言为核心,展开以文字和语音为主的交互方式。去年8月,搜狗推出知音引擎,力图让用户获得更自然的语音交互。时隔一年,搜狗听写推出,主打语音实时转文字功能。为更深入了解产品及其背后的战略构想,钉科技与另几家媒体小伙伴对搜狗语音交互技术中心总经理王砚峰进行了专访。

1502188626885088602.png

搜狗语音交互技术中心总经理 王砚峰

搜狗听写:解放双手,用嘴写作

国内的职业写手以及记者等媒体从业人员的总数接近6500万,即便面对庞大的人口总数,也并不能被作为小众,这也正是搜狗听写主推的用户群体。

记者常常面临这样的问题:每天要应付多个不同场合的采访工作,稿件又需要即时撰写发布,这就代表,即便是在从一地到另一地的路上,也要争分多秒。不过,面对时长不短且可能有杂音、地方口音干扰的录音材料,有时也会感到无所适从。

职业写手倒是不需要打一枪换一个地方,不过,这类人通常与键盘有着更长时间的接触,“指尖疲劳症”或许比记者更甚,但是,从椅子到沙发,从沙发到床的“阵地”转换,并不能解决这种“痛楚”。

针对上述痛点,搜狗听写从以下五个方面入手:一是长时语音听写,即连续录音+实时转文字;二是文本录音同时保存,无缝对齐;三是支持重点标注;四是只是边听边改;五是支持多客户端同步,可以用网页端进行比较重要的编辑工作。细节上,还支持自动加书名号等操作。

如此,记者就可以在场景方便的情况下随时整理资料甚至撰写稿件,而职业写手,更是可以躺在床上,或者望着窗外,写作只需要动动嘴。

王砚峰表示,事实上,搜狗听写不仅是专门为文字工作者定制的应用,也是每个人都会需要的应用,比如,语音便签、社交分享这些功能就是很普遍的需要。搜狗希望在产品上做出不一样的地方,帮助用户切实解决问题,并且通过差异点,同时体现在技术和产品方面的能力。

搜狗知音:属性开放,持续升级

搜狗听写,依托的是去年8月发布的“知音”语音交互引擎。当天,搜狐网络大厦电梯里的LED屏还在播放搜狗十周年生日的一段视频。

王砚峰表示,“知音”在语音识别、语音纠错、知识图谱信息整合能力及多轮对话理解方面具有技术优势。而这种优势,在搜狗方面看来,得益于输入法及搜索积累下来的大量数据对于其语义理解能力的锤炼。

听写产品与知音引擎相隔一年,这一年,被王砚峰描述为“知音努力学习的一年”。王砚峰表示,过去一年,语音识别技术服务了更多用户。2015年5月份,每年会有5500万的语音DAU。2016年1月份,增长到1.25亿。今年5月份已经达到了2.6亿的规模。这个过程,也是知音在大数据的基础上自主学习的过程。

据了解,今年5月份,搜狗语音的核心技术在应用方面取得了突破,在GMIS大会上,语音跟人工速记进行了五轮PK,最终的结果是4:1完胜。因为当时现场的网络问题,导致其中有一场的粤语识别没有联网。搜狗方面表示,到现在为止,机器的识别能力跟普通的速记相比已经取得了本质性的领先。在这样的过程中,机器本身有处理速度的好处,还有知识的好处,普通的速记不太可能知道那么多的专业术语,不太可能知道那么多的英文。在这个过程中,机器是充分的把自己的处理速度、处理能力,以及对知识的权威性发挥出来。这是听写产品得以在今年发布的底气。

后续会着力解决两个方面的问题,王砚峰如是说:一是远场,因为交互不可能局限于手机这类个人属性较高的终端;二是降噪,包括环境中的声音干扰,包括地方口音对识别准确度的影响都属于这一范畴。

至于知音引擎的发展方向,王砚峰说,知音在一定程度上会以OS的形式存在,为不同类型的终端产品赋能。

智能硬件:技术落实,把握入口

开放的属性,这是知音引擎诞生时就具备的。开放,就是在出行等垂直领域的延伸,为相关合作伙伴提供语音交互支持,向更多的终端入口进行布局。毕竟,人工智能或者语音交互作为技术,终究需要实际的载体。

手机等终端,特别是电视以及车载系统,都是搜狗所关注的品类。从去年开始,搜狗进行了AI技术的输出,跟小米、魅族等手机厂商合作。在传统的家电领域,跟各个行业的龙头合作,电视是跟创维合作,白电跟海尔合作等等。

赋能合作伙伴之外,搜狗也试图凭借自身实力,在智能终端领域延伸出方向。从大方向上,王砚峰表示,搜狗自主推出的终端产品前期会集中在可穿戴设备和智能家居上,手机、电视不是现阶段所考虑的,而硬件的产出,有可能会选择与第三方合作。

当被问到是否会考虑进军当前比较火爆的智能音箱市场,王砚峰给出了自己的判断,没有被“繁荣”的现象所影响,王砚峰很冷静的表示:相对于手机、电视等终端,音箱产品由于交互性(屏幕)方面的短板,并不具备独特性或者说不可替代性,从需求上来看,量级优势也不明显,也就不足以释放技术能力或者说承担“用户教育”的功能,因此暂时不会考虑推出相关的自主产品。


最新文章
关于我们

微信扫一扫,加关注

商务合作
  • QQ:61149512