5月29日消息,2014第十八届中国国际软件博览会在北京展览馆开幕。本届软博会以“软件引领信息消费,助力经济转型升级”为主题,充分展示软件业在促进信息消费、提高百姓生活质量、提升社会各行各业信息化水平等方面的最新成果。百度语音首席研究员贾磊做了题为《开放的百度语音云》的主题演讲。
百度语音首席研究员 贾磊
以下是演讲实录:
各位来宾大家好,感谢组委会给我这个机会给大家汇报一下开放云相关的工作。百度近期有一系列技术上举措,我们在国外聘请了专家来到百度,对外开放了一系列的技术,百度开放技术的目的是什么?大家使用百度开放技术的时候还不放心,在PC时代技术相对成熟,人们做一个网站运营相关的网站成本是比较低的,但是移动时代开发者面对移动互联开发瓶颈做一个应用,压力是很大的,百度帮助开发者更好建立自己的应用,建立自己的APP,和生态环境,让所有开发者都行动起来。我们也希望开发者通过百度的技术开发自己的应用,最终实现生态转移。百度语音开放是降低移动互联时代开发者的门槛,我们开发是语音识别技术,这个语音识别技术是简单的识别过程,我们首先有自己的语音识别系统,大家用我们客户端软件或者直接传语音到服务器,我们针对手机厂商和汽车厂商,只要大家去百度申请就能免费拿到我们做语音识别所有的技术。
同时,我们还开放了个体定制化语音识别需求,我们帮助大家做自己的应用,大家可以上传自己的语义语法要求,在后台定制自己的语音识别器,从而实现完全无缝连接和捆绑,在开放语音识别技术之后,我们又开放了自己的语音合成技术,嵌入式HTS语音合成系统,高保真的合成,在互联网模式下合成语音,帮助大家开发自己的互联网应用。在语音识别背后我们开放了百度语音文件技术,有多达35类的语义需求都可以得到满足。同时我们开放了语义理解,这些资源会随着整个过程对开发者展开。首先我介绍百度语音识别开放,我们强调是场景化识别和自选语言模型,我们开放的长文本,短热词,交互式对话垂直领域识别技术,语音纠错技术,我们从金融、医疗、卫生逼我们互联网在文本时代积累的文本处理技术都进行定制化选择,用户使用我们语音识别选择自己的语音领域,如果在现有开放领域找不到适合自己的领域,用户可以定制化自己的语音识别。
下面我简单介绍一下我们语音识别技术,百度采用的是数万小时声学训练语料,百度搜索引擎技术积累的海量文本语料,线上语言模型体积100G,使语音识别更适合应用,我们还有听觉感知DNN声学建模技术,更高的识别率。最后我们有高速的解码技术,使我们语音识别技术达到国际先进水平。
这里对技术讲起来很枯燥,首先我们有SDK,我们在网上放SDK,可以做很微量的工作就可以实现自己移动的APP在安卓上进行语音识别,自己的开发量只要按照我们工作手册去操作,很容易让APP都具备识别的能力,最终实现高精准的语音识别。用户定制化识别也是我们的特长,用户可以上传自己的语料,实现最精准的语音识别。
我介绍一下我们语音合成开放,我们能实现任意文本的语音播报。这个过程其实可以直接连我们语音合成的语音服务,我们把你们通篇上传的文字转化为语音,高保真,而且清晰自然。我们的拼接合成技术也对外发布了,这里不再赘述。我们嵌入式语音识别技术也会对外开放,在你们移动产品中嵌入百度的语音何澄功能,任何时间任何地方都可以实现文本的播报。语音合成我们支持安卓和IOS两个平台,我们支持多种音频编码满足大家的需要。
百度的语义理解我们在互联网上支持语义的结构化的数据,大家会拿到一个语义的解析内容,跟我们后台的模块是配合的,这样我们支持35个垂直领域定制化解析,平均准确率都超过85%以上。我们针对用户主要场合,文化场合做很多的解释,如果有方言表达的文体不一定能够准确解释的情况下,用户可以定制化自己的语义解析,改善语义理解。目前百度后台资源跟语义理解模块是对应的,我们从时间结果,语义理解,然后返回语音解析内容。我们多个对话功能也在网上进行开放,大家在语音识别过程,不是单纯一个名词中转换,我们还支持多个名词之间的逻辑关联,我们给“去哪儿”的经典语音交互案例,语音识别语义理解深度定制。最后我们介绍一下百度的资源优势,我们集成了百度所有产品和服务,搜索、地图、音乐、百科在后台都是开放的,把文字转化为声音的播报功能而且还能拿到后台的资源,都对大家敞开,进行免费服务。我们开放的有三级权限,第一是语音识别、语音合成。这是为了满足开发者只是要用语音识别功能,不需要太多资源。我们直接得到了语音识别和语音合成的能力,这个能力又分为联网和不联网,如果不联网,大家在百度注册平台注册申请就可以了。在二级权限中,我们除了开放语音识别和语义合成以外,最重要的是语义理解,大家根据自己应用的要求,定制自己理解的定制化语义解析。后台大家有多自己的服务,不一定用百度资源和服务,比如你们开放数字电视,大家说我想看什么电视频道,用户可以切换到自己的电视频道。在三级权限中我们把百度后台的资源都对大家开放,中小开发者说我做一个查询,周边的查询,我的核心要点是查饭店,有的用户查周围的咖啡屋,我看到饭店跟咖啡屋是关联的我们百度后台是支持的,大家可以访问百度后台的资源。我们把三级开放抽象为这样的图,我们身份识别、语音唤醒,打造不一样的人机交互。语义理解,我们主要设置的是你说,我想!理解用户意图,完成需求分发,整合系统资源。我们还有一些重磅产品介绍,我们跟很多公司,有的是互联网公司,有的是IT公司进行合作,向他们提供我们语音识别能力和解决方案等等。
后面我宣传一下我们语音开放的联系方式,我们有新浪官方微博,大家搜索百度语音就能找到我们所有的服务,我们还有腾讯QQ群,大家可以对自己的问题寻求我们的解答。我们百度内部的聊天方式广大用户不太熟悉,所有的技术问题是有技术人员实时解答的,主流的媒体频道了解到我们内部的hi群,都是我们技术人员在线为大家解答问题。最后是我非常感谢大家有机会花时间来听我的报告,很感谢大家!谢谢大家!