下面是原始网址 http://mobile.163.com/14/0303/14/9MDVDMQT0011671M.html 在 2018-10-09 09:14:03 的快照。

360搜索与该网页作者无关,不对其内容负责。

科大讯飞正式发布四川话语音识别技术_网易手机

科大讯飞正式发布四川话语音识别技术

2014-03-03 14:45:28 来源: 网易手机
0
分享到:
T + -
科大讯飞正式对外发布四川话语音识别技术,识别准确率超过85%,达到实用水平。方言识别技术的落地增强了应用软件的亲近性,也渗入了以人为本的现代传播观。市场上唯有讯飞语音技术可以做到零流量的离线识别,抗噪效果也最为领先。

科大讯飞正式对外发布四川话语音识别技术,识别准确率超过85%,达到实用水平。四川话约有1亿2千万的使用者,数量次于日语,多于德语。

科大讯飞正式发布四川话语音识别技术

最新版《中国语言地图集》把汉语方言分为十区:官话区、晋语区、吴语区、闽语区、客家话区、粤语区、湘语区、赣语区、徽语区、平话和土话区,其中官话方言占比61.5%以上,在汉语大方言中有他突出的地位和影响。

四川话是流行于中国四川省、重庆市(巴蜀地区)及周边省份临近地区的主要汉语言,包括汉语西南官话中源自古巴蜀语的成渝片及灌赤片。四川话约有1亿2千万的使用者,数量次于日语,多于德语。

四川话发源于上古时期非汉族语言的古蜀语和古巴语,迄今四川话的原始层中仍然保留了“坝”(平地)、“姐”(母亲)、“养”(您)等来自上古时期古蜀语和古巴语的词汇。之后四川话便随巴蜀地区的历史进程和移民更替而不断地发展变化,先是秦灭巴蜀后,巴蜀地区逐步形成属于汉语族但独具特色的巴蜀语。

现今四川话形成于清朝康熙年间的“湖广填四川”的大移民运动时期,是由明之前流行于四川地区的巴蜀语和来自湖广、广东、江西等地的各地移民方言逐渐演变融合而形成的。其中,四川话的分支之一成都话是川剧和各类曲艺的标准音,同时由于四川话内部互通度较高,词汇、语法、声韵等方面都较为一致,各方言区交流并无障碍。

由于时空性和地域性因素,国内地方方言种类非常丰富,导致方言识别成为语音界的难题,不能识别和误识别结果都影响了用户体验。此前没有一种引擎可以把方言语音识别处理好,只能依赖于采集大量方言语料进行训练。

今年1月,通过云计算、大数据,方言口音适配、深度神经网络等技术手段,科大讯飞的方言语音识别引擎研发成功,具备了自动纠错和智能联想能力,实现方言识技术突破。同时还与国家语言文字工作委员会合作,征集各地方言的语音数据用于模型训练,显著提升了方言语音识别的准确率。据了解,东北话、上海话等方言语音识别技术也将在年内陆续发布。

据科大讯飞透露,四川话语音识别技术将率先应用于输入法产品,2月26日讯飞输入法将发布支持四川话语音输入的全新版本,此前讯飞输入法已经支持普通话、英语、粤语语音输入。科大讯飞的核心技术主要包括:语音识别技术、语音合成技术、自然语言理解技术、语音评测技术、声纹语种技术、手写识别技术等,该技术及其产业一直是国内外竞相竞争的热点和焦点。

NIST国际评测大赛是国际上规模最大、影响力最广泛的评测比赛。它由NIST(美国国家标准与技术研究院)举办,自2000年以来已成为NIST举办的语音技术相关的常规评测项目之一,参赛单位有美国麻省理工大学(MIT),法国国家科研中心计算机科学实验室(LIMSI),捷克布尔诺科技大学(BUT),清华大学等17家国内外顶级语音研究机构。科大讯飞自2008年开始分别参加隔年举办的说话人识别和语种识别评测比赛。在说话人识别比赛上,科大讯飞于2008年荣获说话人识别评测大赛全球第一名,2010年荣获核心测试综合评价第二名;在语种识别比赛上,科大讯飞2009年荣获高混淆方言对识别指标综合排名冠军、通用测试指标综合排名亚军,2011年获9个高混淆度方言对评测中7个方言对第一名。

讯飞语音识别技术的理念是提供信息时代人机沟通的最佳方式。在基础技术方面锐意进取,不断创新,特别在特征鲁棒性、模型区分性训练、大词汇量语音识别解码技术、语音模糊搜索等方面提出了多项创新性观点,并多次在国内外著名的学术期刊、会议及专刊上进行发表。

在受限的命令词或者语法范围提供自动语音识别服务,需要很少的计算资源,但是要求用户能够“配合”语音识别系统,尽量说“集内词”。目前命令词识别技术的准确率达到99%以上。结合大词汇量语音识别、自然语言理解、信息检索等技术提供特定领域内相对开放输入的语音识别服务,对用户的限制较为宽松,在所限定的领域内可以以自然语言的方式进行人机交互。

在无特殊限定的范围内完成对连续自然语音(包括方言)进行内容转写,目前语音转写技术的准确度达到97%以上。科大讯飞还在业界发布首款支持中英文合成、混读地方方言合成的智能语音芯片,覆盖了粤语、四川话、东北话、上海话、闽南话、湖南话、河南话等,极大满足了各行业服务需求。

当前语音识别技术中三大难点之一的噪音问题是阻碍实际应用的关键。在大多数应用环境中总是存在各种各样的噪音,由于训练环境与识别环境的不匹配,噪音会严重影响识别结果。即便在噪音环境下训练,其噪声环境也是可变的,不同的噪声会对说话者的声音带来不同的变化,也就是所说的“Lombard效应”。所以需要语音识别系统对多种不同类型的噪音和不同信噪比条件的噪音具有良好的鲁棒性。

奔驰汽车曾对各款语音系统在高噪环境下进行评测,结果显示科大讯飞的语音识别在高噪环境下独占鳌头。在汽车行业,奔驰、宝马、奥迪等已引入或者即将引入讯飞语音技术;高德地图等导航巨头也与讯飞建立了战略同盟。市场上唯有讯飞语音技术可以做到“零流量”的离线识别,抗噪效果也最为领先。

远场的声音(1个波长以上的距离)随传播距离增大而逐渐衰减,传播过程中还可能混入其他声音,为了准确提取原始语音信号中的语音信息,就需要通过有效的端点检测,提取出特征参数,经过合理建模和大量训练从而实现远场语音识别。远场语音识别的成熟将带动智能家居、可穿戴设备等行业的深度发展,有了远场识别技术就不用再对着终端设备“吼”一声,而是轻松躺在沙发上用语音轻声操控。

一个地方的方言就是一个历史范畴,象征了地区的历史和文化底蕴,还将地域性的文明与民间文化以非物质的表现形式传承下来。例如粤语文化在港澳地区根深蒂固且势力强大,使用地区的报刊文摘、影视作品等均夹杂着大量的粤方言词汇,在使用社交软件时相互的语音沟通也都是粤方言。同样,在四川话流行地区,人机沟通不仅包含方言词汇,更多存在了纯方言语句。方言识别技术的落地增强了应用软件的亲近性,也渗入了“以人为本”的现代传播观。

冯婷 本文来源:网易手机 责任编辑:王晓易_NE0011
分享到:
跟贴0
参与0
发贴
为您推荐
  • 推荐
  • 娱乐
  • 体育
  • 财经
  • 时尚
  • 科技
  • 军事
  • 汽车
+ 加载更多新闻
×

热点新闻

态度原创

阅读下一篇

返回网易首页返回手机首页
用微信扫描二维码
分享至好友和朋友圈
x