语音识别的能指标主要有语音识别文件的语音识别系统的性能指标

vnshog9462 2024-05-23

一、语音识别文件的语音识别系统的性能指标

1、语音识别系统的性能指标主要有四项。①词汇表范围：这是指机器能识别的单词或词组的范围，如不作任何限制，则可认为词汇表范围是无限的。②说话人限制：是仅能识别指定发话者的语音，还是对任何发话人的语音都能识别。③训练要求：使用前要不要训练，即是否让机器先“听”一下给定的语音，以及训练次数的多少。④正确识别率：平均正确识别的百分数，它与前面三个指标有关。

2、以上介绍了实现语音识别系统的各个方面的技术。这些技术在实际使用中达到了较好的效果，但如何克服影响语音的各种因素还需要更深入地分析。目前听写机系统还不能完全实用化以取代键盘的输入，但识别技术的成熟同时推动了更高层次的语音理解技术的研究。由于英语与汉语有着不同的特点，针对英语提出的技术在汉语中如何使用也是一个重要的研究课题，而四声等汉语本身特有的问题也有待解决。

二、国内大多数语音识别技术商都在什么地方

国内大多数语音识别技术商都在安徽合肥、北京、杭州。

当前，国内语音识别公司主要包括：科大讯飞、歌尔股份、全志科技、汉威科技、共达电声、盛视科技、海天瑞声和精伦电子。

科大讯飞是语音识别技术的龙头企业，研发完成在深度学习新框架下的语音识别技术，识别准确率保持业界领先。

针对采访、会议、节目、授课等复杂场景下的语音转写效果持续提升，业界唯一达到实用门槛；研发完成通过较小代价提升方言和小语种识别可用性的技术路径，方言和维语、藏语识别效果大幅提升。结合麦克风阵列的远场识别、语音唤醒等关键指标相对提升达到50%以上，有效支撑万物互联下的远场人机语音交互的进一步普及。

歌尔股份公司所处的行业为电声行业,主营业务为微型电声元器件和消费类电声产品的研发、制造和销售。

全志科技公司非常重视AI技术在终端场景的应用落地，现有多个产品线都可以支持包括智能语音、智能视觉等AI相关应用，未来将根据客户需求持续推出芯片产品和解决方案。

汉威科技公司表示传感器的应用范围非常广泛，在感知和数据采集环节发挥重要作用，可穿戴设备将是其重要应用方向。

共达电声公司是专业的电声元器件及电声组件制造商和服务商、电声技术解决方案提供商。公司是专业的电声元器件及电声组件制造商、服务商和电声技术整体解决方案提供商，是国家级高新技术企业、中国电子元件百强企业。

盛视科技公司在声音方面的自主研发技术包含语音采集、语音端点检测、语义分析、人机交互和声波检测与分析等。公司产品海关多功能机器人利用语音识别、自然语音处理技术等服务。

海天瑞声公司拥有基于DNN-HMM等模型的多语言语音识别技术，并掌握当前语音识别中流行的多种深度学习技术。在语音识别算法领域，公司已掌握细分技术语音数据库质量预估技术，已取得4项发明专利授权。

精伦电子公司的四大主营业务包含电子通信产品、身份证阅读机具、控制类产品、云影音智能机系列产品及解决方案为四大主营业务。

三、语音识别中的ASR技术通识 2019-12-06

ASR(Automatic speech recognition)，自动语言识别，自动将语言转化成文字的过程，作用类似于人类的耳朵。

语言识别输入的是声音，属于计算机无法识别的模拟信号，所以需要通过模型将其转化成数字信号，并对其中的特征进行提取，编码时，会将声音切成很小的片段，成为帧，类似于视频中最小时间单位的帧。帧和帧之间会有一定的重叠。

对于得到的每一帧，按照人耳听声的特定的MCFF规则，提取其中的特征，转成多维向量。向量中的每一个维度可以看做是这一帧中的特征。

解码过程是将得到的向量变成文字的过程，其中用到两个模型声学模型和语言模型。声学模型是将特征向量转化成单个字母（中文的拼音声母和韵母），成为音素。语言模型是将音素拼接起来成为单词或者汉字。两种模型都需要大量的语言数据进行训练。

传统识别方式：隐马尔可夫模型（HMM）

端到端识别方式：神经网络（DNN，deep neural network）

两种识别方式主要的差异在声学模型上。

目前中文的识别率在97%以上，距离理想的99%还有很大的差距。

语音激活检测、语音唤醒、以及麦克风阵列。

1）语音激活检测（voice active detection，VAD）

A）需求背景：在近场识别场景，比如使用语音输入法时，用户可以用手按着语音按键说话，结束之后松开，由于近场情况下信噪比（signal to noise ratio, SNR））比较高，信号清晰，简单算法也能做到有效可靠。

但远场识别场景下，用户不能用手接触设备，这时噪声比较大，SNR下降剧烈，必须使用VAD了。

B）定义：判断什么时候有语音什么时候没有语音（静音）。

后续的语音信号处理或是语音识别都是在VAD截取出来的有效语音片段上进行的。

2）语音唤醒（voice trigger，VT）

A）需求背景：在近场识别时，用户可以点击按钮后直接说话，但是远场识别时，需要在VAD检测到人声之后，进行语音唤醒，相当于叫这个AI（机器人）的名字，引起ta的注意，比如苹果的“Hey Siri”，Google的“OK Google”，亚马逊Echo的“Alexa”等。

B）定义：可以理解为喊名字，引起听者的注意。

VT判断是唤醒（激活）词，那后续的语音就应该进行识别了；否则，不进行识别。

C）难点：语音识别，不论远场还是进场，都是在云端进行，但是语音唤醒基本是在（设备）本地进行的，要求更高——

C.1）唤醒响应时间。据傅盛说，世界上所有的音箱，除了Echo和他们做的小雅智能音箱能达到1.5秒之外，其他的都在3秒以上。

C.2）功耗要低。iphone 4s出现Siri，但直到iphone 6s之后才允许不接电源的情况下直接喊“hey Siri”进行语音唤醒。这是因为有6s上有一颗专门进行语音激活的低功耗芯片，当然算法和硬件要进行配合，算法也要进行优化。

C.3）唤醒效果。喊它的时候它不答应这叫做漏报，没喊它的时候它跳出来讲话叫做误报。漏报和误报这2个指标，是此消彼长的，比如，如果唤醒词的字数很长，当然误报少，但是漏报会多；如果唤醒词的字数很短，漏报少了，但误报会多，特别如果大半夜的突然唱歌或讲故事，会特别吓人的……

C.4）唤醒词。技术上要求，一般最少3个音节。比如“OK google”和“Alexa”有四个音节，“hey Siri”有三个音节；国内的智能音箱，比如小雅，唤醒词是“小雅小雅”，而不能用“小雅”。

注：一般产品经理或行业交流时，直接说汉语“语音唤醒”，而英文缩写“VT”，技术人员可能用得多些。

3）麦克风阵列（Microphone Array）

A）需求背景：在会议室、户外、商场等各种复杂环境下，会有噪音、混响、人声干扰、回声等各种问题。特别是远场环境，要求拾音麦克风的灵敏度高，这样才能在较远的距离下获得有效的音频振幅，同时近场环境下又不能爆音（振幅超过最大量化精度）。另外，家庭环境中的墙壁反射形成的混响对语音质量也有不可忽视的影响。

B）定义：由一定数目的声学传感器（一般是麦克风）组成，用来对声场的空间特性进行采样并处理的系统。

比如地图功能，由于POI（Point of Interest，兴趣点，指地理位置数据）数据量太大，直接到云端搜索可能更方便（除非是“家”、“公司”等个性化场景）。比如，用户说“从武汉火车站到东福”，可以被纠正为“从武汉火车站到东湖”。

各家公司在宣传时，会说语音识别率达到了97%，甚至98%，但那一般是需要用户在安静环境下，近距离、慢慢的、认真清晰发音；而在一些实际场景，很可能还不够好的，比如——

1、比如在大家都认为相对容易做的翻译场景，其实也还没完全可用，台上演示是一回事，普通用户使用是另一回事；特别是在一些垂直行业，领域知识很容易出错；另外，还可详见《怼一怼那些假机器同传》

大概3、4年前，我们内部做过针对车载场景的语言助手demo，拿到真实场景内去验证，结果发现，车内语音识别效果非常不理想。而且直到今年，我曾经面试过一位做车内语音交互系统的产品经理，发现他们的验收方其实也没有特别严格的测试，因为大家都知道，那样怎么也通过不了。。。

车内语音识别的难点很多，除了多人说话的干扰，还有胎噪、风噪，以及经常处于离线情况。

据说有的公司专门在做车内降噪，还有些公司想通过智能硬件来解决，至少目前好像还没有哪个产品解决好了这个问题，并且获得了用户的口碑称赞的。

3、家庭场景，由于相对安静和可控，如果远场做好了，还是有希望的。

特别在听歌场景，用户说想听某首英文歌时，很容易识别错误的。这方面，只有傅盛的小雅音箱据说做了很多优化，有待用户检验。

总之，ASR是目前AI领域，相对最接近商用成熟的技术，但还是需要用户可以配合AI在特定场景下使用。这是不是问题呢？是问题，但其实不影响我们做产品demo和初步的产品化工作，所以反而是我们AI产品经理的发挥机会。

1、远场语音识别，是最近2年的重要竞争领域。因为家庭（音箱）等场景有可能做好、在被催熟。

2、更好的机会在垂直细分领域，比如方言（方言识别能够支持40多种，而百度有20多种）、特定人群的声学匹配方案（儿童）

最后，用一张图总结语音识别用于人机交互中的几个难点。

上一篇:语音箱为什么没有声音语音说话没声音了是怎么回事

上一篇:语音蓝牙音箱推荐价比高微信收钱怎么用蓝牙音箱播报语音

一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

语音识别的能指标主要有语音识别文件的语音识别系统的性能指标

一、语音识别文件的语音识别系统的性能指标

二、国内大多数语音识别技术商都在什么地方

三、语音识别中的ASR技术通识 2019-12-06

6s续航和6对比(6和6s的区别)

索尼复古相机df？尼康单反相机怎么分等级

红米note4 sim卡(红米note4x如何装卡)

自组无人机装什么镜头(自组无人机怎么配大疆原厂摇控器)

ios小米手环自定义，小米手环7怎么绑定iOS

自做存储销系统(C语言做个小型商品销售管理系统)

语音识别的能指标主要有 语音识别文件的语音识别系统的性能指标

一、语音识别文件的语音识别系统的性能指标

二、国内大多数语音识别技术商都在什么地方

三、语音识别中的ASR技术通识 2019-12-06

6s续航和6对比(6和6s的区别)

索尼复古相机df？尼康单反相机怎么分等级

红米note4 sim卡(红米note4x如何装卡)

自组无人机装什么镜头(自组无人机怎么配大疆原厂摇控器)

ios小米手环自定义，小米手环7怎么绑定iOS

自做存储销系统(C语言做个小型商品销售管理系统)

语音识别的能指标主要有语音识别文件的语音识别系统的性能指标