您的当前位置：首页>资讯 > 正文

嘈杂场景语音识别准确率怎么提？脸书：看嘴唇

2022-01-10 17:48:06 来源：量子位

借助读唇语，人类能够更容易听懂他人的讲话内容，那么AI也能如此吗？

最近，Meta提出了一种视听版BERT，不仅能读唇语，还能将识别错误率降低75%。

效果大概就像如下这样，给一段视频，该模型就能根据人物的口型及语音输出他所说的内容。

而且与此前同类方法相比，它只用十分之一的标记数据，性能就能超过过去最好的视听语音识别系统。

这种结合了读唇的语音识别方法，对于识别嘈杂环境下的语音有重大帮助。

Meta的研究专家Abdelrahman Mohamed表示，该技术未来可用在手机智能助手、AR眼镜等智能设备上。

目前，Meta已将相关代码开源至GitHub。

自监督+多模态

Meta将该方法命名为AV-HuBERT，这是一个多模态的自监督学习框架。

多模态不难理解，该框架需要输入语音音频和唇语视频两种不同形式内容，然后输出对应文本。

Meta表示，通过结合人们说话过程中嘴唇和牙齿活动、语音方面的信息，AV-HuBERT可以捕捉到音频和视频间的微妙联系。

这和人类本身感知语言的模式很相似。

此前已经有研究表明，阅读唇语是人类理解语言的一种重要方式。尤其是在嘈杂的环境下，通过读唇可以将语言识别的准确性最高提升6倍。

在该模型中，通过一个ResNet-transformer框架可将掩码音频、图像序列编码为视听特征，从而来预测离散的集群任务序列。

具体来看，AV-HuBERT使用帧级同步的音频流和视频流作为输入，来更好地建模和提取两种模态之间的相关性。

图像序列和音频特征能够通过轻量级的模态特定编码器来产生中间特征，然后将这个中间特征融合并反馈到共享的主干transformer编码器中，以此来预测掩蔽聚类任务（masked cluster assignments）。

该目标是根据聚类音频特征或AV-HuBERT模型上一次迭代中提取的特征生成的。

当对唇读微调时，该模型只使用视觉输入、不使用音频输入。

结果表明，AV-HuBERT经过30个小时带有标签的TED演讲视频训练后，单词错误率（WER）为32.5%，而此前方法能达到的最低错误率为33.6%，并且此方法训练时间高达31000个小时。

WER是语音识别任务中的错误率指标，计算方法为将错误识别单词数除以总单词数，32.5%意味着大约每30个单词出现一个错误。

经过433个小时TED演讲训练后，错误率可进一步降低至26.9%。

另一方面，AV-HuBERT与前人方法最大不同之处在于，它采用了自监督学习方法。

此前DeepMind、牛津大学提出的方法中，由于需要对数据集打标签，使得可学习的词汇范围受到限制。

AV-HuBERT在预训练中使用特征聚类和掩蔽预测两个步骤不断迭代训练，从而实现自己学习对标记的数据进行分类。

这样一来，对于一些音频数据集很少的语言，AV-HuBERT也能很好学习。

在使用不到十分之一的标记数据（433小时/30小时）情况下，该方法可将识别错误率平均降低至此前方法的75%（25.8% vs 5.8%）。

事实上，在有噪音的环境中，能读唇语的语音识别方法更能大显身手。

Meta研究人员表示，当语音和背景噪音同样音量时，AV-HuBERT的WER仅为3.2%，而之前的最佳多模态模型为25.5%。

仍存在弊端

显然，在各方面数据上，Meta新方法的表现着实让人眼前一亮。

但是基于现实使用方面的考虑，有学者提出了一些担忧。

其中，华盛顿大学的人工智能伦理学专家Os Keye就提到，对于因患有唐氏综合征、中风等疾病而导致面部瘫痪的人群，依赖读唇的语音识别还有意义吗？

对此，Meta方面研究人员回应称，AV-HuBERT方法更多关注于唇部动作，并非整个面部。

而且与大多数AI模型类似，AV-HuBERT的性能“与训练数据中不同人群的代表性样本数量成正比”。

标签： hubert av 音频 meta 模态语音模型单词错误率聚类

一口500亿活性菌真能促消化？丨凰家实验室

喂，三点几嚟，喝口乳酸菌先啦。

俄媒：印度航天机构成功为其载人航天任务测试低温发动机

目前，仅有三个国家——美国、俄罗斯和中国拥有独立自主的载人航天能力。

现实版《钢铁侠》！山东首例人工心脏植入患者出院

他使用也是“中国造”人工心脏。

中小学生脊柱侧弯人数已超500万，这些不良习惯速改

刚刚通报！这里发现1例阳性

在我国内蒙古宁城县发现1.25亿年前“宁城中华草”

土星和木星携手月球，将于4月7日上演一出“双星伴月”好戏

我国车联网产业发展进入快车道，智能网联汽车数量快速增加

腾讯与奥迪宣布达成战略合作，“微信车载版”上线

“智慧大脑”一体化智能化大数据平台，为未来社区发展注入新动力

自动行驶机器人“RakuRo”亮相！全方位麦克和3D传感器加持

半导体厂商一季度业绩向好，国产替代进程加速

据预测：2025年，全球卫星网络接入设备将达2亿台套

我国海上风电总装机容量仅次于英国，位居第二

里程碑式突破！揭示高能宇宙线起源之谜

青海省开启“集控站+无人值守”运维新模式提高设备运行水平

安徽首个量子计算芯片联合实验室成立打造具有全球影响力的“量子中心”

航天科工新一代通信技术研究院落户重庆聚焦“制造+研发”深度融合

我国活体组织成像技术干细胞研究应用领域达世界先领先水平

加快推进“双千兆”网络建设，聚焦网络质量提升

英国Arm推出新一代芯片架构Arm v9：性能提升将超过30%

2021世界智能驾驶挑战赛，将于5月21日至23日在天津东丽湖举办

ASO-S“探日”有望于2022年发射升空！探索太阳磁场

超高速互联网将普及计算助力缩小数字鸿沟

1至2月，我国规模以上互联网企业完成业务收入同比增长达29%

数字化转型找准“方向感”，打造国内商业数字化发展高地

加快5G网络规模化部署，打造数字经济新优势

探索5G行业融合应用 5G专网将进一步推动融合应用发展

中国移动香港5G商用一周年开拓5G商业场景应用

早期宇宙爆发“照亮”神秘黑洞或解释对于其他黑洞族演化的影响

7709米！哈工程“悟空”号创中国AUV潜深新纪录

人工智能领域新算法发布数据传输更高效精准

科技创新技术加持，我国船舶制造已达到世界前列

我国5G网络要坚持适度超前原则，探索5G应用发展

我国汽车自动变速器技术创新按下“快进键” 加速行业转型升级

AMR智能物流机器人，推动汽车行业智慧物流应用和发展

小米11 Pro/Ultra支持67W无线闪充如何实现更高效的充电?

我国可再生能源技术装备水平大幅提升，开发利用规模稳居世界第一

吉利帝豪S正式开启预售 8.67万元-11.07万元

科技助力智能生活垃圾分类投放点全新亮相

“越野之王”15592牛·米是飞度的100倍纯电悍马SUV正式发布

《仙剑奇侠传》1、2、3登陆Steam：512MB内存可玩售价没有公布

第一门户搜索网站雅虎旗下知名问答平台“雅虎问答”将于5月4日关闭

乐视贾跃亭回国有望？FF已提交上市文件

国内首个“5G+北斗”高速公路智能护栏预警系统上线

LG宣布退出智能手机业务绝唱旗舰V70现身运行Android 11系统

新一轮科技革命和产业变革持续演进，提高制造业生产效率

“能联全球”平台正式发布，推动全球能源电力发展合作

网曝拯救者电竞手机2 Pro真机谍照：采用RGB呼吸灯

雷军开启个人第三场直播：小米进军智能电动汽车行业

700MHz 5G网络共建共享落地实施！着重建设5G“黄金频段”

2021年底，5G网络基本实现县级以上区域、部分重点乡镇覆盖

腾讯视频VIP官方正式宣布进行涨价国内头部视频平台将逐步提价

苹果文档曝光：新一代Apple TV将发布配置大幅升级

智能机器人完成多项智能巡视任务，作业效率提高三倍

猜您喜欢

【版权及免责声明】凡注明"转载来源"的作品，均转载自其它媒体，转载目的在于传递更多的信息，并不代表本网赞同其观点和对其真实性负责。亚洲科技网倡导尊重与保护知识产权，如发现本站文章存在内容、版权或其它问题，烦请联系。联系方式：8 86 239 5@qq.com，我们将及时沟通与处理。

嘈杂场景语音识别准确率怎么提？脸书：看嘴唇

推荐阅读

猜您喜欢

新闻更多>

资讯

创新

子站