云从科技刷新一项语音识别纪录:将 Librispeech 数据集上的错词率降至 2.97%

  • 时间:
  • 浏览:62

  雷锋网(公众号:雷锋网) AI 科技评论按:10 月 29 日,云从科技宣布在全球最大的开源语音识别数据集 Librispeech 上,将错词率(Worderrorrate,WER)降到了 2.97%,并将 Librispeech 的 WER 指标提升了 25%,超过阿里、百度、约翰霍普金斯大学等企业及高校,刷新了原先记录。

  Librispeech 是当前衡量语音识别技术的最权威主流的开源数据集,错词率(Worderrorrate,WER)是衡量语音识别技术水平的核心指标。

  宝盈娱乐

  DS2:百度,ESPnet:约翰霍普金斯大学,DFSMN-CE:阿里

  云从科技在 Librispeech 数据集上将错词率(Worderrorrate,WER)降到了 2.97%,较之前提升了 25%。这项成果有利于语音识别技术的进步,也有助于推动语音识别带来良好的智慧交互体验。

  云从科技此次推出的语音识别模型 Pyramidal-FSMN 融合图像识别与语音识别的优势,将残差卷积网络和金字塔记忆模块的序列记忆网络相结合, 能够同时有效的提取空间和时间上不同粒度的信息,对比目前业界使用最为广泛的 LSTM 模型,训练速度更快、识别准确率更高。

  2017 年 3 月,IBM 结合了 LSTM 模型和带有 3 个强声学模型的 WaveNet 语言模型。「集中扩展深度学习应用技术终于取得了 5.5% 错词率的突破」。相对应的是去年 5 月的 6.9%。

  2017 年 8 月,微软发布新的里程碑,通过改进微软语音识别系统中基于神经网络的听觉和语言模型,在去年基础上降低了大约 12% 的出错率,错词率为 5.1%,声称超过专业速记员。相对应的是去年 10 月的 5.9%,声称超过人类。

  2017 年 12 月,谷歌发布全新端到端语音识别系统(State-of-the-art Speech Recognition With Sequence-to-Sequence Models),错词率降低至 5.6%。相对于强大的传统系统有 16% 的性能提升。

  2018 年 6 月,阿里巴巴达摩院推出了新一代语音识别模型 DFSMN,将全球语音识别准确率纪录提高至 96.04%,错词率降低至 3.96%。

  2018 年 10 月,云从科技发布全新 Pyramidal-FSMN 语音识别模型,将错词率(Worderrorrate,WER)降低至 2.97%,较之前提升了 25%。

  云从科技提出的新型网络结构,能更加有效的提取空间和时间特征的角度,为语音识别进一步发展提供了一些新的思路:

  如下图所示,作者采用了由 6 层 Residual CNN 和 10 层 Pyramidal-FSMN 相结合的网络结构。前端网络借鉴了图像识别中经典的 Residual CNN 结构,更有效地提取特征与时间相互的关联信息,同时 skip connection 避免了 CNN 网络加深之后梯度消失和梯度爆炸问题。在金字塔记忆模块中,浅层的网络主要聚焦于音素本身的特征学习,所以只需抽取短时上下文信息,而深层的网络由于已经学习到了足够的固定时间的音素信息,需要学习长时间包括语义和语法特征,所以深层抽取长时间的上下文信息。利用这样的金字塔结构,既能减少参数,缩小模型结构,也能更加精巧的模拟人类处理语音信号的过程,提高识别效果。

  

  在损失函数部分,作者采用了基于 LF-MMI 的宝盈娱乐官网序列性训练方式。同时为了解决序列性训练容易导致过拟合的问题,又引入了传统的交叉熵损失函数,在 LF-MMI 输出之外加入另一个输出层作为一个正则技术,通过设置交叉熵的正则化系数,两个目标能够有效地学习并且避免过拟合问题。

  最后,作者使用了 RNNLM rescoring 技术对解码做进一步处理。在没有 RNNLM rescoring 的情况下,Pyramidal-FSMN 已经达到了目前最好的结果,rescoring 之后又有了更进一步的提升。

  声学模型和 RNNLM 的训练数据完全基于 Librispeech 和通用的语言模型数据集,并没有额外引入其他的训练数据这样的「技巧」性策略。

  论文地址:https://arxiv.org/abs/1810.11352

  相关介绍:

  LibriSpeech 数据集:世界最大的免费语音识别数据库,包含文本和语音的有声读物数据集,由 1000 小时的多人朗读的清晰音频组成,且包含书籍的章节结构。雷锋网雷锋网

  雷锋网原创文章,未经授权禁止转载。详情见转载须知。


宝盈娱乐官网 宝盈娱乐 宝盈娱乐

猜你喜欢