为提升在线语音识别效率,他创造了两种升级版算法模型 - 阿里技术

近日,阿里算法专家坤承携《使用改进版本的LATENCY-CONTROLLED BLSTM 算法模型提升在线语音识别效率》(IMPROVING LATENCY-CONTROLLED BLSTM ACOUSTIC MODELS FOR ONLINE SPEECH RECOGNITION)参与ICASSP2017大会。

论文作者坤承与参会者交流

论文研究的出发点在于,为了能够取得更好的语音识别准确率,在声学模型建模中使用了Latency-controlled BLSTM 模型。

详见95188:BLSTM-DNN hybrid语音识别声学模型的第一个工业应用

https://yq.aliyun.com/articles/2308?spm=5176.100240.searchblog.7.zWq29M

与标准的BLSTM使用整句语音进行训练和解码不同,Latency Control BLSTM使用类似truncated BPTT的更新方式,并在cell中间状态处理和数据使用上有着自己的特点,如下图所示:

训练时每次使用一小段数据进行更新,数据由中心chunk和右向附加chunk构成,其中右向附加chunk只用于cell中间状态的计算,误差只在中心chunk上进行传播。时间轴上正向移动的网络,前一个数据段在中心chunk结束时的cell中间状态被用于下一个数据段的初始状态,时间轴上反向移动的网络,每一个数据段开始时都将cell中间状态置为0。该方法可以很大程度上加快网络的收敛速度,并有助于得到更好的性能。解码阶段的数据处理与训练时基本相同,不同之处在于中心chunk和右向附加chunk的维度可以根据需求进行调节,并不必须与训练采用相同配置。LC-BLSTM的优点在于能够在可接受的解码延迟下保持BLSTM声学模型的识别准确率,从而使得BLSTM可以被用于在线语音识别服务。

LC-BLSTM的上述优点是以增加计算量为代价的,为了取得更好的识别准确率,在解码时通常需要比较长的右向附加chunk,这会增加额外的计算资源消耗,提高计算成本。如下图所示,右向附加chunk也是使用BLSTM进行计算,在Nc=30,Nr=30的情况下,计算量将是传统BLSTM的两倍。

本论文的主要贡献在于提出了两种改进的LC-BLSTM模型,在基本保持识别准确率的同时,能够降低解码时的计算量。这样可以降低计算成本,一台服务器可以支持的并发数将会是原来的1.5到2倍。

我们提出的第一种改进方法如下图所示,主要的改进在于右向chunk的计算。

首先对于时间轴上正向移动的LSTM,我们去掉了右向chunk部分的计算。而对于时间轴上反向移动的LSTM,右向chunk部分的计算主要是为中心chunk提供cell的初始状态,我们简化了这部分的计算,使用正向全连接来代替LSTM,将f()的输出取平均后作为中心chunk的初始状态。以上改进大大降低了模型的计算量,switchboard数据集上的实验结果如下表所示,在基本保持识别准确率的同时,可以使解码速度提升40%以上。

我们提出的第二种改进方法如下图所示,首先对于时间轴上正向移动的LSTM,我们同样去掉了右向chunk部分的计算。

另外我们发现对于BLSTM模型,时间轴上反向传播的LSTM不如时间轴上正向传播的LSTM重要,因此我们使用简单RNN模型来代替时间轴上反向传播的LSTM,简单RNN的模型计算量比LSTM小得多,因此如此改进以后模型的计算速度也会大大加快,switchboard上的实验结果表明,在轻微损失识别率的情况下,可以使解码速度提升60%以上。

免费下载完整版论文:http://download.taobaocdn.com/freedom/42562/pdf/p1bbah8vsqfhef711bcs1jqt14k54.pdf
2017云栖大会开放报名了!
3月29日,2017云栖大会将于深圳举行。据云栖大会官网,云计算人工智能技术在医疗、制造领域的应用进展成为大会关注焦点,阿里云总裁胡晓明、英特尔执行副总裁柏安娜、阿里云首席科学家周靖人等将做主题演讲。

大会官网显示,今年大会主题为“飞天•智能”,总共呈现2天生态大展,近40场技术和行业论坛,100+分享嘉宾。主论坛聚焦“智能”议题。据了解,“飞天”是中国自主研发的大规模计算操作系统,目前正在为全球200多个国家和地区提供计算服务。

目前报名参会还有机会获得全球领先基因检测产品免费体验资格。

点击文末“阅读原文”,即可报名参与。

2