Learning Alignment for Multimodal Emotion Recognition from Speech

2020-滴滴公司

首次将speech和text进行对齐

一条路径直接从音频编码中抽取特征，另一条路径使用ASR系统来生成文本并且转换为embedding。

对音频信号\([x_1,\cdots,x_N]\)用双向LSTM编码（frames：window=20ms，shifted=10ms）,隐状态输出为\(S_i=[\overrightarrow {s}_i, \overleftarrow {s}_{N-i+1} ]\)，用Google Cloud Speech API做ASR，输入文本\([e_1,\cdots,e_N]\)，用双向LSTM编码得到隐状态输出为\(h_j=[\overrightarrow{h}_j,\overleftarrow{h}_{M-j+1}]\)。将音频和文本隐状态输入到Attention Layer： \(\begin{align*} & a_{j,i}=\mathbb {tanh}(u^Ts_i+v^Th_j+b)，u和v是可训练参数\\ & a_{j,i}=\frac{e^{a_{j,i}}}{\sum_{t=1}^Ne^{a_{j,i}}}，softmax\\ & \tilde{s}_j=\sum_ia_{j,i}s_i，对于词语j，将它与所有音频的特征进行attention加权 \end{align*}\) 将经过音频文本融合的\(\tilde {s}_j\)与原文本隐状态连接\([\tilde{s}_j,h_J]\)，输入到双向LSTM，得到\(c_j\)，经过最大池化和FC之后，用softmax分类。

音频特征用Python库pyAudioAnalysis提取，词嵌入用300维GloVe embedding作为预训练。

- 剑杪 -

目录

语音情感识别的对齐

Learning Alignment for Multimodal Emotion Recognition from Speech

「欢迎留言」：

目录

语音情感识别的对齐

Learning Alignment for Multimodal Emotion Recognition from Speech​

也许你还想看看...

多模态表示与单模态表示共同训练

「欢迎留言」：

Learning Alignment for Multimodal Emotion Recognition from Speech