- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

Kaldi的HCLG构图过程可视化

作家小然发表于 2020/09/28 19:47:59 2020/09/28

【摘要】本文希望通过简单的中文三句话，将整个过程：构建语言模型（G.fst），发音词典模型（L.fst），以及合并的模型（LG.fst和CLG.FST），生成HMM模型（H.fst），最终合并、确定、最小化得到HCLG.fst，并将其中的WFST模型进行可视化。

基于DNN-HMM的语音识别系统，需要在深度网络的推理之后外接解码来实现最后的语句识别，相关的语音识别理论基础不在此赘述，需要简单描述的是，解码实际上是得到音素状态转移的声学判决后，在一个HMM模型（H），Context Dependent Phone（C），Lexicon（L）和语言模型（G）合并的WFST（Weighted Finite-State Transducers，加权有限状态机）上进行路径寻优。WFST的基本概念和操作请查看：从WFST到语音识别 [https://bbs.huaweicloud.cn/blogs/183442]

本文希望通过简单的中文三句话，将整个HCLG的过程：构建语言模型（G.fst），发音词典模型（L.fst），以及合并的模型（LG.fst和CLG.FST），生成HMM模型（H.fst），最终合并、确定、最小化得到HCLG.fst，展现并将其中的WFST模型进行可视化。

索引

1. 语料准备

2. 构建语法模型（G.fst）

3. 构建发音词典模型（L.fst）

4. 合并发音词典与语法模型（LG.fst）

5. 确定化发音词典与语法模型（det-LG.fst）

6. 构建上下文模型与发音词典模型、语法模型（CLG.fst）

7. 构建HMM模型（H.fst）

8. 合并HMM模型，上下文模型、发音词典模型、语法模型（HCLG.fst）

1. 语料准备

1.1 文本语料与发音词典

train.txt ：经过分词的中文语料

语音 识别 技术
语音 识别 算法 公式
作战 防御 工事

注：（1）第一句的和第二句均出现“语音识别”，为观察相同“语音识别”在模型中存储的情况；（2）第二句的”公式“和第三句的”工事“输入同音异形词，它们的的音素（包括声调）序列完全一致。

lexicon.txt：发音词典文件

!SIL SIL
<SPOKEN_NOISE> SPN
<SPOKEN_NOISE> sil
<UNK> SPN
语音 vv v3 ii in1
识别 sh ix2 b ie2
技术 j i4 sh u4
算法 s uan4 f a3
公式 g ong1 sh ix4
作战 z uo4 zh an4
防御 f ang2 vv v4
工事 g ong1 sh ix4

1.2 语言模型（APRA）训练

执行命令统计1元词频，获取到1元语法模型，如下所示，获得2元语法模型和3元语法模型。

ngram-count -text train.txt -order 1 -write train-1gram.count
ngram-count -text train.txt -order 2 -write train-2gram.count
ngram-count -text train.txt -order 3 -write train-3gram.count
ngram-count -read train-1gram.count -order 1 -lm train-1gram.arpa
ngram-count -read train-2gram.count -order 2 -lm train-2gram.arpa
ngram-count -read train-3gram.count -order 3 -lm train-3gram.arpa

注：训练步骤详见：使用Srilm训练N-gram语言模型 [https://bbs.huaweicloud.cn/blogs/183445]

2. 构建语法模型（G.fst）

2.1 arpa转fst

执行命令将arpa格式1元语法模型转换为fst格式。如下所示，获得2元语法模型和3元语法模型。

/home/sine/kaldi/src/lmbin/arpa2fst --disambig-symbol=#0 --read-symbol-table=words.txt train-1gram.arpa G-1gram.fst
/home/sine/kaldi/src/lmbin/arpa2fst --disambig-symbol=#0 --read-symbol-table=words.txt train-2gram.arpa G-2gram.fst
/home/sine/kaldi/src/lmbin/arpa2fst --disambig-symbol=#0 --read-symbol-table=words.txt train-3gram.arpa G-3gram.fst

2.2 语法模型可视化

执行如下命令将语法模型fst文件输出为dot格式文件：

/home/sine/kaldi/tools/openfst/bin/fstdraw --isymbols=words.txt --osymbols=words.txt G-1gram.fst > G-1gram.dot
/home/sine/kaldi/tools/openfst/bin/fstdraw --isymbols=words.txt --osymbols=words.txt G-2gram.fst > G-2gram.dot
/home/sine/kaldi/tools/openfst/bin/fstdraw --isymbols=words.txt --osymbols=words.txt G-3gram.fst > G-3gram.dot

注：其中--osymbols=words.txt指定了fst的输出标识，words.txt的生成见发音词典模型的构建中dict与lang文件的生成，鉴于大流程（HCLG）的统一，words.txt文件需要提前生成，请先移步3.2。

由于默认的dot文件定义的图像大小为：size:"8.5,11"，需要改变其大小，size=“20,32”。

vim G-1gram.dot

digraph FST {
rankdir = LR;
size = "20,32";
label = "";
center = 1;
orientation = Landscape;
ranksep = "0.4";
nodesep = "0.25";
0 [label = "0/1.4663", shape = doublecircle, style = bold, fontsize = 14]
        0 -> 0 [label = "作战:作战/2.5649", fontsize = 14];
        0 -> 0 [label = "公式:公式/2.5649", fontsize = 14];
        0 -> 0 [label = "工事:工事/2.5649", fontsize = 14];
        0 -> 0 [label = "技术:技术/2.5649", fontsize = 14];
        0 -> 0 [label = "算法:算法/2.5649", fontsize = 14];
        0 -> 0 [label = "识别:识别/1.8718", fontsize = 14];
        0 -> 0 [label = "语音:语音/1.8718", fontsize = 14];
        0 -> 0 [label = "防御:防御/2.5649", fontsize = 14];
}

分别编辑并保存1元，2元和3元语法模型的dot文件，执行如下命令输入图片：

dot -Tjpg G-1gram.dot > G-1gram.jpg
dot -Tjpg G-2gram.dot > G-2gram.jpg
dot -Tjpg G-3gram.dot > G-3gram.jpg

语法模型图像如下：

G-1gram.jpg

G-2gram.jpg

G-3gram.jpg

3. 构建发音词典模型（L.fst）

3.1 手动构造dict目录

手动创建dict文件夹，生成如下7个文件：

发音词典文件：lexicon.txt，复制如上所述文件。

发音词典概率文件：lexiconp.txt，即在lexicon.txt文件中词语与音素序列之间添加1。

!SIL 1 SIL
<SPOKEN_NOISE> 1 SPN
<SPOKEN_NOISE> 1 sil
<UNK> 1 SPN
语音 1 vv v3 ii in1
识别 1 sh ix2 b ie2
技术 1 j i4 sh u4
算法 1 s uan4 f a3
公式 1 g ong1 sh ix4
作战 1 z uo4 zh an4
防御 1 f ang2 vv v4
工事 1 g ong1 sh ix4

音素问题划分文件：extra_question.txt，相同声调的不同音素放在一行，分组排列。

SIL SPN
vv ii sh b j s f g z zh
in1 ong1
ix2 ie2 ang2
v3 a3
v4 ix4 i4 u4 uan4 uo4 an4

非静音音素文件：nonsilence_phones.txt

vv
v3 v4
ii
in1
sh
ix2 ix4
b
ie2
j
i4
u4
s
uan4
f
a3
g
ong1
z
uo4
zh
an4
ang2
sil

静音音素文件：silence_phones.txt

SIL
SPN

可选静音音素文件：optional_silence.txt

SIL

静音音素概率文件：silprob.txt，概率值来源于历史训练数据。

<s> 0.97
</s>_s 2.25287275463452
</s>_n 0.0751953756044114
overall 0.31

3.2 lang文件夹与发音词典模型生成

使用kaldi脚本生成lang文件目录及相关文件。

cd /home/sine/kaldi/egs/wsj/s5
utils/prepare_lang.sh /home/sine/ngram-test/data/dict "<UNK>" /home/sine/ngram-test/data/lang_tmp /home/w00423660/ngram-test/data/lang

在data/lang目录下的到L.fst和L_disambig.fst，其中L_disambig.fst为添加了消歧音素的发音词典模型。另外，还得到上述步骤需要的words.txt，以及后续步骤需要的topo、phones.txt、phones/disambig.int文件。

3.3 发音词典模型可视化

执行如下命令将发音词典模型fst输出为dot格式文件：

/home/sine/kaldi/tools/openfst/bin/fstdraw --isymbols=phones.txt --osymbols=words.txt L.fst > L.dot
/home/sine/kaldi/tools/openfst/bin/fstdraw --isymbols=phones.txt --osymbols=words.txt L_disambig.fst > L_disambig.dot

修改dot文件中的的size属性：

L.dot：size = "25,40"
L_disambig.dot：size = "25,40"

执行dot命令输出图片：

dot -Tjpg L.dot > L.jpg
dot -Tjpg L_disambig.dot > L_disambig.jpg

发音词典模型图像如下：

L.jpg

L_disambig.jpg

4. 合并发音词典与语法模型（LG.fst）

4.1 LdG.fst模型生成

执行如下命令将L_disambig.fst分别与G-Ngram.fst合并，输出合并的LdG-Ngram.fst模型，同样的，可以将L.fst分别于G-Ngram.fst合并，得到对应的LG-Ngram.fst。

/home/sine/kaldi/tools/openfst/bin/fstcompose L_disambig.fst G-1gram.fst LdG-1gram.fst
/home/sine/kaldi/tools/openfst/bin/fstcompose L_disambig.fst G-2gram.fst LdG-2gram.fst
/home/sine/kaldi/tools/openfst/bin/fstcompose L_disambig.fst G-3gram.fst LdG-3gram.fst
/home/sine/kaldi/tools/openfst/bin/fstcompose L.fst G-1gram.fst LG-1gram.fst
/home/sine/kaldi/tools/openfst/bin/fstcompose L.fst G-2gram.fst LG-2gram.fst
/home/sine/kaldi/tools/openfst/bin/fstcompose L.fst G-3gram.fst LG-3gram.fst

4.1 LdG.fst模型可视化

执行如下命令合并的LdG-Ngram.fst输出为dot格式文件：

/home/sine/kaldi/tools/openfst/bin/fstdraw --isymbols=phones.txt --osymbols=words.txt LdG-1gram.fst > LdG-1gram.dot
/home/sine/kaldi/tools/openfst/bin/fstdraw --isymbols=phones.txt --osymbols=words.txt LdG-2gram.fst > LdG-2gram.dot
/home/sine/kaldi/tools/openfst/bin/fstdraw --isymbols=phones.txt --osymbols=words.txt LdG-3gram.fst > LdG-3gram.dot

修改dot文件中的的size属性：

LdG-1gram.dot：size = "30,48"
LdG-2gram.dot：size = "300,48"
LdG-3gram.dot：size = "300,48"

执行dot命令输出图片：

dot -Tjpg LdG-1gram.dot > LdG-1gram.jpg
dot -Tjpg LdG-3gram.dot > LdG-2gram.jpg
dot -Tjpg LdG-3gram.dot > LdG-3gram.jpg

合并的LdG-Ngram.fst模型图像如下：

LG-1gram.jpg

LG-2gram.jpg

LG-3gram.jpg

注：LG-Ngram.fst的可视化命令同上所述。

5. 确定化发音词典与语法模型（det-LG.fst）

5.1 确定化LG.fst模型

执行如下命令将LdG-Ngram模型进行确定化（determinize）

/home/sine/kaldi/tools/openfst/bin/fstdeterminize LdG-1gram.fst > det-LdG-1gram.fst
/home/sine/kaldi/tools/openfst/bin/fstdeterminize LdG-2gram.fst > det-LdG-2gram.fst
/home/sine/kaldi/tools/openfst/bin/fstdeterminize LdG-3gram.fst > det-LdG-3gram.fst

5.2 确定化LG.fst模型可视化

使用上述与LdG.fst模型可视化相同的命令，将fst模型转为dot格式文件，修改对应dot文件中的size大小（相同）。使用dot命令输出图片。

确定化的合并的det-LdG-Ngram.fst模型图像如下：

6. 构建上下文模型与发音词典模型、语法模型（CLG.fst）

6.1 合并上下文模型与LG.fst模型

执行如下命令构建CLdG-Ngram.fst模型。

/home/sine/kaldi/src/fstbin/fstcomposecontext --context-size=1 --central-position=0  --read-disambig-syms=lang/phones/disambig.int --write-disambig-syms=disambig_ilabels.int disambig_ilabels < ../LdG-1gram.fst > CLdG-1gram.fst
/home/sine/kaldi/src/fstbin/fstcomposecontext --context-size=1 --central-position=0  --read-disambig-syms=lang/phones/disambig.int --write-disambig-syms=disambig_ilabels.int disambig_ilabels < ../LdG-2gram.fst > CLdG-2gram.fst
/home/sine/kaldi/src/fstbin/fstcomposecontext --context-size=1 --central-position=0  --read-disambig-syms=lang/phones/disambig.int --write-disambig-syms=disambig_ilabels.int disambig_ilabels < ../LdG-3gram.fst > CLdG-3gram.fst

注：（1）其中的--context-size=1 --central-position=0选项表示，单音素模型，中间音素位置为0；（2）其中输入文件lang/phones/disambig.int来自上述3.2 lang文件夹与发音词典模型生成中产生的文件，输入文件LdG-Ngram.fst来自于上一步合并的LdG-Ngram.fst模型。

6.2 上下文CLG.fst模型可视化

使用上述与LdG.fst模型可视化相同的命令，将fst模型转为dot格式文件，修改对应dot文件中的size大小（相同）。使用dot命令输出图片。

构建的上下文模型与发音词典模型、语法模型CLdG-Ngram.fst模型图像如下：

CLdG-1gram.jpg

CLdG-2gram.jpg

CLdG-3gram.jpg

7. 构建HMM模型（H.fst）

7.1 单音素GNMM-HMM模型与Ha.fst生成

构建HMM模型，需要先初始化定义GMM-HMM结构，确定音素绑定树结构，执行如下命令，生成初始化的GMM-HMM模型（gmm-init.mdl），和音素绑定树（phone.tree）。

/home/sine/kaldi/src/gmmbin/gmm-init-mono lang/topo 40 gmm-init.mdl phone.tree

执行如下命令，构建Ha.fst模型

/home/sine/kaldi/src/bin/make-h-transducer --disambig-syms-out=disambig_tid.int disambig_ilabels phone.tree gmm-init.mdl > Ha.fst

注：（1）其中gmm-init-mono是生成单音素GMM模型，和上一步操作的--context-size=1 --central-position=0选项对应，gmm-init-model对应生成三音素GMM模型，对应的选项为--context-size=3 --central-position=1；（2）Ha.fst中的a表示没有自环（self-loop）。

7.2 Ha.fst模型可视化

执行如下命令，将Ha.fst模型输出为dot格式文件：

/home/sine/kaldi/tools/openfst/bin/fstdraw --osymbols=phones.txt Ha.fst > Ha.dot

修改dot文件中的的size属性：

Ha.dot：size = "30,48"

执行dot命令输出图片：

dot -Tjpg Ha.dot > Ha.jpg

Ha.jpg

8. 合并HMM模型，上下文模型、发音词典模型、语法模型（HCLG.fst）

8.1 合并Ha.fst模型与CLdG-Ngram.fst模型

执行如下命令，合并Ha.fst与CLdG-Ngram.fst模型：

/home/sine/kaldi/src/fstbin/fsttablecompose Ha.fst CLdG-1gram.fst > HaCLdG-1gram.fst
/home/sine/kaldi/src/fstbin/fsttablecompose Ha.fst CLdG-2gram.fst > HaCLdG-2gram.fst
/home/sine/kaldi/src/fstbin/fsttablecompose Ha.fst CLdG-3gram.fst > HaCLdG-3gram.fst

执行如下命令，确定化HaCLdG.fst模型：

/home/sine/kaldi/src/fstbin/fstdeterminizestar HaCLdG-1gram.fst > det-HaCLdG-1gram.fst
/home/sine/kaldi/src/fstbin/fstdeterminizestar HaCLdG-2gram.fst > det-HaCLdG-2gram.fst
/home/sine/kaldi/src/fstbin/fstdeterminizestar HaCLdG-3gram.fst > det-HaCLdG-3gram.fst

执行如下命令，去除HaCLdG.fst模型中与消歧相关的转移：

/home/sine/kaldi/src/fstbin/fstrmsymbols data/disambig_tid.int det-HaCLdG-1gram.fst > det-HaCLG-1gram.fst
/home/sine/kaldi/src/fstbin/fstrmsymbols data/disambig_tid.int det-HaCLdG-2gram.fst > det-HaCLG-2gram.fst
/home/sine/kaldi/src/fstbin/fstrmsymbols data/disambig_tid.int det-HaCLdG-3gram.fst > det-HaCLG-3gram.fst

det-HaCLG-1gram.jpg

det-HaCLG-2gram.jpg

det-HaCLG-3gram.jpg

执行如下命令，最小化HaCLG.fst模型：

/home/sine/kaldi/tools/openfst/bin/fstminimize det-HaCLG-1gram.fst > min-det-HaCLG-1gram.fst
/home/sine/kaldi/tools/openfst/bin/fstminimize det-HaCLG-2gram.fst > min-det-HaCLG-2gram.fst
/home/sine/kaldi/tools/openfst/bin/fstminimize det-HaCLG-3gram.fst > min-det-HaCLG-3gram.fst

执行如下命令，为HaCLG.fst模型添加自环：

/home/sine/kaldi/src/bin/add-self-loops --self-loop-scale=0.1 --reorder=true data/gmm-init.mdl < min-det-HaCLG-1gram.fst > min-det-HCLG-1gram.fst
/home/sine/kaldi/src/bin/add-self-loops --self-loop-scale=0.1 --reorder=true data/gmm-init.mdl < min-det-HaCLG-2gram.fst > min-det-HCLG-2gram.fst
/home/sine/kaldi/src/bin/add-self-loops --self-loop-scale=0.1 --reorder=true data/gmm-init.mdl < min-det-HaCLG-3gram.fst > min-det-HCLG-3gram.fst

8.2 min-det-HCLG-Ngram.fst模型可视化

执行如下命令合并的LdG-Ngram.fst输出为dot格式文件：

/home/sine/kaldi/tools/openfst/bin/fstdraw --osymbols=words.txt min-det-HCLG-1gram.fst > min-det-HCLG-1gram.dot
/home/sine/kaldi/tools/openfst/bin/fstdraw --osymbols=words.txt min-det-HCLG-2gram.fst > min-det-HCLG-2gram.dot
/home/sine/kaldi/tools/openfst/bin/fstdraw --osymbols=words.txt min-det-HCLG-3gram.fst > min-det-HCLG-3gram.dot

修改dot文件中的的size属性：

min-det-HCLG-1gram.dot：size = "300,48"
min-det-HCLG-2gram.dot：size = "300,48"
min-det-HCLG-3gram.dot：size = "300,48"

执行dot命令输出图片：

dot -Tjpg min-det-HCLG-1gram.dot > min-det-HCLG-1gram.jpg
dot -Tjpg min-det-HCLG-2gram.dot > min-det-HCLG-2gram.jpg
dot -Tjpg min-det-HCLG-3gram.dot > min-det-HCLG-3gram.jpg

最终的min-det-HCLG-Ngram.fst模型图像如下：

min-det-HCLG-1gram.jpg

注：受限于图片大小，此处未放置2gram和3gram的HCLG最终图像。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

Kaldi的HCLG构图过程可视化

索引

1. 语料准备

2. 构建语法模型（G.fst）

3. 构建发音词典模型（L.fst）

4. 合并发音词典与语法模型（LG.fst）

5. 确定化发音词典与语法模型（det-LG.fst）

6. 构建上下文模型与发音词典模型、语法模型（CLG.fst）

7. 构建HMM模型（H.fst）

8. 合并HMM模型，上下文模型、发音词典模型、语法模型（HCLG.fst）

1. 语料准备

1.1 文本语料与发音词典

1.2 语言模型（APRA）训练

2. 构建语法模型（G.fst）

2.1 arpa转fst

2.2 语法模型可视化

3. 构建发音词典模型（L.fst）

3.1 手动构造dict目录

3.2 lang文件夹与发音词典模型生成

4. 合并发音词典与语法模型（LG.fst）

4.1 LdG.fst模型生成

4.1 LdG.fst模型可视化

5. 确定化发音词典与语法模型（det-LG.fst）

5.1 确定化LG.fst模型

5.2 确定化LG.fst模型可视化

6. 构建上下文模型与发音词典模型、语法模型（CLG.fst）

6.1 合并上下文模型与LG.fst模型

6.2 上下文CLG.fst模型可视化

7. 构建HMM模型（H.fst）

7.1 单音素GNMM-HMM模型与Ha.fst生成

7.2 Ha.fst模型可视化

8. 合并HMM模型，上下文模型、发音词典模型、语法模型（HCLG.fst）

8.1 合并Ha.fst模型与CLdG-Ngram.fst模型

8.2 min-det-HCLG-Ngram.fst模型可视化

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品