[AI][Kaldi] ASR 語音模型訓練教學 (基於 THCHS-30 )

--

訓練檔下載位址:http://www.openslr.org/18/
(檔案約8.5g,加上解壓縮後約11g左右)

下載完後,請放置本機Kaldi的指定目錄下,並解壓縮:(需新建thchs30-openslr資料夾)

~/(路徑)/kaldi/egs/thchs30/s5/thchs30-openslr/

再把「resource」「test-noise」兩個資料夾再多複製一份到「data_thchs30」裡面,原因是避免script指定位址有誤…

編輯script:

一、修改cmd.sh ,為本機執行訓練

#export train_cmd=queue.pl
#export decode_cmd="queue.pl --mem 4G"
#export mkgraph_cmd="queue.pl --mem 8G"
#export cuda_cmd="queue.pl --gpu 1"
export train_cmd=run.pl
export decode_cmd="run.pl"
export mkgraph_cmd="run.pl"
export cuda_cmd="run.pl"

二、修改run.sh

指定對應訓練資料夾:

thchs=/home/charlie/smartoffice/kaldi/egs/thchs30/s5/thchs30-openslr

之後就可以執行命令指令

sh run.sh

如果依照上面步驟都沒問題,那就恭喜!最後訓練結果都會存到「exp」資料夾,檢查其中三個主要檔案final.mdl、words.txt、HCLG.fst,若都有產出應該就沒問題了!
(下面是安裝過程中發生一些狀況說明)

問題收集:

小的在做這組語料訓練狀況特別多,所以弄了一整天,也把一些狀況收集起來,當成自己的筆記,也讓後面想自己訓練語音的人可以少走冤枉路。

問題1:遇到「cp: cannot stat ‘xxxxxx’: No such file or directory」的訊息

請改為手動複製資料夾裡的檔案,到指定目標資料夾下貼上(無目錄就新建資料夾),並且把原本script裡的執行指令註解掉,再繼續進行!

run.sh

複製這四個資料夾到mfcc
複製這四個檔案到dict_phone
複製這四個檔案到dict
data裡自建資料夾有這些
  1. 「~/smartoffice/kaldi/egs/thchs30/s5/data/」
  2. source/dict/ 到 data/lang

問題2:出現以下可以忽略

steps/make_mfcc.sh: [info]: no segments file exists: assuming wav.scp indexed by utterance.

This is not an error, just a statement of fact.

--

--

Charlie Chen (陳慶裕)
Charlie Chen (陳慶裕)

No responses yet