用于中文语音合成的Merlin。本文,主要利用Merlin,合成中文语音。
为了测试方法是否可行,我们仅使用100条数据。待确认可行,再使用完整数据。
由于缺少中文前端,我们仅使用音素。
数据集:King_TTS
# 在dl44机器上执行
cd /home/train01/heyunchao/workspace/tacotron_3/tacotron/King_TTS_031_01subsel
scp -P 32658 01subsel.zip [email protected]:/root/workspace/TTS_DATA/King_TTS_031_01subsel
# 在cloudml deep-learning 2机器上执行
# 音频文件
cd /root/workspace/TTS_DATA/King_TTS_031_01subsel
unzip 01subsel.zip
# 文本文件
cd /root/workspace/TTS_DATA/King_TTS_031_01subsel
# upload from local PC
tar zxvf 01news.tar.gz
# 从音频(01news)、文本(01subsel)文件夹中各区100条数据保存到subset文件夹
mkdir -p subset/wav
mkdir -p subset/interval
for file in $(ls -p 01news | grep -v / | head -100)
do
cp 01news/$file subset/interval/
done
for file in $(ls -p 01subsel | grep -v / | head -100)
do
cp 01subsel/$file subset/wav/
done
我们需要将Praat格式的interval文件转为lab格式:
cd subset/
mkdir lab
python3 interval_2_lab.py interval lab
interval_2_lab.py脚本路径为:http://v9.git.n.xiaomi.com/heyunchao/Merlin_Toolkit/blob/master/CN_Tools/interval_2_lab.py
cd /root/workspace/TTS_DATA/King_TTS_031_01subsel/subset
ls lab/ | cut -d "." -f 1 > file_id_list.scp
- 编辑全局配置文件global_settings.cfg
- 编辑时长模型配置文件duration_cmu_arctic.conf
- 准备log config