ボイスロイドの調声はよくわからないけどやっていること（2021年9月）

ブログの更新ですが、今後少々不定期になります。基本週末に更新しようとは思っているのですが、できない場合もあるかもしれません。

最近の自分のボイスロイド調声事情を少しだけ。

・スタイルは数値を固定し、セリフごとに変えない。

・アクセント→抑揚→話速→高さ→音量の順番で調声する。

・抑揚と話速をいじって問題なければ、それ以降は調声しない。

なるべくいじる箇所を少なくして、効率化したいなあ、と作業を続ける内に、こうなってきました。次回の車載動画辺りは、以前の動画と少し声の感じが違うかもしれない。声のちょっとした高低は、抑揚いじってもそれっぽくなる。

こういう使い方をしていると、正直ボイスロイドにおけるスタイル？　感情値って必要なのかどうか、ちょっと疑問に思えてくる。とはいっても、セリフごとにスタイルを変えるという使い方をすると、手間が増えるという話。あった方が、表現の幅、調整の選択肢は増える。

これはボイスロイドというソフトの方向性や、使用者側の考えた方次第で変わってくるものでもある。作業の手間をできるだけ省き、初心者でも手軽、かつ聞き取りやすい音声を作り出せる方向にするのか。手動の調整が必要だけど、とことんこだわって調声できる玄人向けの方向に進むのか。

個人的には前者寄りの音声合成ソフトを望んでます。より時間をかけずに、動画を投稿できる方がうれしいので、時間のかかる作業は、好ましくない。そういう意味でゆっくり動画って、音声以外の部分に時間かけられるので、作りやすいんですよね。調整なしで、比較的聞き取りやすい音声つくれるんだもの。

f:id:zomuzomu:20210922233029j:plain

ぞむろぐ