ボイスロイドの調声は今でもよくわからないけど、やっていること

動画に入れるボイスロイドの音声は

アクセント
音量
話速
高さ
抑揚
スタイル「喜び」「怒り」「悲しみ」（※VOICEROID2のみ対応）

を調整する必要があります。

使い始めてから3年ほど。何回かソフトウェアのアップデート等を
積み重ねて少しずつ機能が増えてきてます。
いまだに使いこなせてるとは言えず毎回苦心しつつ使っています。

結月ゆかりもボイスロイド2になり、スタイル「喜び、怒り、悲しみ」
という新しい要素が入り、さらに頭を悩ませる事態になっています。

動画を作るたびに毎回パラメータを変えて試すのですが
まだこれだ、というものが私にはありません。

2017GW ゼルビスで行く本州最北端 vol.6時点の設定
アクセント、話速、高さ、抑揚の設定
スタイルの数値設定について

・ボイスロイドの調声については以下の記事でも書いています。

2017GW ゼルビスで行く本州最北端 vol.6時点の設定

＜マスター＞

あまり参考にはなりませんが、現在の私の設定は以下の通り。

f:id:zomuzomu:20171111113551j:plain

＜ボイス＞

f:id:zomuzomu:20171111113610j:plain

アクセント、話速、高さ、抑揚の設定

適当に抜き出したセリフで実際どういう設定をしているか見てみましょう。

＜アクセント＞

f:id:zomuzomu:20171111113830j:plain

アクセントでは「無声化」という機能があって、実際に自分が話す時に
発声しない部分ってあると思うのですが
テキストの各文字の音を意図的に抑える機能、なのかな？
（じつはよくわかってない）

単純にテキストを入れてそのまま読ませると、発声がきれいじゃなかったり
耳障りになる部分が出てきます。

そういった箇所を無声化すると、聞き取りやすくなる場合があります。

私の場合は1度テキストを入力し、読み上げさせた後、下記の部分を無声化して
繰り返し読み上げさせては、調整を進めています。

濁音
ア行
タ行
カ行
し
ラ行
ン
ー（ツリーとか伸ばす部分）
マ行

正直、毎回違うテキストになるので、前回と同じ文字を無声化しても
うまくいくとは限らず、その都度調整が必要となります。

[2018/4/12追記]

基本下記2つの機能はそれぞれ次のように使っています。

・無声化する　→　ノイズのような発音、耳障りな発音箇所を抑え、聞き取りやすくする。

・無声化しない　→　発音が小さくはっきり聞こえない部分を、聞き取りやすくする。

結局、1つずつ試すしかないですが、上記を繰り返し、聞き取りやすくなるまで調整を行います。

[2019/1/25追記]

・タ行、マ行は「無声化しない」方が、聞き取りやすい為、無声化するケースが少なくなりました。ただタ行、マ行の直前にポーズを入れると、音が割れるたりするので、その場合は無声化も試したりと、まだ試行錯誤中です。

＜話速＞

取り上げたセリフだと、話速は一定でした。

f:id:zomuzomu:20171111113834j:plain

＜高さ＞

ベースとなる高さから、文節？ごとに細かく上げ下げしています。
実際自分でセリフを声に出すと、わかりやすいです。

f:id:zomuzomu:20171111113838j:plain

＜抑揚＞

高さと合わせることが多いですが、強調したい単語や
デフォルトだと、聞き取りづらい部分を高くする感じです。

f:id:zomuzomu:20171111113841j:plain

今の所、どのパラメータに関しても最適解というものが
いまだによくわかっていません。

台詞それぞれに最適解というものがあると思いますし
私自身まだまだ勉強不足が原因でもあります。

ボイスロイドの調声方法は、私より精通した方がたくさんいますので
色々と調べて試してみるとのがよいと思います。

これはうまく調声できたなぁ、と思うものがあれば
紹介していきたいと思います。

スタイルの数値設定について

※2019/9/13 追記

VOICEROID 2からスタイルのパラメータが設定できるようになりました。「喜び」、「怒り」、「悲しみ」の三つの数値を設定できます。またスタイルは、語尾の種類にも影響します。

f:id:zomuzomu:20190914085945p:plain 　 f:id:zomuzomu:20190914090330p:plain

[ 呼びかけ♪ ] 　…親しみをもって相手に呼びかける。フレーズ末尾で声の高さがわずかに上昇する。

↓

スタイルに「喜び」を選択した際に効果がある。

[ 断定！] 　…強い口調で言葉を投げかける。フレーズ末尾で発生が急激に終了する。

↓

スタイル「怒り」を選択した際に効果がある。

私は調声開始時点は、数値は全て0にしています。アクセント、抑揚、高さ、音量などを調整した後、セリフごとに必要と感じた場合に調整します。

必要だと感じるのは以下の場合

セリフに喜び、怒り、悲しみを持たせたい場合
呼びかけ、断定のセリフで語尾の効果を際立たせたい場合

数値は0.00～1.00の間で設定可能。ただし、数値が0.50を越えると、声質が明らかに変わってしまいます。通常は0.01~0.49の間で設定するほうがよいと思います。複数のスタイルの数値を同時に設定もできますが、最初は、「喜び」のみ、「悲しみ」のみなど、一つずつ試してみて、感覚をつかんでいく方がわかりやすいです。

Amazon VOICEROID販売ページ