忍者ブログ
   
ボイスチェンジャーにも触れてみる
2023/04/02 17:02 | Comments(0) | 思考及び書くこと
今日の一言「いろんな技術があるのだなぁ」

まえがき

 VOICEVOXという、テキスト読み上げソフトの技術力に感嘆したと先日書いた。

 そもそも、直接声を変換する技術……すなわち「ボイスチェンジャー」というのは、どんな感じになっているのだろう、いまどきは、と思った。

 色々調べてみると、DAWソフトを使用するものだったり、単体で動くものだったり、これまたたくさんあることが分かった。
 というわけで、とりあえず、無料で単体で動作する「恋声」というものを使ってみた。


 ↑という上の文章を読んでみようと思う。

実践

サンプル音声

 雑音が、、ひどいが、簡単に音声ファイルを作成することができた。

 設定は、
・ピッチ 13~14
・フォルマント 3~4
 ぐらいにすると、男声から女声に変換できる。

参考動画(がそりんチャンネルさん)
参考動画(ゆあさん。恋声とエフェクトの設定公開! )


 ボイチェンはあくまで補助ツールであり、大事なのは最初から通す自分の声自体ということだ。ボイトレ大事ということか。


 ちょっと声の出し方を変えてやってみた。
サンプル音声2


 雑音については、「SoundEngine」というフリーソフトで、「ノイズサプレッサー(雑音帯域低減)」というエフェクト?を使用したら少し抑えられた。


追記:前の記事にコメント頂けてたので試しに、返信を音声にしてみました。
サンプル音声3


結果どうなんだろ

 作業自体は、「簡単」とは思うけれども、一般的に世のYoutubeで出回っているクオリティに近づけようとすると大変だなぁとは思う。

 動画作りはほんと大変だ思った以上に。時間もかかる。
 そのかかった時間に対しての、自分の体感時間は全然少ないのだけれども、「えっ、もうこんなに経ったの?!」と驚く。

 たかだか、30秒~40秒の上のサンプル作るのに、1時間半かかっている。もちろん、色々と、設定を変えてみたり、発声のしかた変えてみたり、サウンドエンジンのエフェクトで雑音を減らすにはどうしたらいいか試したり……いろいろやっていたからだが。

 そういうことを、効率化していけたら、もっと素早く作れるようにはなるのだろうとは思う。


 しかし、そもそも、そこまでして「発信したいこと」というのは特にない。

 過去記事の音読を聞くというのはいいけど、それだと、VOICEVOXで読んでもらった方がいい気がする。

異なる技術

 上のボイスチェンジャーは、音を直接変換するタイプだが、新しくAIを活用した技術もあるということだ。

Seiren Voice

 こっちは、ニコニコ動画の会社?ドワンゴ? が開発したようだが、サンプリング(録音)した音声を、文節(単語?)に区切った上で、VOICEVOXのようなキャラクターが改めて呼んでくれるという方法のようだ。

 ヤマハが持田さん(ドリカム?)のなりきりマイクというのを作ったというのをニュースで見たことがあって、それと近い方法なのかな、と思った。

なりきりマイク

 SeirenVoiceの方は、変換に時間がかかっているため、リアルタイム出力ができない。その点で、なりきりマイクはリアルタイム変換している(とはいえ、若干の誤差があるのだろうが)のがすごいと思う。

 どちらの技術も、「自分の声」自体というのは、全くなくなっているのだと思う。「歌い方」「しゃべりかた」という情報をもとに、声を再変換している、というイメージである。


 一方で、最初にあげた恋声などは、ピッチやフォルマントといった設定値を元に戻すと、自分の元の声に戻すことができるのでは、と思った。違うかな? でも合ってる気がする。
 逆に言うと、十人十色の声、ということなのだろうな。たぶん。

 後者の技術は、キャラクターボイスということで統一されるのであろうと思う。

 というか、そもそも、人間の声って、80億人とかみんな違うのだろうか?

 そういえば、リアルの人と話している時も、確かに、この人はこの人の声だな、と識別できている気がする。それってよく考えたらすごい……のか?

 でも、「おばさん声」とか、若い人の声、とかあったりするよな。声も歳とともに変わるものなのか。

 うーん。世の中知らないこと多いな。声のこととか、いままで一切考えたこともなかった。小説とかでも、声についての表現がされている作品はあったのだろうが、あんまり読んだ記憶がないなぁ。「若い男の声が聞こえた……」みたいな描写で、ふむふむ、と納得してた気がする。でもその瞬間に、「若い男の声」というのは、自分の頭の中には再生は「されていない」のである。

あとがき

(かっこ書きである。ここまで書いて、上のサンプル音声の、1と2を改めて聞いてみて、うーん、何となく、女の子っぽいのは2の方な気がするが、好み的には1かもしれない。1の方は、どっちかというと、普通に地声で話した感じ。2は少し、「エッジ」(喉のふるえ)を抑えて、高い声で話すようにした感じ。好みの声というのも色々あるからなぁ。めっちゃ自分の理想で好きな声って、どんな声なんだろう。Vtuberの声とか意識しないとみんな同じに思えるな。声と言えば、昔、ニコニコ動画全盛期のころの、「いさじ」氏の声が好きだった気がする。「ニコニコ流星群」懐かしいな)

拍手[2回]

PR

コメント

コメントを投稿する






Vodafone絵文字 i-mode絵文字 Ezweb絵文字 (絵文字)



<<書くことないけど無理やりアウトプットする | HOME | AIってすごいんだな(画像生成とVOICEVOXで思う)>>
忍者ブログ[PR]
アクセスランキング