VRChatボイチェン事情~環境編~
はじめに
昨年10月ごろからVRChatをはじめて、それ以来前からポツポツ触っていたボイチェンをしっかりと触るようになった。
きっかけ自体はゲーム用に買ったBridge Castにピッチとフォルマント変更の機能がついていたのでそれで遊んでいたことだ。
ただ、自分の喉ではどうしても機械音声っぽいというか違和感のある声から抜けることができなかった。
そこでVSTプラグインを使ったボイチェン環境を作ろうとした。恋声とかバ美声とかのいわゆるソフトウェアボイチェンでも良かったかもしれないが、細かいところをいじる事のできるこちらのほうが性に合っていた。
で、ボイチェン自体もめんどくさいことを色々とやったが、環境構築にも色々と試しがあった。
とくにリスニング環境・モニタ環境が一番大変だったのでまずはそれについて書こうと思う。
現在の環境
”現在の”と入れているのはこれから変わるところもあるかもの意味。ただまぁ困りどころも少ないし一旦安定版ではあるとは思う。
まずは全体のオーディオルーティングを見てみる。
・・・・・・
図にするとわかるめんどくささ。だいたいボイチェンに関係ないギターとか入ってるし。
オーディオインターフェースは2つ「Roland Bridge Cast」と「Audient id14 mk2」だ。
Bridge Castの方は一般にゲーム音とかシステム音とかを分けて管理するミキサーとして使われている配信用デバイスだ。ボイチェン的にはハードウェアボイチェンのピッチフォルマント変換が大事か。
iD14 MkIIの方は音の本命。マイク・ギター入力とかサブPCの音声入力、またBridge CastのバスをMatrixでルーティングしてきてまとめてスピーカーと有線イヤホンに流す役目。また、付属ソフトのミキサーも便利でVRChatとかに流す声とかはこのループバック機能を使っている。
MatrixはVoice MeeterとかVB-Cableとかと同じVB-Audioが出しているルーティングソフトだ。
Voice Meeterでいいんじゃないの?と思うが、Matrixの利点は3つのASIOデバイスを登録できるところだ。自分の環境では2つオーディオインターフェースを使っているのでピッタリ。
慣れるまでは結構ややこしいのでよく検索するといいかも。先人のNoteが出てくる。感謝。
こいつで仮想のASIOデバイスを作ってあげて、VSTホストソフトウェアのCantabile Liteに渡して本命のVSTプラグインによるボイチェンをする。
また、INZONE Budsに音を流すのもMatrixの役目だ。残念ながらASIO対応していないのでWDMで送っているが、モニタに困るほどの遅延はない。(ただし遅延がないわけではない)
ボイチェン・モニタ部に絞ったもうちょっとシンプルな図をだす。
左側がVRChatなりDiscordなり、とかく人に聞かせる用のルートだ。
右側が自分がモニタするルートになる。
マイクについて
共有するマイク部はデスクトップ時はオーディオテクニカ AT2035、VR時はShure SM35を同じくShure SVX14のワイヤレスマイクシステムで飛ばしている。
このSVX14がちょっと…な感じで遅延や音質自体は満足できるのだが、いかんせん受信機自体のホワイトノイズがでかすぎる。送信機の電源をOFFにしていても鳴り続ける。XLR・フォン出力、マイクレベル・LINEレベル、色々切り替えたがどうしてもでかい。普通にボイチャするだけなら耐えられる(かもしれない)がボイチェンにノイズはよくない。もしあなたがボイチェン用にワイヤレスシステムを導入したいならば、もう少し上のグレードとかを試してからのほうが良いと思う。
※2025.04.06追記
VRChat内で同じShureのBLXシリーズを使っている方に現状の音声をノイズリダクションなしに聞いてもらったら、明らかにおかしいとのこと。試しに購入元の島村楽器経由でShure Japanの担当の方に連絡を取ってもらったら、交換・修理等の対応になった。まだ現物送付しておらずメールでのやり取りのみだが状態検証の情報をできるだけ伝えてあるので、この個体の不具合であってほしい…
※2025.05.11追記
1ヶ月かかったが送付した品物が検証の末返却されてきた。結局ノイズのレベルは製品の仕様範囲内だそう。とはいえ見込み修理という形で受信機の交換となった。結果メーターで見るノイズのレベルはあまり変わっていないが、色?が変わったのかノイズ感が目立たなくなった気がする。RX10のVoice De-noiseのリダクション量が少なくても大丈夫そう。一件落着?
※2025.5.31追記
そもそも口とマイクの位置が離れすぎていて適切な音量で入力出来ていなかった。吹かれ音は気になるけれどヘアリーウィンドジャマーを刈り込んで口の位置を近づけたら(当然)音量が大きくなってAIFのゲインが少なくなってノイズフロアが低くなった。
あまりにも当たり前な理屈だけど、声の距離減衰がかなり強いのが悪い(他責)。
付属のヘッドウォーンマイクのPGA31もちょっと音に厚みがない感じがしたのでSM35に買い替え。ならなおのことはじめからSM35のセットのあるグレードのものにしたほうがいい。ちょっとお高いけど。
AT2035は困りどころないか。欲を言えばもうちょっといいマイク欲しくなるけど、たぶん今の用途ならばオーバースペック。
それらのマイクを「ART SplitCom Pro」を使ってiD14とBridge Castに分けて入力している。音声信号は分割されるが、ファンタム電源がMainとIsolateで分かれるのが良い。細かいとこだけど。
スプリッターでなくコンバイナーとしても使えるので、2本マイクをつなぎっぱも選択肢としてはありだが、前述の通りSVX14のノイズがひどいのでAT2035のときは外しておきたいのでここは手動で挿し替え。
リスニング環境について
VR時にはもっぱらSONY INZONE Budsを使っている。
困ったことは…あまりない。ASIO対応してないとかは高望みしすぎだし、よくいう無音時のホワイトノイズは個人差もあるがあまり気にならない。ノイキャン由来っぽいし、めちゃくちゃ音楽聴くためではないのだから。
遅延も無線であるにも関わらず普通にプレイする分には気にならない。少なくとも自分の環境で返しの声の遅延が原因で話しにくいはない。(ちゃんと調べ直したら無線の遅延は公称30ms未満だそうだ)
INZONE Buds以前にはAmazonだと7000円くらいのワイヤレスインイヤーモニターを使ってSE215で聞いていたが、遅延は体感なし、ただしクソデカノイズがしんどくて乗り換えた。モニタの遅延も大事だけど、VRChatはそれ以外のVR環境の音も大事だから。
もし遅延を極限まで減らしたいならもっと良いワイヤレスインイヤーモニターシステムを買ったほうがいい。めっちゃ高いけど。
なぜハード・ソフトボイチェン混成環境を?
ひとえにモニター環境の低遅延のため。
そもそもなぜモニターが必要なのかといえば、ピッチフォルマント変更された自分の声を聞いてそれが自分の話している声だと勘違いするため。
歌手であれば自分の声と音楽をモニターして微妙なニュアンスとかをつけたりしていると思う。多分。歌手じゃないのでわかんないけど。
ボイチェンの場合も似ていて、変換後の声を聞きながら話すと「あっ、いまちょっと声が低いな」とか「ケロったか?」とかがすぐわかって修正が効く。もうちょっとクるとモニタの声が自分の声だと思いながら喋りはじめて、違和感を感じなくなる(=うまく変換される声を話せている)。
そのためにはモニターする声の遅延が少なければ少ないほど没入感が高くなる。
なにより、遅延が大きすぎるとまともに喋るのが難しくなる。「……あれ?……声が……遅れて……来るよ」みたいに聞こえるので脳が混乱する。こっちのほうが理由としては大きいかも。
メリットはわかる。でもハードウェアは高いよ
わかる。自分の場合はじめにBridge Castありきだったので良かったが、ボイチェンのモニタするためだけにBridge CastなりVT-4だったりのハードウェアボイチェンを導入するのは費用対効果が割に合わないと思う。
Bridge Castはふつうにミキサーとしてだいぶ使えるので買って損はないと思うけれども、ゲーム用のミキサーなら他の選択肢もある(UR-Cファミリなんかはいい感じのソフトウェアミキサーがあるし、ちょっと違うところならElgatoのWave Linkだってある。それにVoice Meeterをそういう使い方したっていい)。
ここからは実際に試してはいないが、皆に聞かせる声に妥協はしたくないが、できるだけ遅延の少ないモニタ環境を考える。
VSTホストソフトウェアの中でルートを2つ作り、しっかり作り込むルートとモニタ用の低遅延ルートを作ることだ。
通話用はモニタにはつらくても通話には問題ない程度の遅延を許したルートを組む。
VSTプラグインごとの遅延のチリツモも気にしない。流石に数百msの遅延が起きていたら通話するのにちょっとこまるのでほどほどに。
モニタ用はとにかく差すプラグインを少なくして「ピッチとフォルマントが変換されていることが分かれば良い」程度の出来と低遅延を目指す。例えばiZotope RX Voice De-noiseを一つとPitch Proofを一つのようなルートだ。
これらを別々に出力してVoice Meeterなりでルーティングをモニタ用と通話用にそれぞれ分けて設定する。
注意したいのはVRヘッドセットを使う場合、内臓のマイクやスピーカーを使うとそれだけで遅延がすごい点だ。”すごい”という微妙な言い方なのは試していたのがかなり昔のため記憶が曖昧だからだ。ただ耐えられずにワイヤレスマイクシステムとお手頃ワイヤレスインイヤーモニタを導入する程度には喋りづらかった。
せめて音声系統はVRヘッドセットとは分離させて、低遅延を謳ったヘッドセットが良いだろう。
Bluetoothイヤホンを使うならば、コーデックが低遅延のAptx-LLに対応したものを選ぼう。まだ耐えられる。送信機側も忘れずに。Windows11くんはデフォルトだとAptx-LLに対応していないので外付けの送信機を追加するのが一番安定すると思う。
そもそも有線でもいいなら有線のヘッドセットなりヘッドウォーンマイクなりピンマイクなりを使えば無線による遅延の恐怖からは逃れられる。
ひょっとしたらこれは他の遅延のどうしようもないソフトウェアボイチェンなどでもつかえるかも。モニタ用だけVSTで組む。設定のシンプルさで選んでいるなら本末転倒だが、選択肢としては。
まとめ
・ボイチェンのモニタ環境は大事
・ボイチェンで喋るお前を騙せ。脳を騙せ。
・モニタ遅延は可能な限り減らす。無線ならば、特に。
ーーーーーーーーーーーーーーーーーーーーーーーーーーーー
環境、とくにモニター環境についてダラダラと書いてみたのですが、人に聞かせる方のVSTボイチェンの構成なり自分なりの考え方などは別記事で書ければ。
では。