【感情豊かな音声】Style-Bert-VITS2での音声モデルの学習とEasyBertVits2の導入解説
Summary
TLDRこの動画のスクリプトは、テキスト入力から自然な喋り声をAIで生成する方法を解説しています。Easy Voice ChangeとStyle Voice Changeの2つのツールを例に挙げ、音声データセットの準備から学習、モデルの作成と試聴する一連の流れを丁寧に説明しています。視聴者にも自分の声で試してみることを促しており、最新のTTS技術をわかりやすく伝えようとした貴重なコンテンツだと思います。
Takeaways
- 😊 テキスト入力から自然な喋り声を生成できる
- 😮 rvcは音声変換、バート2はテキスト音声合成
- 📝 EasyBART2とStyleBART2の2つの導入方法がある
- 💻 事前にたくさんの音声モデルが使えるのがEasyBART2の特徴
- 🎤 StyleBART2では自分の音声モデルを簡単に作れる
- 😊 テキストの表記を調整することで感情的な音声が作れる
- 🔊 将来的によりリアルな音声生成が可能に
- 😀 rvcと併用することで応用範囲が広がる
- 👍 チャンネル登録、いいねをお願いしている
- 🙇♂️ ご視聴ありがとうございました
Q & A
バートB2とはどのような技術ですか?
-バートB2は、テキストから音声を合成するTTS(Text to Speech)技術です。多言語バートをベースにした音声合成エンジンです。
EasyBARTB2とStyleBARTB2の違いは何ですか?
-EasyBARTB2は既存の音声モデルを利用できるのに対し、StyleBARTB2では自分で新しい音声モデルを簡単に学習できるのが特徴です。
音声モデルの学習に必要なデータはどのようなものですか?
-音声データとテキスト起こしデータが必要です。自分の声で録音した音声と、その音声の文字起こしを行うことで学習データセットを作成できます。
生成した音声の感情を変えるにはどうしたらいいですか?
-テキストの表記を調整することで、同じ文章でも違う感情の音声にできます。感嘆符や句点の数を変えたり、文字の大きさを変更することで感情の違いが出せます。
バートB2とリアルタイムボイスチェンジャーの違いは何ですか?
-バートB2はテキスト入力から音声を生成するのに対し、リアルタイムボイスチェンジャーは実際の音声を入力として、別の音声に変換する技術です。用途が異なります。
GPUを使うメリットは何ですか?
-GPUを使うと、CPUよりもはるかに速い速度で音声生成を行うことができます。リアルタイムでの利用を考える場合、GPUの方が適しています。
音声データの文字起こしとは?
-音声データに含まれる発話内容をテキスト化する作業のことです。これによって、音声とテキストのデータセットが完成します。
学習モデルの改良方法を教えてください。
-音声データを追加したり、既存モデル同士を合成することで、新しいモデルを作ることができます。パラメータ調整による音質改善も可能です。
商用利用に制限はありますか?
-EasyBARTB2とStyleBARTB2はオープンソースで提供されているため、基本的に商用利用に制限はありません。ただし利用する音声データやモデルによっては制限がある場合があります。
自分の声で音声認識を行うことはできますか?
-StyleBARTB2を使用すれば、自分で収録した音声から個人カスタマイズされた音声認識モデルを簡単に構築できます。ある程度の認識精度を実現できます。
Outlines
😄EasyVoiceTube2のインストールと使い方解説
このパラグラフは主にEasyVoiceTube2(バートビ2)のインストール方法と基本的な使い方の解説をしています。
😃StyleVoiceTube2でカスタム音声モデル作成
このパラグラフは主にStyleVoiceTube2(スタイルバートビ2)のインストール方法と、自分の音声データを使ってカスタム音声モデルを学習・生成する方法の解説をしています。
😉スタイルバートビ2でテキスト入力の変更で音声のニュアンス変更
このパラグラフは主にスタイルバートビ2を使って生成した音声の試しや、テキストの表記を変えることで同じ文章からも違うニュアンスの音声を生成できることをデモしています。また、rvcとの比較やこれからの展望についても言及しています。
Mindmap
Keywords
💡テキスト入力
💡バートビ2
💡音声モデル
💡スタイルバート
💡感情表現
💡リアルな音声
💡AIボイスチェンジャー
💡自動読み上げ
💡文字起こし
💡喋り方調整
Highlights
テキスト入力から自然な喋り声を生成できる
2つのバート2導入方法を紹介
イージーバート2は事前に用意された音声モデルが豊富
スタイルバート2は自分の音声モデルを簡単に作成できる
イージーバート2の操作方法と27人分の音声モデルのダウンロード方法
スタイルバート2で自分の音声データから新しい音声モデルを作成
文章の表記方で同じ文章でも違う音声が生成できる
リアルタイムボイスチェンジャーrvcと使い分けが良さそう
誰でも簡単にリアルな音声を作れるようになる可能性
テキストから自然な喋り声が作れることがわかった
2つのバート2を使いこなす方法がわかった
表記の工夫で感情豊かな音声が作れそう
GPUを使うと音声生成が早くなる
イージーバート2の操作は簡単だが音声モデル作成は難しい
スタイルバート2の音声モデル作成がしやすい
Transcripts
こんにちはコマです僕はトラだよよろしく
ね今回の動画のテーマはこちらテキスト
入力で自然な喋り声を作ってみようです
テキスト入力から視な喋り声本当にそんな
ことができるのできちゃいますバート2を
導入することでまるで人間が喋っているか
のようなリアルな音声を作ることができ
ますバート2で一体何この前紹介した
rvcとはどう違うのrvc声を音声変換
できるAIボイスチェンジャーです一方の
今日ご紹介するバートB2はテキスト音声
合成TTSプロジェクトです技術的には
多言語バートを使用したビ2をベースにし
ています全然わかんないま詳しいことは
さておきテキストを入力するだけで
コーヒー室で自然な音声を生成できるもの
とでも言っておきますねなるほどrvcは
音声を直接変換するけどバートはテキスト
から音声を作るってことなんだねその通り
今日はバービ2を導入して実際に音声を
作るのとrvcのように自分で作った音声
モデルで音声を作るところまでを解説し
たいと思いますえrvcと同じように自分
で音声モデルを作ることもできるんだね
rvcの導入方法や学習の方法については
前回の動画を参考にしてくださいね概要欄
にリンクを載せておくから是非チェックし
てみてね
ワート2を利用する方法は色々ありますが
今回は現在私が実際に導入して使ったこと
のある2つの方法をご紹介しますね最初に
イージーバーとbitz2の導入としよう
次にスタイルバーとb2の導入としよ学習
について解説したいと思います2つある
みたいだけど2つの位のどちらかが使えれ
ばいいってことすでにある音声モデルを
使うだけならうらか1つ好きな方を使えば
いいと思いますただバbit2の方はは
新しい音声モデルを作るのが難しそうだっ
たので個人的にはより音声の学習が簡単な
スタイルバートbit2の方を今のところ
は推奨しますそれでは早速行ってみよう
まずはeivとbit2の使い方から解説
しますねいきなりスタイルバートB2を
導入したい方は飛ばしてみてねまずは画像
のURLにアクセスします解説で使う
URLも動画の概要欄に記載しておきます
そちらを参照してください今開いている
ページがgitHUBのEasyはとb2
のページになりますここからファイルを
ダウンロードするのですがその前に
ファイルを保存するフォルダーを用意して
おきますフォルダを作ったら先ほどの
gitHUBのページに戻りインストール
と音声の生成の見しを探しインスーEはび
.Watchのリンクをクリックして
ファイルをダウンロードします
ダウンロードしたWatchファイルを
先ほど作ったフォルダ内に保存します
Watchファイルをダブルクリックし
ます警告画面が出てきたら詳細情報を
クリックアプリ名を確認してからから実行
をクリックしますするとコマンド
ウィンドウが立ち上がりダウンロード
ファイルの一覧が表示されますキーボード
のYを押してエンターキーを押すと
ダウンロードが開始しますファイルの
ダウンロードが終わるまで待ちましょう
全てダウンロードするのには結構時間が
かかるので画面を閉じずに待つようにして
くださいこちらの環境では15分ぐらいに
別のコマンドウィンドウが立ち上がって
またダウンロードが始まりましたまた
しばらく待っているとブラウザでソフトが
起動します動中のコマンド画面は絶対に
閉じないようにしてねデフォルトの表示は
中国語ですがブラウザの翻訳機能を使えば
日本語に表示を変えることもできます
ブラウザの翻訳機能で日本語に表示を
切り替えてみました右上のモカさの項目に
ある下のクラをクリックするとデタ
フォルダ内にある音声モデルが表示され
ます最初に表示されているのはあかめ作成
者であるズタさんが作ってくれてある音声
モデルですチェックボックスにチェックを
入れてモデルを選択します右の選択リスト
にCPUとクダゼがあるのでGPUを使う
場合はクダゼロを選択します音声の生成
速度はGPUの方が早いです右にある選択
リストで言語を選択しますzhは中国語
jpは日本語enは英語だよ火災模けを
クリックしてモデルをダウンロードします
すると左下にダウンロードされたモデルが
表示されます右上にあるボタンをクリック
して選択状態にすれば音声を作る準備は
完了です右にある文章入力欄に文章を入れ
て音声を生成してみましょう文章を入力し
たら青いボタンを押しましょうすると音声
モデルの下のところに音声が作成されまし
た三角ボタンを押すと音声が再生されます
音声をダウンロードしたい場合は右側の
ダウンロードボタンをクリック
ダウンロードした音声がこちら皆さん
こんにちはお元気です
か少しアクセントがおかしいけどきちんと
喋ってくれてるねパラメーターを調節する
と音声を調整することができます長さの
ところを調節すると話のスピードを変える
ことができるよ他の音声モデルを使って見
たい場合はこちらもあらかじめ用意して
くれてある音声モデルを新たに
ダウンロードすることができます操作画面
とコマンド画面を閉じて早速ダウンロード
してみよう現時点で27人分の音声モデル
をダウンロードすることができますフルダ
にあるこの画面のバッチファイルをダブル
クリックしますコマンド画面が起動するの
でキーボードのワを押してエンターキーで
ダウンロード開始全部で18Gほどあるの
で容量を確保してあるか確認してから
ダウンロードするようにしてね
ダウンロードが終わるとデータフルダ内に
ダウンロードした音声モデルが保存されて
います早速ダウンロードした音声モデルを
使って音声を作ってみましたブラウザを
起動する時はよりuui.Bダブル
クリックしてねあなたがそんなこと言う
なんてね私はとっても嬉しいあなたが
そんなこと言うなんて私はとっても怒っ
てるあなたがそんなこと言うなんて私は
とっても驚いてるあなたがそんなこと言う
なんて私はとっても辛いあなたがそんな
こと言うなんて私はとっても嬉しいあなた
がそんなこと言うなんて私はとっても怒っ
てるあなたがそんなこと言うなんて私は
とっても驚いてるあなたがそんなこと言う
なんて私はとっても辛いあなたがそんな
こと言うなんて私はとっても嬉しいあなた
がそんなこと言うなんて私はとっても怒っ
てるこれだけでもたくさんの音声モデルが
使えるのでとりあえずバートビ2の機能を
確認してみたいという方にはこのイージー
バービ2はおすすめ
[音楽]
ですでは次にスタイルワート2の解説に
移りたいと思いますまずはじさんのビッ
ページへ移動しましょうURLは概要欄に
も記載してあるよインストールのところに
あるZIPファイルをダウンロードします
ファイルを回答したらグラフィックコード
を使える環境の人はインスーSTYB.
Watchをそうでない人はインスー
スイバBCPU.Watchをダブル
クリックしますするとコマンド画面が起動
しますダウンロードには少し時間かかり
ます容量はそれなりに確保するようにして
ねモデルのダウンロードまで終わったらで
起動しますデフォルトでもモデルが入って
いるのでこの状態でも使うことができます
試しにロードボタンをクリック音声構成
ボタンをクリックして音声を作成してみ
ました青い三角ボタンをクリックすると
音声が再生されますできた音声はこんな
感じこんにちは初めましてあなたの名前は
何ていうの音声のダウンロードは矢印
ボタンをクリックすればダウンロードでき
ます他の音声モデルを使うにはどうすれば
いいの自分で作った音声モデルや作成済み
の音声モデルを使うことができます今回は
自分で作って用意してみましょうまずは
作りたい音声モデルの音声データを用意し
ます音声データの詳しい作り方は前回の
動画AIボイスチンチrvcであなたも
リアルタイムで簡単未少女ボイスにお見て
用意してみてね用意した音声データから
学習データセットを作りますまずは用意し
た音声データをスルバbit2フォルダに
あるinフォルダ内に保存しますスルバつ
フォルダにあるデタセット.Watchを
ダブルクリックしますするとブラウザで
簡易学習用データセット作成ツール打起動
しますモデル名を入力してスライスを実行
をクリックしますスライスが終わったら
音声の文字起しをクリックします音声の
文字起しまで終えたら学習データセットの
完成ですポルダ内にあるトレイ.Gを
ダブルクリックで学習を始めますスタイル
が飛びつつ学習用WEBUIがブラウザで
起動しますモデル名を先ほどと同もにして
自動全処理をクリックします今回はボッ数
を120にしてみましたがデフォルトの
100で十分だと思いますこの辺りは自分
の環境に合わせて調整してみてね少し待つ
と自動税処理が終了します次は学習を開始
するをクリックして学習スタート学習に
かかる時間は用意した音声データの長さや
ボックス使用するGPU等によります学習
開始直後のコマンドプロンプとはこんな
感じです時間がかかるのでしばらく待ち
ましょう学習終了時の画面はこんな感じ
です学習が終わったらPPP.Watch
をダブルクリックして早速音声モデルを
試してみましょうスタイルは飛びつつ音声
法成がブラウザで起動しますモデル一覧は
先ほど作成した音声モデルの名前と一致し
ているのを確認してロドをクリックします
音声合成をクリックして音声を確認してみ
ましょう合成した音声は三角マークを
クリックすると再生できますこんにちは
初めまして
さんの名前は何て言うのやったテストで
満点取れた私とっても嬉しいなどうして私
の意見を無視するの許せないのか
つくこの漫画めっちゃ笑える見てよ
これあなたがいなくなって私は1人になっ
ちゃって泣いちゃいそうなほど
悲しい音声をダウンロードしたい時は矢印
ボタンをクリックしますその他音声モデル
同士をマジして新しい音声モデルを作ると
いった能もありますが今回の動画では基本
的な部分の解説に止めておきます本当に
テキストだけでちゃんと感情豊かな音声を
作れちゃうんだね実はテキストの表記の
仕方次第で同じ文章でも違う音声になっ
たりもします試しに先ほどの例文にビック
マークを増やして音声を合成してみました
こんにちは初めましてあなたの名前は何て
いうの本当ださっきよりも元気の良い音声
になってる今度は点々にしてみましたお
こんにちは初めましてあなたの名前は何て
いうの今度は少し元気がないような感じの
音声になったねこんな感じで表現したい
感情や喋り方になるように自分なりに
うまく調整してみるとよりリアルな音声を
再現できそうですねイージーバトbit2
はあらかじめたくさんの音声モデルが
使えるのが魅力だけどスタイルバート
ビッツ2の方はこうして自分の好きな音声
モデルを簡単に作れちゃうのがすごいね
これからもっと技術が進化してよりリアル
な音声が誰でも簡単に作れるようになる日
が来るのも相当苦ないかもしれませんね
前回にも呼んだリアルタイム温泉編の
rvcと使い分けられるといい感じだ
ねというわけでテキスト入力で自然な
喋り声を作ってみようでした皆さんもぜひ
チャレンジしてみてねこの動画が良かった
と思っていだけた方はぜチャンネル
いいねボタンを押してもらえると嬉しい
ですそれではまた次の動画でお会いし
ましょうご視聴ありがとうございましまし
たバイ
[音楽]
バイ
5.0 / 5 (0 votes)