【感情豊かな音声】Style-Bert-VITS2での音声モデルの学習とEasyBertVits2の導入解説

胡麻トラAI実験室
8 Jan 202412:20

Summary

TLDRこの動画のスクリプトは、テキスト入力から自然な喋り声をAIで生成する方法を解説しています。Easy Voice ChangeとStyle Voice Changeの2つのツールを例に挙げ、音声データセットの準備から学習、モデルの作成と試聴する一連の流れを丁寧に説明しています。視聴者にも自分の声で試してみることを促しており、最新のTTS技術をわかりやすく伝えようとした貴重なコンテンツだと思います。

Takeaways

  • 😊 テキスト入力から自然な喋り声を生成できる
  • 😮 rvcは音声変換、バート2はテキスト音声合成
  • 📝 EasyBART2とStyleBART2の2つの導入方法がある
  • 💻 事前にたくさんの音声モデルが使えるのがEasyBART2の特徴
  • 🎤 StyleBART2では自分の音声モデルを簡単に作れる
  • 😊 テキストの表記を調整することで感情的な音声が作れる
  • 🔊 将来的によりリアルな音声生成が可能に
  • 😀 rvcと併用することで応用範囲が広がる
  • 👍 チャンネル登録、いいねをお願いしている
  • 🙇‍♂️ ご視聴ありがとうございました

Q & A

  • バートB2とはどのような技術ですか?

    -バートB2は、テキストから音声を合成するTTS(Text to Speech)技術です。多言語バートをベースにした音声合成エンジンです。

  • EasyBARTB2とStyleBARTB2の違いは何ですか?

    -EasyBARTB2は既存の音声モデルを利用できるのに対し、StyleBARTB2では自分で新しい音声モデルを簡単に学習できるのが特徴です。

  • 音声モデルの学習に必要なデータはどのようなものですか?

    -音声データとテキスト起こしデータが必要です。自分の声で録音した音声と、その音声の文字起こしを行うことで学習データセットを作成できます。

  • 生成した音声の感情を変えるにはどうしたらいいですか?

    -テキストの表記を調整することで、同じ文章でも違う感情の音声にできます。感嘆符や句点の数を変えたり、文字の大きさを変更することで感情の違いが出せます。

  • バートB2とリアルタイムボイスチェンジャーの違いは何ですか?

    -バートB2はテキスト入力から音声を生成するのに対し、リアルタイムボイスチェンジャーは実際の音声を入力として、別の音声に変換する技術です。用途が異なります。

  • GPUを使うメリットは何ですか?

    -GPUを使うと、CPUよりもはるかに速い速度で音声生成を行うことができます。リアルタイムでの利用を考える場合、GPUの方が適しています。

  • 音声データの文字起こしとは?

    -音声データに含まれる発話内容をテキスト化する作業のことです。これによって、音声とテキストのデータセットが完成します。

  • 学習モデルの改良方法を教えてください。

    -音声データを追加したり、既存モデル同士を合成することで、新しいモデルを作ることができます。パラメータ調整による音質改善も可能です。

  • 商用利用に制限はありますか?

    -EasyBARTB2とStyleBARTB2はオープンソースで提供されているため、基本的に商用利用に制限はありません。ただし利用する音声データやモデルによっては制限がある場合があります。

  • 自分の声で音声認識を行うことはできますか?

    -StyleBARTB2を使用すれば、自分で収録した音声から個人カスタマイズされた音声認識モデルを簡単に構築できます。ある程度の認識精度を実現できます。

Outlines

00:00

😄EasyVoiceTube2のインストールと使い方解説

このパラグラフは主にEasyVoiceTube2(バートビ2)のインストール方法と基本的な使い方の解説をしています。

05:01

😃StyleVoiceTube2でカスタム音声モデル作成

このパラグラフは主にStyleVoiceTube2(スタイルバートビ2)のインストール方法と、自分の音声データを使ってカスタム音声モデルを学習・生成する方法の解説をしています。

10:02

😉スタイルバートビ2でテキスト入力の変更で音声のニュアンス変更

このパラグラフは主にスタイルバートビ2を使って生成した音声の試しや、テキストの表記を変えることで同じ文章からも違うニュアンスの音声を生成できることをデモしています。また、rvcとの比較やこれからの展望についても言及しています。

Mindmap

Keywords

💡テキスト入力

この動画のテーマは、テキスト入力から自然な喋り声を生成する技術です。テキスト入力というのは、コンピュータに文字を入力することで、その文字を基にコンピュータが音声を生成する技術のことを指します。動画ではテキスト入力からリアルな喋り声が生成できるかを確認しています。

💡バートビ2

バートビ2は、テキストから音声を合成するTTS(Text-to-Speech)の一種です。多言語版バートをベースにしており、テキスト入力だけで自然な音声を生成できると紹介されています。動画ではバートビ2を実際に導入し、テキストから音声を生成しています。

💡音声モデル

音声モデルとは、特定の人の声や話し方を学習させたデータセットのことです。動画ではバートビ2だけでなく、自分で音声データを準備して音声モデルを作成し、そのモデルでテキストから音声を生成する方法も紹介されています。

💡スタイルバート

スタイルバートはバートビ2の機能を拡張したもので、簡単に自分の音声モデルを作成できるなどの利点があると紹介されています。動画ではスタイルバートに自分の音声データを入力して学習させ、オリジナルの音声モデルを作っています。

💡感情表現

テキストの表記方法によって、同じ文章でも喜怒哀楽などの感情表現が変化することが紹介されています。感嘆符や句点の増減で、生成される音声の明るさが変わるなどの例が示されています。

💡リアルな音声

この技術の目標は、テキストから人間のようなリアルな音声を生成することです。動画ではテキスト入力だけでちゃんと感情豊かな音声が作れることがリアルな音声の例として紹介されています。

💡AIボイスチェンジャー

AIを使って声を変換する技術です。動画ではAIボイスチェンジャーの一つであるRVCが、テキスト入力から音声を生成するバートビ2と比較対象として紹介されています。

💡自動読み上げ

テキスト入力された文章を自動で読み上げる機能のことです。バートビ2やスタイルバートはこの自動読み上げ機能を実現するTTS技術であると紹介されています。

💡文字起こし

音声ファイルを文字に起こす作業のことです。動画ではスタイルバートでの学習データの準備過程として、文字起こしを行う場面が紹介されています。

💡喋り方調整

テキストの表現を調整することで、生成される音声の喋り方を変化させる技術が紹介されています。これによりリアルな喋り声の再現が期待できるとされています。

Highlights

テキスト入力から自然な喋り声を生成できる

2つのバート2導入方法を紹介

イージーバート2は事前に用意された音声モデルが豊富

スタイルバート2は自分の音声モデルを簡単に作成できる

イージーバート2の操作方法と27人分の音声モデルのダウンロード方法

スタイルバート2で自分の音声データから新しい音声モデルを作成

文章の表記方で同じ文章でも違う音声が生成できる

リアルタイムボイスチェンジャーrvcと使い分けが良さそう

誰でも簡単にリアルな音声を作れるようになる可能性

テキストから自然な喋り声が作れることがわかった

2つのバート2を使いこなす方法がわかった

表記の工夫で感情豊かな音声が作れそう

GPUを使うと音声生成が早くなる

イージーバート2の操作は簡単だが音声モデル作成は難しい

スタイルバート2の音声モデル作成がしやすい

Transcripts

play00:00

こんにちはコマです僕はトラだよよろしく

play00:03

ね今回の動画のテーマはこちらテキスト

play00:06

入力で自然な喋り声を作ってみようです

play00:09

テキスト入力から視な喋り声本当にそんな

play00:13

ことができるのできちゃいますバート2を

play00:16

導入することでまるで人間が喋っているか

play00:19

のようなリアルな音声を作ることができ

play00:21

ますバート2で一体何この前紹介した

play00:26

rvcとはどう違うのrvc声を音声変換

play00:31

できるAIボイスチェンジャーです一方の

play00:33

今日ご紹介するバートB2はテキスト音声

play00:37

合成TTSプロジェクトです技術的には

play00:41

多言語バートを使用したビ2をベースにし

play00:43

ています全然わかんないま詳しいことは

play00:46

さておきテキストを入力するだけで

play00:48

コーヒー室で自然な音声を生成できるもの

play00:51

とでも言っておきますねなるほどrvcは

play00:55

音声を直接変換するけどバートはテキスト

play00:59

から音声を作るってことなんだねその通り

play01:02

今日はバービ2を導入して実際に音声を

play01:06

作るのとrvcのように自分で作った音声

play01:09

モデルで音声を作るところまでを解説し

play01:12

たいと思いますえrvcと同じように自分

play01:16

で音声モデルを作ることもできるんだね

play01:19

rvcの導入方法や学習の方法については

play01:23

前回の動画を参考にしてくださいね概要欄

play01:26

にリンクを載せておくから是非チェックし

play01:28

てみてね

play01:30

ワート2を利用する方法は色々ありますが

play01:33

今回は現在私が実際に導入して使ったこと

play01:36

のある2つの方法をご紹介しますね最初に

play01:40

イージーバーとbitz2の導入としよう

play01:42

次にスタイルバーとb2の導入としよ学習

play01:46

について解説したいと思います2つある

play01:48

みたいだけど2つの位のどちらかが使えれ

play01:51

ばいいってことすでにある音声モデルを

play01:53

使うだけならうらか1つ好きな方を使えば

play01:56

いいと思いますただバbit2の方はは

play02:00

新しい音声モデルを作るのが難しそうだっ

play02:02

たので個人的にはより音声の学習が簡単な

play02:06

スタイルバートbit2の方を今のところ

play02:08

は推奨しますそれでは早速行ってみよう

play02:11

まずはeivとbit2の使い方から解説

play02:14

しますねいきなりスタイルバートB2を

play02:16

導入したい方は飛ばしてみてねまずは画像

play02:20

のURLにアクセスします解説で使う

play02:22

URLも動画の概要欄に記載しておきます

play02:26

そちらを参照してください今開いている

play02:29

ページがgitHUBのEasyはとb2

play02:31

のページになりますここからファイルを

play02:33

ダウンロードするのですがその前に

play02:35

ファイルを保存するフォルダーを用意して

play02:37

おきますフォルダを作ったら先ほどの

play02:39

gitHUBのページに戻りインストール

play02:41

と音声の生成の見しを探しインスーEはび

play02:45

.Watchのリンクをクリックして

play02:47

ファイルをダウンロードします

play02:49

ダウンロードしたWatchファイルを

play02:51

先ほど作ったフォルダ内に保存します

play02:53

Watchファイルをダブルクリックし

play02:54

ます警告画面が出てきたら詳細情報を

play02:57

クリックアプリ名を確認してからから実行

play03:00

をクリックしますするとコマンド

play03:02

ウィンドウが立ち上がりダウンロード

play03:04

ファイルの一覧が表示されますキーボード

play03:07

のYを押してエンターキーを押すと

play03:09

ダウンロードが開始しますファイルの

play03:11

ダウンロードが終わるまで待ちましょう

play03:13

全てダウンロードするのには結構時間が

play03:16

かかるので画面を閉じずに待つようにして

play03:18

くださいこちらの環境では15分ぐらいに

play03:21

別のコマンドウィンドウが立ち上がって

play03:23

またダウンロードが始まりましたまた

play03:26

しばらく待っているとブラウザでソフトが

play03:28

起動します動中のコマンド画面は絶対に

play03:31

閉じないようにしてねデフォルトの表示は

play03:34

中国語ですがブラウザの翻訳機能を使えば

play03:37

日本語に表示を変えることもできます

play03:39

ブラウザの翻訳機能で日本語に表示を

play03:42

切り替えてみました右上のモカさの項目に

play03:45

ある下のクラをクリックするとデタ

play03:48

フォルダ内にある音声モデルが表示され

play03:50

ます最初に表示されているのはあかめ作成

play03:54

者であるズタさんが作ってくれてある音声

play03:57

モデルですチェックボックスにチェックを

play03:59

入れてモデルを選択します右の選択リスト

play04:02

にCPUとクダゼがあるのでGPUを使う

play04:07

場合はクダゼロを選択します音声の生成

play04:10

速度はGPUの方が早いです右にある選択

play04:14

リストで言語を選択しますzhは中国語

play04:18

jpは日本語enは英語だよ火災模けを

play04:22

クリックしてモデルをダウンロードします

play04:24

すると左下にダウンロードされたモデルが

play04:26

表示されます右上にあるボタンをクリック

play04:29

して選択状態にすれば音声を作る準備は

play04:32

完了です右にある文章入力欄に文章を入れ

play04:36

て音声を生成してみましょう文章を入力し

play04:39

たら青いボタンを押しましょうすると音声

play04:41

モデルの下のところに音声が作成されまし

play04:44

た三角ボタンを押すと音声が再生されます

play04:47

音声をダウンロードしたい場合は右側の

play04:50

ダウンロードボタンをクリック

play04:52

ダウンロードした音声がこちら皆さん

play04:55

こんにちはお元気です

play04:57

か少しアクセントがおかしいけどきちんと

play05:01

喋ってくれてるねパラメーターを調節する

play05:03

と音声を調整することができます長さの

play05:06

ところを調節すると話のスピードを変える

play05:09

ことができるよ他の音声モデルを使って見

play05:12

たい場合はこちらもあらかじめ用意して

play05:14

くれてある音声モデルを新たに

play05:16

ダウンロードすることができます操作画面

play05:18

とコマンド画面を閉じて早速ダウンロード

play05:21

してみよう現時点で27人分の音声モデル

play05:25

をダウンロードすることができますフルダ

play05:27

にあるこの画面のバッチファイルをダブル

play05:29

クリックしますコマンド画面が起動するの

play05:31

でキーボードのワを押してエンターキーで

play05:34

ダウンロード開始全部で18Gほどあるの

play05:37

で容量を確保してあるか確認してから

play05:40

ダウンロードするようにしてね

play05:42

ダウンロードが終わるとデータフルダ内に

play05:44

ダウンロードした音声モデルが保存されて

play05:46

います早速ダウンロードした音声モデルを

play05:49

使って音声を作ってみましたブラウザを

play05:52

起動する時はよりuui.Bダブル

play05:55

クリックしてねあなたがそんなこと言う

play05:59

なんてね私はとっても嬉しいあなたが

play06:03

そんなこと言うなんて私はとっても怒っ

play06:06

てるあなたがそんなこと言うなんて私は

play06:09

とっても驚いてるあなたがそんなこと言う

play06:12

なんて私はとっても辛いあなたがそんな

play06:16

こと言うなんて私はとっても嬉しいあなた

play06:20

がそんなこと言うなんて私はとっても怒っ

play06:23

てるあなたがそんなこと言うなんて私は

play06:27

とっても驚いてるあなたがそんなこと言う

play06:30

なんて私はとっても辛いあなたがそんな

play06:33

こと言うなんて私はとっても嬉しいあなた

play06:37

がそんなこと言うなんて私はとっても怒っ

play06:40

てるこれだけでもたくさんの音声モデルが

play06:43

使えるのでとりあえずバートビ2の機能を

play06:46

確認してみたいという方にはこのイージー

play06:48

バービ2はおすすめ

play06:50

[音楽]

play06:52

ですでは次にスタイルワート2の解説に

play06:56

移りたいと思いますまずはじさんのビッ

play06:59

ページへ移動しましょうURLは概要欄に

play07:02

も記載してあるよインストールのところに

play07:04

あるZIPファイルをダウンロードします

play07:06

ファイルを回答したらグラフィックコード

play07:09

を使える環境の人はインスーSTYB.

play07:12

Watchをそうでない人はインスー

play07:15

スイバBCPU.Watchをダブル

play07:17

クリックしますするとコマンド画面が起動

play07:20

しますダウンロードには少し時間かかり

play07:23

ます容量はそれなりに確保するようにして

play07:26

ねモデルのダウンロードまで終わったらで

play07:29

起動しますデフォルトでもモデルが入って

play07:31

いるのでこの状態でも使うことができます

play07:34

試しにロードボタンをクリック音声構成

play07:37

ボタンをクリックして音声を作成してみ

play07:39

ました青い三角ボタンをクリックすると

play07:41

音声が再生されますできた音声はこんな

play07:44

感じこんにちは初めましてあなたの名前は

play07:49

何ていうの音声のダウンロードは矢印

play07:52

ボタンをクリックすればダウンロードでき

play07:53

ます他の音声モデルを使うにはどうすれば

play07:56

いいの自分で作った音声モデルや作成済み

play08:00

の音声モデルを使うことができます今回は

play08:03

自分で作って用意してみましょうまずは

play08:05

作りたい音声モデルの音声データを用意し

play08:07

ます音声データの詳しい作り方は前回の

play08:11

動画AIボイスチンチrvcであなたも

play08:14

リアルタイムで簡単未少女ボイスにお見て

play08:17

用意してみてね用意した音声データから

play08:19

学習データセットを作りますまずは用意し

play08:22

た音声データをスルバbit2フォルダに

play08:25

あるinフォルダ内に保存しますスルバつ

play08:29

フォルダにあるデタセット.Watchを

play08:31

ダブルクリックしますするとブラウザで

play08:34

簡易学習用データセット作成ツール打起動

play08:37

しますモデル名を入力してスライスを実行

play08:40

をクリックしますスライスが終わったら

play08:42

音声の文字起しをクリックします音声の

play08:45

文字起しまで終えたら学習データセットの

play08:48

完成ですポルダ内にあるトレイ.Gを

play08:51

ダブルクリックで学習を始めますスタイル

play08:53

が飛びつつ学習用WEBUIがブラウザで

play08:57

起動しますモデル名を先ほどと同もにして

play09:00

自動全処理をクリックします今回はボッ数

play09:03

を120にしてみましたがデフォルトの

play09:05

100で十分だと思いますこの辺りは自分

play09:08

の環境に合わせて調整してみてね少し待つ

play09:11

と自動税処理が終了します次は学習を開始

play09:15

するをクリックして学習スタート学習に

play09:17

かかる時間は用意した音声データの長さや

play09:20

ボックス使用するGPU等によります学習

play09:23

開始直後のコマンドプロンプとはこんな

play09:25

感じです時間がかかるのでしばらく待ち

play09:28

ましょう学習終了時の画面はこんな感じ

play09:30

です学習が終わったらPPP.Watch

play09:33

をダブルクリックして早速音声モデルを

play09:36

試してみましょうスタイルは飛びつつ音声

play09:39

法成がブラウザで起動しますモデル一覧は

play09:42

先ほど作成した音声モデルの名前と一致し

play09:44

ているのを確認してロドをクリックします

play09:47

音声合成をクリックして音声を確認してみ

play09:51

ましょう合成した音声は三角マークを

play09:53

クリックすると再生できますこんにちは

play09:57

初めまして

play09:59

さんの名前は何て言うのやったテストで

play10:01

満点取れた私とっても嬉しいなどうして私

play10:05

の意見を無視するの許せないのか

play10:09

つくこの漫画めっちゃ笑える見てよ

play10:14

これあなたがいなくなって私は1人になっ

play10:17

ちゃって泣いちゃいそうなほど

play10:20

悲しい音声をダウンロードしたい時は矢印

play10:23

ボタンをクリックしますその他音声モデル

play10:26

同士をマジして新しい音声モデルを作ると

play10:29

いった能もありますが今回の動画では基本

play10:32

的な部分の解説に止めておきます本当に

play10:36

テキストだけでちゃんと感情豊かな音声を

play10:39

作れちゃうんだね実はテキストの表記の

play10:41

仕方次第で同じ文章でも違う音声になっ

play10:44

たりもします試しに先ほどの例文にビック

play10:47

マークを増やして音声を合成してみました

play10:50

こんにちは初めましてあなたの名前は何て

play10:54

いうの本当ださっきよりも元気の良い音声

play10:57

になってる今度は点々にしてみましたお

play11:01

こんにちは初めましてあなたの名前は何て

play11:04

いうの今度は少し元気がないような感じの

play11:08

音声になったねこんな感じで表現したい

play11:11

感情や喋り方になるように自分なりに

play11:14

うまく調整してみるとよりリアルな音声を

play11:16

再現できそうですねイージーバトbit2

play11:19

はあらかじめたくさんの音声モデルが

play11:22

使えるのが魅力だけどスタイルバート

play11:24

ビッツ2の方はこうして自分の好きな音声

play11:27

モデルを簡単に作れちゃうのがすごいね

play11:30

これからもっと技術が進化してよりリアル

play11:32

な音声が誰でも簡単に作れるようになる日

play11:35

が来るのも相当苦ないかもしれませんね

play11:37

前回にも呼んだリアルタイム温泉編の

play11:41

rvcと使い分けられるといい感じだ

play11:46

ねというわけでテキスト入力で自然な

play11:49

喋り声を作ってみようでした皆さんもぜひ

play11:53

チャレンジしてみてねこの動画が良かった

play11:56

と思っていだけた方はぜチャンネル

play11:59

いいねボタンを押してもらえると嬉しい

play12:01

ですそれではまた次の動画でお会いし

play12:04

ましょうご視聴ありがとうございましまし

play12:07

たバイ

play12:08

[音楽]

play12:18

バイ

Rate This

5.0 / 5 (0 votes)

Do you need a summary in English?