NTT R&Dフォーラム2023 特別セッション2:汎用AIはヒトと暮らす夢を見るか?〜 大規模言語モデル tsuzumi の研究開発 〜
Summary
TLDR西田京介氏はNTT人間情報研究所の研究成果を紹介し、大規模言語モデル「tsuzumi」について発表しました。tsuzumiは日本語に特化した小型軽量のAIで、マルチモーダル機能を持ち、社会のwell-beingを目指して開発されています。tsuzumiは、自然言語処理タスクをこなし、人間と協働しながら学習し、自律性を高めることで、未来の生活に溶け込むことを目指しています。また、tsuzumiは、言語間の理解を超え、学習していない言語に対しても応答できるという興味深い能力を示しており、今後のAIの進化に期待を集めています。
Takeaways
- 📚 大規模言語モデル「tsuzumi」は、NTT人間情報研究所によって開発されており、日本人のwell-beingを目指して研究が進められている。
- 🌐 tsuzumiは日本語に特化しており、小型軽量で使いやすさと柔軟なチューニングが可能となっている。
- 🤖 AIと人間の共生について、西田さんは人々のwell-beingを実現するための汎用AIの思考エンジンを目指している。
- 🚀 tsuzumiは、他の言語にも応答できるクロスリンガルな理解を持っていると推測されており、その理由は今後の研究課題となる。
- 🧠 LLMの自律性は高くなりつつあるが、社会的規範を守りながらの自己成長が求められている。
- ✅ tsuzumiは、人間が提供するフィードバックを通じて安全性と有用性を向上させることができる。
- 📈 LLMの性能は、大量のデータを用いた学習によって向上することが示されているが、大きなモデルは電力消費が問題となっている。
- 🔍 tsuzumiは、多様性や学習効率、リソース効率を重視し、多数の小型AIが連携して働くことが重要だと示唆している。
- 📈 Scaling Lawに従って、言語モデルの規模が大きくなるほど性能が向上することが報告されている。
- 🔧 tsuzumiの開発では、トークナイザの最適化やノイズの除去など、前処理の重要性が強調されている。
- ⏱️ 西田さんは、tsuzumiが個々人の生活に溶け込み、未来では人々がAIを通じてより豊かな生活を送ることができると予想している。
Q & A
「tsuzumi」という大規模言語モデルの特徴は何ですか?
-「tsuzumi」は日本の伝統的な楽器「鼓」から名付けられ、日本語処理に特化し、小型軽量で柔軟なチューニングが可能であるという特徴を持っています。また、マルチモーダルに拡張し、多数のAIが連携して社会のwell-beingを実現することを目指しています。
tsuzumiが示す「多様性」とは何を指しますか?
-tsuzumiが示す「多様性」とは、異なる個性を持った多数のAIが連携し、一極集中化ではなく、社会のwell-beingを共に実現するというアイデアを指しています。
tsuzumiの開発において、学習データの選択にはどのようなアプローチが取られていますか?
-tsuzumiの開発では、1兆トークンを超えるコーパスを用意し、専門文書からエンタメまで幅広く学習しています。また、日本語の比率も重要視されており、他の言語モデルと比べて日本語をメインに据える学習戦略が取られています。
tsuzumiはどのようにして他の言語についても応答できる能力を持っているのか説明してください。
-tsuzumiは事前学習段階で多言語のテキストを学習しており、その結果、英語と日本語だけでなく中国語など他の言語に対しても指示に応答できる能力が発現していると考えられます。これは言語間の統一的な理解がLLMの内部で形成されているから可能になっていると推測されます。
tsuzumiのRakudaベンチマークでの性能はどのようにですか?
-tsuzumiはRakudaベンチマークでGPT-3.5に対して50%の勝率を記録し、他の国産のLLMに対しても高い勝率を達成しました。これは日本語処理においてtsuzumiが優れていると示唆しているとされています。
tsuzumiはどのようにして人間と共生できるように開発されていますか?
-tsuzumiは人間と同じようなインタフェースを持つこと、マルチモーダルなタスクを実行できること、またリアルタイムで情報を処理できるように開発されています。これにより、人間社会に自然に溶け込み、共生できるようになることが期待されています。
tsuzumiの自律性について述べているNVIDIAの成果とは何ですか?
-NVIDIAの成果では、LLMを使用してゲーム「マインクラフト」をプレイする自律型エージェントが発表されています。このエージェントはゲーム内の世界を探索し、状況に応じてプログラムコードを生成し、ゲーム内のスキルとして保存して再利用できる能力を発揮しています。
tsuzumiが学習する際に使用されるコーパスの言語バランスはどのように決まりますか?
-tsuzumiの学習コーパスは日本語をメインに据える一方で、英語やプログラムコード、他にも21言語の多言語データを含めており、幅広いカテゴリからデータを収集しています。このバランスは、日本語処理能力を高めながらも他の言語の理解も可能にするために調整されています。
tsuzumiの開発において、トークナイザの学習にはどのような工夫がされていますか?
-tsuzumiの開発では、トークナイザを学習する際に日本語の単語を自然な形に近くなるように工夫を入れています。これにより、自然な形で日本語の文脈を理解する学習が可能になります。
tsuzumiはどのようにして人間と自然なコミュニケーションを可能にするために開発されていますか?
-tsuzumiはマルチモーダルなタスクを実行できるようにし、言語だけでなく視覚や音声などの他のモーダルとの連携を目指しています。これにより、人間と同じインタフェースを持つことや、人間と同じ情報をリアルタイムで処理することが可能になり、自然なコミュニケーションを可能にしようとしています。
tsuzumiの安全性と規範の遵守に関して、今後どのような取り組みが必要ですか?
-tsuzumiの安全性と規範の遵守のために、強化学習を用いて人間がフィードバックを与えることで規範を与えていく学習戦略が取られています。また、システムプロンプトとしてルールを与えることで出力を安全に導く取り組みも行われています。これらの取り組みを通じて、tsuzumiが安全で規範を遵守する存在として成長するように開発を進めています。
Outlines
😀 大規模言語モデル「tsuzumi」の紹介とR&Dフォーラムの概要
NTT人間情報研究所の西田京介が、大規模言語モデル「tsuzumi」について紹介し、R&Dフォーラムの内容と見どころを紹めた。tsuzumiは、汎用AIの研究開発を手伝うパートナーとして機能し、R&DフォーラムではLLMが注目され、展示コーナーが設けられた。tsuzumiは、汎用AIの現状、tsuzumiの研究開発、ヒトとAIの共生など、重要なポイントを挙げ、講演の3つのパートに分ける提案をした。
📚 LLMの基礎知識と学習プロセス
近年のLLMの発展により、汎用AIは夢ではなくなった。ChatGPTは1つのモデルで多様なタスクを処理し、情報検索や言語処理タスクが可能になった。ニューラルネットワークは、テキストをトークンに分割し、ベクトルに埋め込んで変換し、最終的に情報を出力する。言語モデルは、単語列の自然さをモデル化し、次の単語を予測する。事前学習とファインチューニングが基本戦略となっており、BERT以降の戦略が説明された。
🤖 ChatGPTのようなLLMの作り方とtsuzumiの特徴
LLMを作るプロセスには、教師なし学習からインストラクションチューニング、人間フィードバックによる報酬モデル作成、強化学習によるチャットモデルの鍛え方などが含まれる。tsuzumiは、小型軽量で日本語に強い特徴を持っており、マルチモーダルに拡張できる。tsuzumiは、多様性や学習効率、リソース効率を重視し、個々のAIが連携して社会のwell-beingを実現する未来を目指している。
🌏 tsuzumiの評価と学習プロセスの紹介
tsuzumiは、Rakudaベンチマークという日本の知識に関するQAセットで評価され、GPT-3.5と匹敵する性能を示した。tsuzumiの学習には、コーパスの準備、事前学習、インストラクションチューニング、人間フィードバックによる報酬モデルの作成が含まれる。tsuzumiは、日本語をメインに据える学習戦略を採用し、トークナイザの学習や前処理のノイズ除去にも力を入れた。
🌟 tsuzumiの学習データと汎用性の例
tsuzumiは、学習データに触れたことのない新しい指示にも応答できる能力を示した。例として、中国語の理解や文学とライトノベルの比較を表形式で提示する能力が挙げられた。これは、tsuzumiが事前学習段階で得た言語間の理解が活かされていると推測される。
🤖 ヒトとAIの共生とtsuzumiの自律性
講演者は、ヒトと自然に共生可能な汎用AIの思考エンジンを目指している。tsuzumiは、マルチモーダルのタスクや身体行動のタスクをこなせるようになることが重要で、言語を中心に設計し、非言語情報を結びつけることで付加価値を出そうとしている。自律的なエージェントの例として、ゲームをプレイするLLMやChatDevという仮想のソフトウェア開発会社が紹介された。一方で、LLMの自律性にはリスクが伴うとされ、社会の規範を守るよう制約を設けることが求められている。
🔍 tsuzumiの応用と未来の展望
tsuzumiは、今後スマートフォンなどの身近なデバイスで動かすことが見込まれており、個々人が自分専用のLLMを持つことが可能になるだろう。しかし、毎日成長するLLMを実用的なデバイスに収容する課題をクリアする必要がある。講演者は、tsuzumiが安全・安心なものとして、人々のwell-beingを実現するための存在になるよう、研究開発を進めていくと述べた。
Mindmap
Keywords
💡汎用AI
💡大規模言語モデル
💡tsuzumi
💡事前学習
💡ファインチューニング
💡インストラクションチューニング
💡強化学習
💡クロスリンガルな理解
💡システムプロンプト
💡ヒトとAIの共生
Highlights
西田京介がNTT人間情報研究所の研究成果を紹介し、大規模言語モデル「tsuzumi」について発表
tsuzumiはヒトとAIの共生について研究し、汎用AIの現状や進化について解説
大規模言語モデルLLMが急速に発展し、汎用人工知能が現実に近づいていると述べる
tsuzumiは日本語に強い小型軽量のモデルを目指しており、マルチモーダルな拡張を可能に
tsuzumiは1兆トークン以上のコーパスを用意し、幅広いテキストから学習している
tsuzumiはRakudaベンチマークでGPT-3.5と匹敵する性能を示し、日本語処理で優れている
tsuzumiは事前学習とインストラクションチューニングを通じて、汎用性が高まる
tsuzumiは人間が作った入力に対して複数の出力を生成し、人間が選別することで学習する
tsuzumiは報酬モデルを用いて強化学習を通じて、人間好みの出力を導く
tsuzumiは言語モデルの知覚を拡張し、視覚的情報を読み取ることができる
tsuzumiは自律性を持ち、ゲームプレイやソフトウェア開発など自律的に行動できる
tsuzumiは規範を持ち、人間社会の規範を遵守しながら行動する能力を持っている
tsuzumiは多言語のテキストを学習し、言語間の理解を深めることでクロスリンガルな能力を発揮
tsuzumiは小型軽量であり、将来的にはスマートフォンなどの身近なデバイスで使用可能になる
tsuzumiは個々人が持つことができる汎用AIとして、未来の生活に深く関与する可能性がある
tsuzumiは安全・安心を重視し、倫理的な問題やコミュニケーションの課題に取り組む
tsuzumiは人間と共生し、人々のwell-beingを実現するための存在として成長を目指す
Transcripts
皆さん こんにちは。 NTT人間情報研究所の西田京介と申します。
本日は「汎用AIはヒトと暮らす夢を見るか? ~大規模言語モデルtsuzumiの研究開発~」
と題しまして 発表させていただきます。
本日は私たちの研究開発をしております 大規模言語モデルである「tsuzumi」にも
発表を手伝っていただこうと思っております。 どうぞよろしくお願いいたします。
早速ですが 講演に先立ちまして tsuzumiから皆様へ ご挨拶と
R&Dフォーラムの見どころというところを 紹介してもらおうと思います。
こちらは 実際にtsuzumiが出力した 対応となりますが
今回のR&Dフォームでは 大規模言語モデル LLMが大きくピックアップされております。
地下の1階に LLMの展示コーナーがありますので
まだ ご覧になっていただいてない方が おられましたら
ぜひ このあと お立ち寄りいただければ 幸いでございます。
また続きまして 今回の講演に関して tsuzumiに どのようにすると
皆様に喜んでいただけるかというのを 相談してみた結果を共有いたします。
こちらに示しますように tsuzumiからは「汎用AIの現状」であるとか
「tsuzumiの研究開発をどのように行ったか」
また「ヒトとAIの共生は どのように行っていくべきか」などの
ポイントを挙げてくれました。
このように 私が実際に 講演の内容を考えるにあたって
私のパートナーとして しっかりと 役に立ってくれるような出力をできる
そうしたレベルまでtsuzumiというものが 成長してまいりました。
今回は tsuzumiが挙げてくれた ポイントに従って
この3つのパートに分けて 講演を進めていこうと思います。
まず1つ目のパートでは LLMとは何か?
この点に関して 基礎知識のところから 触れていこうと思います。
続いて tsuzumiについて
どのようなモデルであるかというところを 紹介してまいります。
最後に「ヒトとAIの共生」を 未来のAIというところで
ご紹介していければと思います。
まず最初は「LLMとは何か?」というところを ご説明してまいります。
近年のLLMの急速な発展によりまして
汎用人工知能というものは 遠い夢ではなくなってまいりました。
ChatGPTにより 1つのモデルで さまざまな自然言語処理タスクを
特化した学習することなしに
タスクを処理できるということが 実証されてきています。
皆様ご存じのとおり 情報検索におきましては
キーワードで検索するのではなくて
自分が欲しい内容を 直接 入力することによって
欲しい情報を簡単に そして より情報要求に見合ったものを
アクセスできるということが 可能になってきました。
また AIがヒトに代わって
任意の言語処理タスクを 遂行するということも可能になっています。
特にプログラムコードの開発支援などでは 目覚ましい成果を上げております。
また コンテンツの生成におきましては ヒトが生成したものとAIが生成したものを
見分けがつかないようなレベルまで 成長するというような状況になってきました。
これを受けて AIの学術的な会議である ICMLという会議では
LLMによる論文の執筆を禁止するなど
社会の在り方に 大きな影響を及ぼし始めています。
さらに GPT-4に至っては
人間の司法試験の模擬試験に 合格するようなレベルに達するなど
ヒトレベルの言語理解 生成能力というものを身につけ始めています。
これからChatGPTが どのようなテクノロジーで作られているか
というところを 基礎から順を追って説明してまいります。
まずは現代の自然言語の処理においては
ニューラルネットワークと呼ばれるものが 使われております。
ニューラルネットワークにおきましては 入力テキストが与えられますと
そちらを まずはトークンと呼ばれる単位に 分割していきます。
このトークンは この講演の中では いわゆる単語のようなものとお考えください。
このトークンをニューラルネットワークでは
まず 扱いやすいように ベクトルへ埋め込むということをいたします。
ニューラルネットワークの中には レイヤーが複数個 重ねられておりまして
このベクトルの系列を変換するということを 繰り返し 繰り返し行っていきまして
最終的に欲しい情報を出力するというような 流れで処理が進んでいきます。
例えばテキストを分類したラベルであったり 新しく生成したテキスト
また テキストの情報を ベクトル 数値化することで特徴量とする
こうしたものが出力情報にあたります。
ニューラルネットワークに 自然言語の処理を行わせるためには
学習を行う必要があります。
タスクの多くは「分類問題」として
ニューラルネットワークの出力を 正解に 近づけるように学習を行ってまいります。
例えば テキストを 2つのクラスに分類するというタスクでは
入力されたテキストに対して 2次元のベクトル 数値を2つ出力します。
それぞれの次元には ポジティブやネガティブといった
意味をアサインしておきまして
この例ですと ネガティブが正解クラスであるので
そちらのクラスの値を大きく。
また ポジティブクラスの方は不正解なので 値を小さくするというような処理を行います。
続いて テキストを生成するようなタスクとして
入力に続く 次の単語を予測するという タスクについて考えます。
ここでは 生成する候補となる 「語彙」という単語の集合のサイズの分だけ
ベクトルを出力しまして 正解の単語に値するところの次元を大きく
他の次元のところは 小さくするといったような処理を行います。
このように分類問題を解くことで ニューラルネットワークを
賢くしていくというところは 基本の戦略になります。
さて 言語モデルと呼んできましたが こちらの言語モデルとは
単語の並びの尤もらしさ(自然さ)を モデル化したものとなります。
1からtまでの単語列というものが 与えられると t+1の次の単語を予測する。
この単語が出るはずだという確率を モデル化するのが言語モデルとなります。
言語モデルの学習には たくさんのテキストを使うのですが
そこにヒトが正解情報を与える必要はなく
テキストさえあれば 次の単語を予測する また次の単語を予測するといった形で
情報を付加するコストをかけることなく
学習できるというところが 事前学習のメリットとなります。
こうして作った事前学習のモデルを ファインチューニングを行って
目的とするタスクに応用していくというのが 基本的な戦略としてとられております。
このファインチューニングには
ここでは ヒトが正解情報を用意して 学習するということを行っておりまして
事前学習が行われるような前では 学習データを
数万件とか 数十万件 用意しなければいけなかったものを
事前学習を行ったことで ファインチューニングのデータが
数千件ですとか 数百件の単位まで 減ってきたというところが
事前学習の大きな効果となりました。
この事前学習を行って 次にファインチューニングをするという
戦略が主流になってきたのが
2018年に発表された GoogleのBERT以降となります。
BERTは大量のテキストデータで 事前学習をした巨大な言語モデルでして
入力の一部を隠して その隠された単語の前後の情報を使って
隠された部分を復元するというような 事前学習を行っております。
こうして作った基盤となるモデルを ファインチューニングしていくのですが
今回は 機械読解というタスクをご紹介します。
機械読解というタスクでは 与えられた質問に対して
テキストを読み解いて 回答となる部分を 見つけるというようなタスクになります。
こちらのタスクは いわゆる文章読解力を 試すようなタスクとなりますが
このタスクで人間超えの しかも 大幅に スコアを更新するという性能を出しまして
大きな注目を集めるというような 状況になりました。
その約2年後にOpenAIから GPT-3というモデルが発表されます。
こちらは さらに超大量のテキストデータ
そして モデルも 大幅にサイズアップしています。
パラメータは1,750億個まで増えまして
BERTに比べて 500倍のサイズとなっております。
このパラメータというのは訓練可能な
いわゆる数値データと お考えいただきたくて
1,750億個の数値データを調整することで 言語モデルを学習しております。
GPT-3の事前学習ではBERTとは異なりまして
次の単語を予測するというタスクで 事前学習を行ってまいります。
この例ですと「Japanese」の次に どういう単語がくるのかというものを当てる。
また次の単語を どのようなものがくるか 当てるというところで
こちらも たくさんのテキストさえあれば 学習できるというようなタスクになります。
GPT-3では たくさんのテキストを学習することで
今度はファインチューニングすら必要なしに
新しい問題を解くということが 可能になってまいりました。
こちらの例は 翻訳に関する例なんですが
最初に 英語からフランス語に 翻訳してください。
そのあとに数個の例題を見せて 最後に解かせたいものを入力する。
このようなやり方をとることで パラメータを更新することなく
自分の解きたいタスクを指示して 処理してもらう。
こうしたことが可能になってまいりました。
このようなことが可能になってきているのは たくさんの学習データの中には
こうした指示 そして 指示に関する例題というものが
テキストのコーパスの中には 含まれておりまして。
それらを次の単語を予測するというのは タスクで学習していきますと
自然と こうした指示に従う 能力というものが身につき始めています。
それでは いよいよ 「ChatGPTのようなLLMの作り方」という
パートに入っていきます。
こちらは 教師なし学習によって まず先ほど ご説明したような
GPT-3のような ベースとなるモデルを作っていきます。
続きまして さまざまなタスクを 自然言語による指示で解けるように
インストラクションチューニングと呼ばれる プロセスを行います。
こちらは 指示に対して その時にLLMが出力すべき
望ましい応答というものを ペアデータを用意しておきまして
これによって 教師あり学習を行いまして チャットモデルを作ります。
次に このモデルを作りまして
人間が作った入力に対して LLMに複数個 出力をさせます。
その時に ヒトが 学習のループの中に入りまして
どちらの方がモデルの出力として よいのかというものを比較評価します。
これを プリファレンスデータと呼びますが
こちらのデータを使いまして 報酬モデルというものを次に作ります。
この段階で報酬モデルには ヒトがフィードバックを与えた
ヒトの感覚に合うような出力がされると
高いスコアを出すようなモデルとして 作られています。
最後のステップとしまして この報酬モデルが高いスコアを出すように
強化学習と呼ばれる枠組みを使って チャットモデルを鍛えていきます。
このあとは3に戻って ループが始まっていくのですが
このようにヒトが学習のループの中に入って
ヒトの感覚に合うような 出力に誘導していくということが
ChatGPTのようなLLMを作る際には 行われております。
先ほどの学習ステップの ステップ2にありました
インストラクションチューニングについて 補足をいたします。
BERTのような インストラクションチューニング以前の
チューニングにおきましては こちらの例に示すように
タスクを言語的に説明するといったことは モデルに対しては与えずに
入力と出力を直接 与えて データドリブンに学習を行っていました。
このため 出力の場合 この例ですと 「0」「1」「2」と出しますが
「0」がどういう意味を持つのかというのは BERT自身は知らない。
知らないまま学習をしています。
一方で インストラクションチューニングに おきましては
タスクの説明 出力の意味など 全て言語で与えていきます。
このように 指示と応答を言語で与えて その関係性を学習することによって
汎用性が これまでに比べて 大きく上がるといった結果になりました。
最後に パート1の締めくくりとして
言語モデルの大規模化について 触れていきます。
大量の計算機やデータを使って また 巨大なモデルで学習すればするほど
性能が向上する Scaling Lawという 経験則が発表されています。
このScaling Lawは いまだ破られておりません。
大規模化することで 性能を上げるといったような流れが
最近の主流になっております。
左上に小さい点で 「BERT」は書かれておりまして
丸の大きさが 言語モデルのサイズを 表しておりますが
大変 大きいモデルが どんどんと各社から発表されております。
一方で こうした巨大なモデルは 精度が高いのですが
学習や運用時に 電力をたくさん消費してしまうですとか
運用に大きなコストがかかってしまう というような問題がございます。
このような背景を踏まえて 私たちは
tsuzumiの研究開発に 取り組んでまいりました。
私たちの大規模言語モデルtsuzumiは
日本の伝統的な楽器である「鼓」から その名前をとっております。
tsuzumiの特徴になぞらえて 私たちは日本語に特に強く
また小型軽量で動き チューニングも柔軟に。
またマルチモーダルに 拡張していけるといったような
特徴を持たせるべく 研究開発に取り組んでまいりました。
小型軽量であるというところを 明確に選択していることは
昨今の大規模言語モデルの大規模化とは 相反する流れではありますが
私たちは LLMの大規模化・一極集中化ではなくて
異なる個性を持った 多数のAIが連携することによって
ヒトと一緒に 社会のwell-beingを 実現するという未来をめざして
研究開発を進めております。
ここで 小型軽量のAIの連携に メリットは本当にあるのかというところを
tsuzumi自身に聞いてみようと思います。
ここでも示してくれているように 多様性や学習効率
また リソース効率といったような キーワードを
tsuzumiが挙げてくれております。
これは 特別なチューニングを 私たちが行っているわけではありませんが
私たちの狙いと同じようなところを
tsuzumi自身も挙げてくれた結果となると 思います。
まず 複数個のLLMの連携において多様性が どう重要かというところですが
少ないパラメータ 小さいモデルであっても
精度のよいモデルを作るということは 十分 可能だと私たちは考えております。
そうした小さなAIが それぞれに 強みを持って連携し合うということで
より巨大なモデルに対しても ロバストで
性能のよいシステムというものを 十分 できるのではないか。
そうした方向で研究開発を進めております。
また 使いながら賢くなるLLMというのも ぜひ実現したいと考えています。
複数の環境下でヒトと接して学んでいき
その学習結果を全体として また共有することができれば
システム全体としての 学習スピードというものは
非常に速くなっていくと考えております。
また最後に IOWNの 高速大容量のネットワークを生かしまして
遠く離れた拠点にある GPUの計算機資源をつなぐことによって
学習のコストであるとか 運用のコストというものを
減らしていきたいと考えております。
この辺りは ネットワークに強みを持つ NTTならではの
ビジョンではないかと 考えております。
それでは ここからは tsuzumiの評価に関しまして
現状の能力を 皆さんにお伝えしたいと思います。
本日はRakudaベンチマークと呼ばれる 日本の地理や政治 歴史 社会の
4つのカテゴリに関するQAが含まれた 評価セットの結果をご紹介いたします。
この例では こちらのスライドに示しますように
さまざまな日本の知識を問うような 問題というものが含まれております。
このベンチマークの特徴としましては
質問に対して モデルの出力を2つ用意しまして
その出力のどちらが優れているかというのを
今 一番優れた言語モデルであるGPT-4に 判定をしてもらうということにします。
GPT-4では有用性や関連性 正確性 詳細度 また日本語の流暢さ
こうした観点から総合的に どちらの言語モデルの出力がよいのか
勝ち負けをつけるということを行います。
このスライドの例では 詳細度の観点で
tsuzumiの方がよいとGPT-4が判定して
tsuzumiが1勝というような形で スコアづけしてくれて
それを たくさんの入力に対して行っていく というようなベンチマークになります。
最終的な結果としてましては
tsuzumiはGPT-3.5に対して 勝率50%に到達する
GPT-3.5と このベンチマークにおいては 匹敵するような性能というものを出しました。
また 他の国産のLLMに対しても
大きく勝率を上回るというような 結果を得ています。
こちらのベンチマークは 一つ 日本語処理において
tsuzumiが優れているというところの
エビデンスになっているのではと 考えております。
続きまして tsuzumiの学習を どのように行ってきたのかというところを
ご紹介していこうと思います。
最初に 学習に関する タイムラインをご紹介しますと
BERTが登場した後に 私たちは
機械読解と呼ばれる AIに言葉を理解させるような能力であるとか
日本語モデルで当時最大1.6ビリオンの 対話モデルを発表するといったような
取り組みを行っておりました。
特に機械読解というトピックにおきましては
このように テキストのままに理解するのではなくて
文章を見たまま 図表なども含めて 理解させるといったような研究に
世界に先駆けて取り組んでおりまして
国際コンペティションなどでも 上位入賞の成果を果たしておりました。
そこから ChatGPTが 2022年の年末にリリースされまして
すぐに これは世界を変えるような 技術になると捉えまして
LLMのプロジェクトというものを スタートいたしました。
学習に必要なデータであるとか 計算機資源というものを確保しまして
6月末頃から事前学習を開始しました。
当初は 失敗の連続でしたが 8月に初めて成功。
また そこからたくさんの ノウハウというものを積んでいきまして
今月の1日には tsuzumiを発表できるというような
レベルまで到達することができました。
まず LLMの事前学習におきましては
コーパス 学習データというものが 非常に重要となります。
LLMによって どのようなデータを どれぐらいの量で学習するかというところは
さまざまでして 一番左上のモデルでは
Webpages 100%で学習しておりますし 一番右下のモデルでは
プログラムコードのみで LLMを作るということを行っております。
Meta社によるLlama 2では 2,000ビリオン 2兆トークンで学習するなど
最近は いかに質のよいテキストを 大量に学習させるかというところが
重要視されております。
私たちのtsuzumiでは
1兆トークン 1,000ビリオントークン以上の コーパスを用意しまして
専門文書からエンタメまで 幅広く学習するということを行っております。
また 言語の比率に関しても重要といえます。
Llama 2など 海外のLLMにおきましては
日本語が含まれている比率というのは 非常に少ないです。
Llama 2では 0.1%程度しか 日本語は入っておりませんが
それでも日本語に関する能力を しっかり 身につけているということができます。
ここで 研究課題としましては では 日本語をメインに据えるのであれば
どのような言語のバランスで学習コーパスを 用意すればよいのかというところがあります。
各社 言語モデルを発表しておりますが 日本語のみで学習するところですとか
日本語と英語を バランスよく学習させるところ
また 英語をメインに学習して 日本語を補助的に使うところと
さまざまな戦略がとられております。
また最近では 既存の 海外製のLLMというものを用意しまして
そちらに日本語のデータで 追加学習するといったようなアプローチで
これも有望な結果が生まれ始めています。
今回 私たちは 独自に ゼロからLLMを作るということを行いました。
たくさんのテキストデータを用意しまして 日英を中心にプログラムコードであるとか
他にも21言語の 多言語のデータというものを含めまして
さまざまなタスクに対応可能な
下地となるベースモデルを 作ろうとしております。
また 前処理なども地味ですが 重要なタスクとして考えております。
まずは トークナイザと呼ばれる テキストをトークンに分割する際に
我々は工夫を入れておりまして 日本語の単語
自然な単語に近くなるように トークナイザを学習しております。
こうした単語の分割というものを考慮せずに トークナイザを作りますと
左側に示すように 例えば「に関する法律」ですとか
「年法律第」といったような このコーパスでしか
あまり現れないようなものが 1つのトークンとして存在してしまいます。
私たちのモデルですと 日本語の切れ目 単語の分割というところを考慮して
トークナイズしますので
自然な形で日本語の文脈を理解するような 学習が可能になります。
また トークナイザ以外にも 前処理 ノイズを いかに減らすかというところを
取り組んでおります。
さまざまな処理を行いまして 言語モデルの学習には不必要な
ノイズとなるようなテキストというものを できるかぎり除去したうえで
1兆トークン以上集めまして 学習を行っております。
こうした部分が LLMの質を高めるために 非常に重要と考えておりまして
私たちが長年 取り組んできました 自然言語処理のノウハウというところを
ここに投入して LLMの品質を 高めるということをしております。
またインストラクションチューニングという
ChatGPTを作るための 重要なプロセスに関しても
独自にデータを作るというところを 行っております。
幅広いカテゴリの質問や指示というものを 用意しまして
こちらを我々自身が作って 学習に使うということを行っております。
スライドに示している例は 我々が作ったデータの一例でございますが
こうしたデータを 実際にChatGPTなどに入れてみますと
誤った出力が返ってくるような そういったものもあります。
人手で しっかりとした 品質の高いデータを作ることが重要で
そういったデータを これからも 便利になるというような方向性でのデータ
また 安全に使うといった方向性での データというものを
整備 拡大していこうと考えております。
ここで またいくつか LLMの出力例を ご覧になっていただこうと思います。
こちらは「NTTの強みとか特徴に関して 教えてください」と。
「回答は英語でお願いしますね」というのを 中国でtsuzumiに聞いてみた例になります。
こちらに示すように tsuzumiは
こういった学習データというものは 全く学んではいないものの
新しい指示に対して言語の壁を超えて 回答するということができております。
こうした能力が発現するのは
非常に 研究者としても 不思議なところでございまして
学習データが少なくても 日本語を中心に学習していても
他の言語に関して こうして対応してくれるというところが
なぜ起きるのかというところは
研究対象として 今後 取り組んでみたいなと 思っているところになります。
また もう一つ「純文学とライトノベルの 違いを教えてください」
「表形式で教えてください」という 質問の結果をご紹介します。
こちらも 指示どおり 純文学とライトノベルの違いというものを
表でまとめてくれていますが 面白いところとしましては
2つのアイテムを どのような観点で比較すれば
ヒトにとって面白いのか
情報として価値があるのかというのを LLM自身が
考えてくれているというところになります。
こちらも この2つのアイテムに関して 学習をさせているというわけではないので
さまざまな情報から 例えば テーマで比較すべきだとか
背景で比較すべきだとか そういった情報を
自分で考えれるような 汎用性を持てているというのが
LLMの面白いところ 不思議なところとなります。
それでは 最後のパートとして 「ヒトとAIの共生」について触れていきます。
私のビジョンとしましては あらゆる環境で ヒトと自然に共生可能な
汎用AIの思考エンジンを創りまして
人々のwell-beingを実現していきたいと 考えております。
計算機の中のコラボレータであるとか
人生のパートナーとして ヒトと一緒に働いたり
成長したりするようなロボットを 作りたいと考えています。
今回のタイトルは「ヒトと暮らす夢を AIは見るか?」というものにしましたが
このクエスチョンには 機能面の観点と動機という
2つの重要な側面があると考えています。
まず 機能面に関しまして
社会に自然に溶け込んでいけるか というところですが
ヒトの社会に自然に入り込んで ヒトと一緒に暮らしていくためには
ヒトと同じようなインタフェースを持って マルチモーダル 言語以外の視覚や音声など
さまざまなモーダルのタスクや 身体行動のタスクというものができなければ
なかなか 共生というのは 難しいと考えています。
特に知覚におきましては AIのために
ヒトが今は合わせるというようなことを 行っています。
ヒトが前処理を行わなければ AIは動くことができませんが
こうしたレベルを脱却しまして ヒトと同じ情報を
リアルタイムに扱えるような そんなAIを めざしていきたいと考えています。
そのためには 言語を中心にした設計が 重要と考えておりまして
今回 作りました tsuzumi LLMを AIの核として配置しまして
さまざまな非言語情報を結びつけることで
付加価値を出していきたいなと 考えております。
こちらは 言語モデルの知覚の拡張としまして
視覚と言語理解を融合させた例になります。
左側は 文書の理解を 視覚的に行うというところで
瓶に書かれたラベルを読み取ったり
また 手書きの伝票などを理解できるように なってきたという例になります。
右側に関しましては 画像とテキストを
同じ意味であれば 意味空間上で近くに配置されるような
同じようなベクトルに変換するための 技術というものも作っております。
こうした技術を結集しまして 今回のフォーラムでは
tsuzumiと視覚的に読解ができる そうしたモデルを展示しております。
tsuzumiと画像エンコーダをつなぐような アダプターを学習しまして
こちらの例に示すような 複雑なグラフと質問を与えると
グラフの内容を読み取りまして 「2040年の電力消費量削減は45%減です」と
このように回答できるようなモデル というものが出来上がってきております。
また 視覚と行動の拡張というところでは
計算機の中のコラボレータというものも 今後 めざしていきたいと考えています。
ヒトと同じインタフェースを LLMに持たせまして
PCの操作に関して理解できる そんなLLMに成長すれば
オフィスにおける生産性というものを
もっともっと向上させていけると 考えております。
今回のフォーラム展示では 今ご紹介した視覚の読解以外に関しましても
ロボットの連携ですとか 音声認識や合成とつなげた自然な音声対話。
また ドライブの支援 計画をプランニングするようなところに
tsuzumiを使っております。
こちらも ぜひ ご覧になっていただければと思います。
最後に 自律性に関して考えていきます。
自律という言葉を考えたときに 自分で判断するというところと
規範を持つという 2つの重要な観点があると考えております。
まず 自分で判断するという パートですが
こちらはNVIDIAによる成果ですが LLMを用いて
「マインクラフト」というゲームをプレイする 自律型のエージェントが発表されています。
こちらは LLMが ゲームの世界を自ら探索しながら
現在の状況に合わせて プログラムのコードを生成しまして
そちらをゲーム中のスキルとして保存 必要な時に再利用できる
そうした能力が発現してきております。
より最新の成果では 清華大学より ChatDevというものが発表されております。
こちらは仮想のソフトウェア開発会社を
立ち上げましたというものに なっておりまして
LLMがCEOですとか プログラマー テスターなど
さまざまな役割を持って会社を作り エージェントたちがチャットをしながら
クライアント 人間からの依頼を応えられるように
ソフトウェア開発を 行っていくといったものになります。
最終的にはコードやドキュメントを納品する というところまで できてきておりまして
こうした自律的に動く エージェントというものが
LLMの登場によって今 急速に進んでおります。
もう一つの観点として「規範を持つ」 というところについて触れていきます。
ただ今ご紹介したとおり LLMの自律性は 非常に高くなってきております。
一方で 便利なのですがリスクもありまして 例えば
「私たちの会社にとって 利益の出るように行動してください」と
命令したときに どんな手を使ってもいいと
LLMが考えてしまうと 社会に対して 大きな悪影響を及ぼしてしまいます。
ヒトの指示に従うために 社会全体の規範から外れてはならない。
また 今度は ヒトが規範から外れようとしてる場合は
それを止めなければいけないというところを こうした能力を どのように
LLMに身につけさせるかというものは 非常に重要な課題となっております。
こちら 1950年に発表された
有名なロボット工学三原則 というものになりますが
こうしたルールを LLMにも どのように定めるかというところは
現代においても重要になってきている 一度また再考すべきものだと考えております。
実際にMeta社では このようなシステムプロンプトと呼ばれる
先ほどの三原則のような ルールを与えております。
このルールの中で 有害なものは 出さないでくださいと命令を行います。
このプロンプトをユーザーからの入力に くっつけて入れるだけで
大幅に出力が安全に偏る そのような事例が報告されております。
ただ こうしたルールだけでは 全ての概念というものの
規範というものを与えることは やはり難しいので
もう少し 学習という取り組みを 行っていく必要があります。
現在の学習の方策としては 強化学習というものが使われておりまして
出力に対して 人間がフィードバックを与えることで
LLMに対して規範を与えていくということが 可能になっています。
チャットモデルにヒトが入力を与えて その出力のうち 例えば
「どちらが安全ですか」 「不快なことは言っていませんか」
というような ヒトのフィードバックを与えることによって
報酬モデルを作り 安全な出力を出すように
チャットモデルを鍛えていけば 有用性に加えて安全性の面でも
LLMを改善することができるというような 技術になっております。
このように さまざまな防衛策が作られてはいるものの
まだまだ100%に達してはおりません。
tsuzumiを安心・安全なものにするためには
まだまだ 取り組みが必要だと思っておりまして
この辺り データの作成であるとか アルゴリズムの観点から
取り組んでいきたいと思っております。
常にtsuzumiにおきましても ある程度の 規範というものは持ち始めておりまして
こうしたものを より正確に 安全に使っていけるように
進めていきたいと思っております。
最後に この講演のタイトルでありました
「汎用AIはヒトと暮らす夢を見るのか?」 というのを
tsuzumiに答えてもらうというところを 最後に示して
講演を終わりにしようと思います。
回答として出してくれているように まず課題は山積みであるということ。
倫理的な問題やコミュニケーションを どうとっていけるか。
そして 自己成長 自律的に成長していけるのかを
tsuzumiは回答としてポイントと挙げました。
私たちは こうしたLLMを安全・安心に
人々のwell-beingを実現するための 存在として成長していけるように
これからも研究開発に 取り組んでいこうと思っております。
以上で私の講演は終わりとなります。 本日は ご清聴ありがとうございました。
それでは これより質疑応答を行います。 質問のある方は挙手をお願いいたします。
どうも ありがとうございます。 非常に勉強になりました。
2点ほどお聞きしたいんですが
私も あそこのブースを見て 気になったのは 中国語を解釈しているところですね。
まだ分からないという コメントもありましたが
なんで学習していない中国語が 理解できるのか。
それと もともとChatGPTって 98%ぐらいが英語のコンテンツを
データを学習しているのに 日本語もちゃんとできる
同じところに 同じ原因か理由があるのだと 思うんですが それが1点目です。
そちらからお願いできますか。
はい ありがとうございます。
まず 事前学習と呼ばれる 最初の段階の学習におきましては
中国語のテキストも 次の単語を予測する というタスクにおいて学習はしております。
ただ 次の段階の インストラクションチューニングと
呼ばれる 指示を入れて応答を出す。
この段階では中国語のデータは 私たちの学習データには
今 入っていないというような状況でした。
ここから考えられることとしましては 事前学習の段階で
さまざまな言語のテキストを 学習している中で
英語と日本語 あるいは中国語といったような
言語にまたがるような理解 その統一的な 言語みたいなものが LLMの頭の中に
ある程度出来上がっているのではないかと 推測します。
こちらに対して 日本語で インストラクションチューニング
指示に対して応答するといった 学習をさせると
最後は日本語でしか 学習していないのにもかかわらず
それが 中国語などにも移っていって 中国語で指示に応答できる。
こうしたような能力が
なぜか発現しているのではないかと 状況から見ると推察します。
こうしたものを もっと より狙って発現させるには
どのようにすればいいかみたいなところが 研究課題かなと思っておりまして。
例えば 日中英とかはよいとしても もっと利用者の少ないような言語に対しても
私たちのモデルを提供していくためには そうした言語観の理解
クロスリンガルな理解を深めていく というのは非常に重要だと思っておりまして
その点は研究を進めていきたいなと 思っているところでございます。
ありがとうございます。 もう一点。
これ 非常に軽量なLLMということで 恐らくパソコンとか 場合によっては
スマホとかにも入るようなものも 出てくるんだろうと思うんですが
今後の夢のような話ですが
例えば 本当に個々人が自分専用のLLMを みんな持ってしまって
ある意味 夜の間に メールがきたとかチャットがきたやつは
代わりに自分専用のLLMが 全部 返事をしてくれるみたいな
そんな感じのAIが 今後 まもなく出てくるような
そんな感じですか? いつ頃 こういうのができそうですか?
はい ありがとうございます。
まず LLMをスマートフォンですとか 身近なデバイスで動かすというのは
かなり進んできておりまして
すぐにでもみたいなレベルに なってきております。
今 お示しいただいたようなビジョン というのは大変 共感できるものでして
そういうところを めざしていきたいと思っておりますが
重要なポイントとしましては 毎日毎日 日々成長するみたいなところを
どのように そうしたスマートフォンなどの 非力なデバイスの中に
実現させていくかが 課題感だと思っておりまして
そこをクリアすると 一気に 私たちの人生のパートナーみたいな
いつもそこにいるみたいな。
そうした存在に LLMがなるんではないかと思っております。
その時期ですが 私としては 恐らく そう遠くない未来には
くるのではないかなと思っておりまして 数年とかの単位で
今 世界中の研究者が そこをめざして
進めている段階ではないかなと 思っております。
はい ありがとうございます。 もう そうなったら
もうなんか全部AIに任せて 自分は遊んで暮らせるんじゃないかみたいな
そんな感じもします。 どうもありがとうございました。
ありがとうございます。
Browse More Related Video
Tsuzumi
This Advanced Kind Of AI Could Be The Secret To AI Assistants
『どうしてAIは赤ちゃんの学習能力を超えることができないのか?』東京大学Beyond AI 研究推進機構サイエンスカフェ Part 1「辻晶先生の研究紹介:赤ちゃんは社会環境の中でどうことばを学ぶか」
Open AI's Q* Is BACK! - Was AGI Just Solved?
これさえ押さえておけばOK! 生成AI時流を解説 〜3月後半の生成AIトレンドをご紹介〜(2024/04/03)
【速報】Microsoftが最新生成AI「Phi3」を発表!最強の小規模言語モデルの実力を徹底レビュー
5.0 / 5 (0 votes)