NTT R&Dフォーラム2023　特別セッション2：汎用AIはヒトと暮らす夢を見るか？〜大規模言語モデル tsuzumi の研究開発〜

NTT official channel

7 Dec 202338:48

Summary

TLDR西田京介氏はNTT人間情報研究所の研究成果を紹介し、大規模言語モデル「tsuzumi」について発表しました。tsuzumiは日本語に特化した小型軽量のAIで、マルチモーダル機能を持ち、社会のwell-beingを目指して開発されています。tsuzumiは、自然言語処理タスクをこなし、人間と協働しながら学習し、自律性を高めることで、未来の生活に溶け込むことを目指しています。また、tsuzumiは、言語間の理解を超え、学習していない言語に対しても応答できるという興味深い能力を示しており、今後のAIの進化に期待を集めています。

Takeaways

📚 大規模言語モデル「tsuzumi」は、NTT人間情報研究所によって開発されており、日本人のwell-beingを目指して研究が進められている。
🌐 tsuzumiは日本語に特化しており、小型軽量で使いやすさと柔軟なチューニングが可能となっている。
🤖 AIと人間の共生について、西田さんは人々のwell-beingを実現するための汎用AIの思考エンジンを目指している。
🚀 tsuzumiは、他の言語にも応答できるクロスリンガルな理解を持っていると推測されており、その理由は今後の研究課題となる。
🧠 LLMの自律性は高くなりつつあるが、社会的規範を守りながらの自己成長が求められている。
✅ tsuzumiは、人間が提供するフィードバックを通じて安全性と有用性を向上させることができる。
📈 LLMの性能は、大量のデータを用いた学習によって向上することが示されているが、大きなモデルは電力消費が問題となっている。
🔍 tsuzumiは、多様性や学習効率、リソース効率を重視し、多数の小型AIが連携して働くことが重要だと示唆している。
📈 Scaling Lawに従って、言語モデルの規模が大きくなるほど性能が向上することが報告されている。
🔧 tsuzumiの開発では、トークナイザの最適化やノイズの除去など、前処理の重要性が強調されている。
⏱️ 西田さんは、tsuzumiが個々人の生活に溶け込み、未来では人々がAIを通じてより豊かな生活を送ることができると予想している。

Q & A

「tsuzumi」という大規模言語モデルの特徴は何ですか？
-「tsuzumi」は日本の伝統的な楽器「鼓」から名付けられ、日本語処理に特化し、小型軽量で柔軟なチューニングが可能であるという特徴を持っています。また、マルチモーダルに拡張し、多数のAIが連携して社会のwell-beingを実現することを目指しています。
tsuzumiが示す「多様性」とは何を指しますか？
-tsuzumiが示す「多様性」とは、異なる個性を持った多数のAIが連携し、一極集中化ではなく、社会のwell-beingを共に実現するというアイデアを指しています。
tsuzumiの開発において、学習データの選択にはどのようなアプローチが取られていますか？
-tsuzumiの開発では、1兆トークンを超えるコーパスを用意し、専門文書からエンタメまで幅広く学習しています。また、日本語の比率も重要視されており、他の言語モデルと比べて日本語をメインに据える学習戦略が取られています。
tsuzumiはどのようにして他の言語についても応答できる能力を持っているのか説明してください。
-tsuzumiは事前学習段階で多言語のテキストを学習しており、その結果、英語と日本語だけでなく中国語など他の言語に対しても指示に応答できる能力が発現していると考えられます。これは言語間の統一的な理解がLLMの内部で形成されているから可能になっていると推測されます。
tsuzumiのRakudaベンチマークでの性能はどのようにですか？
-tsuzumiはRakudaベンチマークでGPT-3.5に対して50%の勝率を記録し、他の国産のLLMに対しても高い勝率を達成しました。これは日本語処理においてtsuzumiが優れていると示唆しているとされています。
tsuzumiはどのようにして人間と共生できるように開発されていますか？
-tsuzumiは人間と同じようなインタフェースを持つこと、マルチモーダルなタスクを実行できること、またリアルタイムで情報を処理できるように開発されています。これにより、人間社会に自然に溶け込み、共生できるようになることが期待されています。
tsuzumiの自律性について述べているNVIDIAの成果とは何ですか？
-NVIDIAの成果では、LLMを使用してゲーム「マインクラフト」をプレイする自律型エージェントが発表されています。このエージェントはゲーム内の世界を探索し、状況に応じてプログラムコードを生成し、ゲーム内のスキルとして保存して再利用できる能力を発揮しています。
tsuzumiが学習する際に使用されるコーパスの言語バランスはどのように決まりますか？
-tsuzumiの学習コーパスは日本語をメインに据える一方で、英語やプログラムコード、他にも21言語の多言語データを含めており、幅広いカテゴリからデータを収集しています。このバランスは、日本語処理能力を高めながらも他の言語の理解も可能にするために調整されています。
tsuzumiの開発において、トークナイザの学習にはどのような工夫がされていますか？
-tsuzumiの開発では、トークナイザを学習する際に日本語の単語を自然な形に近くなるように工夫を入れています。これにより、自然な形で日本語の文脈を理解する学習が可能になります。
tsuzumiはどのようにして人間と自然なコミュニケーションを可能にするために開発されていますか？
-tsuzumiはマルチモーダルなタスクを実行できるようにし、言語だけでなく視覚や音声などの他のモーダルとの連携を目指しています。これにより、人間と同じインタフェースを持つことや、人間と同じ情報をリアルタイムで処理することが可能になり、自然なコミュニケーションを可能にしようとしています。
tsuzumiの安全性と規範の遵守に関して、今後どのような取り組みが必要ですか？
-tsuzumiの安全性と規範の遵守のために、強化学習を用いて人間がフィードバックを与えることで規範を与えていく学習戦略が取られています。また、システムプロンプトとしてルールを与えることで出力を安全に導く取り組みも行われています。これらの取り組みを通じて、tsuzumiが安全で規範を遵守する存在として成長するように開発を進めています。