Tsuzumi

NTT Research
19 Apr 202412:36

Summary

TLDRこのスクリプトでは、NTTが開発した愛言語モデル「スズミ」について紹介されています。スズミは、7億のパラメータを持つ比較的小型ながらも強力なモデルで、英語と日本語の両方に対応しています。また、持続可能な社会のコンセプトを導入し、大規模なモデルに頼ることなく、小規模で効率的なAIの集積知能を活用して社会課題に対処しています。スズミは、高速なテキスト生成能力と日本語の専門知識を持ち合わせており、日本の言語モデルのベンチマークで優れた結果を出しています。さらに、2020年以降、視覚理解機能を強化し、文書を視覚的に理解できるようにしました。将来的には、人間と自然に共存できるAGI(人工一般知能)を目指し、人間のように幅広い多様性と物理的タスクを実行できるソフトウェアロボットを開発し、人類の意志を実現するというビジョンを持っています。

Takeaways

  • 📚 Tumiは、NTTによって開発された言語モデルで、7億のパラメータを持つ比較的小型ながらも強力なモデルです。
  • 🗣️ Tumiは英語と日本語の両方に対応し、特に日本語の理解と生成において優れています。
  • 💡 Tumiは伝統的な日本の楽器からインスパイアされており、小型ながらも大きな影響力を持つと比喩的に述べています。
  • 🌐 Tumiは持続可能な社会のためのコンソーシアムの概念を導入し、大規模なモデルに頼ることを避け、小規模で効率的なAIを利用しています。
  • ⚙️ Tumiは軽量モデルとして2つのタイプがあり、パラメータ数が小さく、1つのGPUで動作可能です。
  • 🔍 Tumiのトークン化プロセスは、日本語に特化しており、効率的で自然な日本語構造を反映しています。
  • 📈 TumiはLudaという日本語言語モデルのベンチマークでGPT 3.5を上回る性能を発揮しました。
  • 🇯🇵 Tumiは日本語での質問に答えることもできますが、英語での応答も可能です。
  • 👀 Tumiは視覚理解コンポーネントを強化し、文書を視覚的に理解することができます。
  • 📈 TumiはAIの未来について意見を述べ、絵文字を使って表現することができ、多様なデータタイプを効果的に処理できます。
  • 🌟 Tumiの将来のビジョンは、人間と自然に共存し、様々な環境で協働できるAGI(人工的な一般知能)の開発です。

Q & A

  • スズミはどのような言語モデルをベースにしていますか?

    -スズミは、NTTが開発した愛言語モデルをベースにしています。

  • スズミのパラメータ数はいくつですか?

    -スズミのパラメータ数は70億です。他のモデルに比べて比較的小さく、1つのGPUで動作可能です。

  • スズミは日本語と英語のどちらの言語に対応していますか?

    -スズミは日本語と英語の両方の言語に対応しています。

  • スズミが持つ特徴として、持続可能な社会のためのコンセプトとは何ですか?

    -スズミは、大規模なモンティックモデルに頼ることなく、小規模で効率的なAIの集団知能を活用して社会課題を解決するコンセプトを導入しています。

  • スズミのトークン化プロセスはどのようにして日本語の効率性を向上させていますか?

    -スズミのトークン化プロセスは、日本語の文法知識を活用して冗長なトークンを最小限に抑えることで、自然な日本語構造を反映しています。

  • スズミは日本語の言語モデルのベンチマークでどのようにパフォーマンスしていますか?

    -スズミは、他の日本語モデルやGPT 3.5と比較して、30%以上の勝率増加を示しており、1兆トークンでの事前トレーニングと高品質な指示チューニングコーパスで調整されています。

  • スズミは英語での質問にどのように応答していますか?

    -スズミは英語での質問にも日本語と同じように応答することができます。具体的な応答例がスクリプトに示されています。

  • スズミのマルチモダリティの能力とは何ですか?

    -スズミは、2020年頃から視覚理解コンポーネントを強化し、文書を視覚的に理解することができます。画像から情報を抽出したり、視覚コンテンツに基づいて質問に答える機能があります。

  • スズミの将来のビジョンは何ですか?

    -スズミの将来のビジョンは、人間に自然に共存できるAGI(人工的な一般知能)の創造であり、人間と協力してコンピュータ上で働くソフトウェアロボットの開発を目指しています。

  • スズミが持つ視覚ドキュメント理解モデルの構成要素は何ですか?

    -スズミの視覚ドキュメント理解モデルは、画像エンコーダー、言語モデル、そして視覚ドキュメント理解のためのアダプターから構成されます。

  • スズミがデジタル変換トランスフォーメーションにどのように役立つか説明してください。

    -スズミは、画像から情報を抽出し、それをJson形式に変換することで、デジタル変換トランスフォーメーションに役立ちます。これにより、文書のデジタル化が促進されます。

  • スズミの開発チームは今後どのようなモダリティを強化する予定ですか?

    -スズミの開発チームは、今後も聴覚や触覚など、様々なモダリティを強化し続ける予定です。これにより、より包括的な人間の能力にマッチする入力出力インターフェースを開発することが可能です。

Outlines

00:00

😀 Tumiの紹介と特徴

TumiはNTTが開発した愛称言語モデルで、Suzumiが自身について質問に答えることをデモンストレーションしています。パラメータ数は7億と比較的小さいながらも、英語と日本語の両方をサポートし、特に日本語の理解と生成に優れています。Tumiは、伝統的な日本の楽器である同じ名前のSuzumiからインスパイアされています。また、持続可能な社会のためのコンソーシアムという考え方を導入し、大規模なモデルに依存しないように、小規模で効率的なAIを活用して社会課題を解決しています。Tumiは、データの様々なタイプを効果的に処理し、生成速度が非常に速く、GPT 3.5よりもはるかに速いという利点があります。

05:02

📚 日本語の熟練度とマルチモダリティ

Tumiは日本語での熟練度を誇ります。Ludaという日本語言語モデルのベンチマーク結果では、GPT 3.5や他の日本語モデルよりも優れた結果を出しました。1兆以上のトークンで事前トレーニングし、高品質の指示チューニングで微調整することで、30%の勝率向上を実現しました。また、Tumiは英語での問い合わせにも答えることができます。さらに、Tumiは2020年頃から視覚理解コンポーネントを強化し、文書を視覚的に理解できるようになっています。これにより、デジタル変換の際に画像から情報を抽出することができ、質問に応じて文書に基づく回答を提供できます。

10:03

🌟 Tumiのビジョンと将来

Tumiの将来の目標は、人間に自然に共存できるAGI(人工的な一般知能)を創造することです。人間と協力してコンピュータ上で働くソフトウェアロボットを開発し、人々とともに成長するライフパートナーになることを目指しています。これには、人間の能力に合った入力出力インターフェースの開発と、幅広いマルチモダリティおよび物理的タスクを実行する能力が必要です。Tumiは、ユーザーの要求に応じてメニューを作成し、料理を提供し、配置を拡大する能力を持つプロトタイプを開発しました。これからも様々なモダリティを強化し続け、持続可能な未来を目指して取り組んでいく予定です。

Mindmap

Keywords

💡Suzumi

Suzumiは、NTTによって開発された愛言語モデルです。このモデルは、質問に対して正確かつ迅速に応答することが可能です。ビデオのテーマに関連して、Suzumiは、パラメータサイズが7億と比較的小さく、英語と日本語の両方をサポートするという特徴を持っています。

💡パラメータサイズ

パラメータサイズは、AIモデルの複雑さや能力を決定する要素です。Suzumiのパラメータサイズが7億と、他のモデルに比べて小さく、コンパクトで強力な性能を発揮する例として、ビデオで紹介されています。

💡コンパクトVAB

コンパクトVABとは、重複するトークンを最小限に抑えることで、日本語トークンのセクションを小さく保つトークン化プロセスです。Suzumiのトークナイザは、コンパクトVABを使用し、自然な日本語構造を反映しています。

💡多様性

Suzumiは、様々なタイプのデータを効果的に処理できる機能を持っています。これは、ビデオのメッセージで強調されており、AIが様々な状況やデータを扱う柔軟性を示すために重要です。

💡持続可能な社会

Suzumiは、持続可能な社会のためのコンセプトを実装しており、大規模なAIモデルに頼ることなく、小規模で効率的なAIを通じて社会的な課題を解決する取り組みを目指しています。これは、ビデオの持続可能な未来を目指すテーマに直接結びつきます。

💡Luda

Ludaは、日本語言語モデルのベンチマークでGPT 3.5や他の日本語モデルを上回る性能を示しました。SuzumiがLudaベンチマークで優れた結果を収めた例として、ビデオで紹介されており、日本語の専門知識を持つAIモデルの重要性が強調されています。

💡ビジュアル理解

Suzumiは、ビジュアルコンプリヘンションコンポーネントを強化し、文書を視覚的に理解する能力を持っています。これは、AIが視覚情報を使用して、情報提供や質問応答を行うための重要な機能であり、ビデオのマルチモダリティのテーマに関連しています。

💡AGI

AGIとは、人工知能の一般的な知能を意味し、人間と同じように様々な環境で自然に共存し、活動ができることを目指しています。ビデオでは、Suzumiを通じてAGIの実現が語られており、人間と協力して働くソフトウェアロボットの開発が進められていると示されています。

💡デジタル変換

デジタル変換とは、言語モデルを通じて情報をデジタル形式に変換するプロセスです。ビデオでは、Suzumiが画像から情報を抽出し、JSON形式に変換する能力を示しており、これはデジタル変換の重要性が強調されています。

💡マルチモダリティ

マルチモダリティは、AIが複数の感覚チャンネルや情報源を理解し、使用する能力を意味します。ビデオでは、Suzumiが視覚的および言語的な情報を組み合わせて情報を処理する能力を持ち、マルチモダリティの活用が示されています。

💡持続可能なソリューション

Suzumiは、小規模で効率的なAIを通じて持続可能なソリューションを提供することを目指しています。これは、ビデオの持続可能な社会のコンセプトに直接結びついており、環境保護とAIの結合を目指す取り組みを象徴しています。

Highlights

Introduction of Tumi, a language model developed by NTT with a parameter size of 7 billion.

Tumi's ability to respond accurately and quickly to questions, showcasing its efficiency.

Comparison of Tumi's parameter size to other models, emphasizing its relative small size.

Support for both English and Japanese languages in Tumi's capabilities.

Inspiration from the traditional Japanese musical instrument in the design of Tumi.

Tumi's advantages in understanding and generating Japanese, a unique capability among language models.

Lightweight and powerful nature of Tumi, akin to the Japanese drum.

Implementation of a sustainable society concept, avoiding heavy reliance on large models.

Use of NTT's network ion to harness a constellation of specialized AI for sustainable solutions.

Demonstration of Tumi's fast text generation compared to GPT 3.5.

Development of two types of lightweight models with 7 billion and 0.6 billion parameters.

Enhanced speed and reduced memory load through quantization and a compact vocabulary.

Efficiency of Tumi's tokenizer through minimizing redundant tokens and focusing on Japanese grammatical knowledge.

Tumi's proficiency in Japanese, outperforming GPT 3.5 and other models in benchmarks.

Example of question answering and assessment in Japanese policy discussion.

Tumi's capability to answer questions in English, demonstrated through various tasks.

Introduction of multimodality in Tumi, with a visual comprehension component.

Tumi's ability to understand documents visually and extract information from images.

Vision for the future involving the creation of an AGI that can coexist with humans.

Development of a software robot as a collaborator and life partner, growing with people.

Proof of concept for a robot equipped with Tumi, capable of creating menus and serving dishes.

Commitment to continue expanding Tumi's capabilities across various modalities.

Transcripts

play00:00

[Music]

play00:08

hi everyone my name is

play00:10

kinisha today I will talk about

play00:17

tzumi I will introduce a demonstration

play00:20

where suzumi answers a question about

play00:24

itself this is the actual output

play00:27

generated by

play00:28

Tumi a love langage model developed by

play00:32

NTT as you can see suzumi can respond to

play00:36

the question accurately and

play00:39

quickly

play00:42

so

play00:44

so with the parameter size of 7

play00:47

billion it is relatively small compared

play00:50

to other

play00:52

models sorry

play01:03

and it supports both English and

play01:06

Japanese no

play01:11

sorry

play01:12

and be enh has its capabilities

play01:16

especially in

play01:18

modalities we look at the features of

play01:20

Tumi a model is inspired by the

play01:23

traditional Japanese musical instrument

play01:26

of the same name Su

play01:28

Zumi a mod has advantages in

play01:31

understanding and generating Japanese

play01:34

this is a capability not found in most

play01:38

open models such as Lama

play01:40

2 second a model is

play01:43

lightweight yet

play01:45

powerful similar to the Japanese drum

play01:48

that is small in size but has a strong

play01:54

impact last our model has much

play01:58

modality to me

play02:00

the Japanese d looks sound and acts

play02:04

beautifully suzumi handles various types

play02:07

of data

play02:09

effectively now let's move on to the

play02:12

first feature of

play02:14

Tumi we have implemented the con concept

play02:17

of a consolation for a sustainable

play02:21

Society safing away from the heavy

play02:24

Reliance on large montic models that

play02:28

require significant comp Computing

play02:30

resources we focused on resolving Social

play02:34

Challenges through the collective

play02:37

intelligence of smaller efficient

play02:41

AIS using nt's network

play02:45

ion we harness a constellation of

play02:48

specialized

play02:50

AI to facilitate Sustainable

play02:57

Solutions this is a demonstration in

play02:59

Japanese

play03:00

where we have tzumi and GPT

play03:05

3.5 discuss Japanese

play03:10

policy so it is evident that suzumi

play03:13

generates text very fast significantly

play03:17

faster than GPT

play03:20

3.5 five fast is the generation so fast

play03:25

the F reason is its parameter size and

play03:28

quantization

play03:31

we have developed of two types of

play03:33

lightweight models one has seven bilon

play03:36

and the other has 0.6 billion

play03:40

parameters they is significantly smaller

play03:43

than recent huge models such as

play03:47

gpt3 that has 175 billion

play03:53

parameters both can operate on a single

play03:57

GPU and the smallest version is capable

play04:00

of learning on

play04:05

CPUs additionally lower with

play04:08

quantization parameters enhances speed

play04:12

and reduce memory

play04:15

load for example an 8bit version runs

play04:19

efficiently on the GPU with limited

play04:25

memory the second reason for the speed

play04:28

is our tokenization

play04:31

process our tokenizer has a compact VAB

play04:35

with a low section of Japanese tokens

play04:39

achieved by minimizing redundant tokens

play04:42

through wild

play04:44

segmentation

play04:45

constraints for instance GPT 3.5

play04:49

tokenizer which is not specifically

play04:52

focused on Japanese results in less

play04:56

efficient and produces many character

play04:59

and bu to

play05:01

tokens in

play05:03

contrast our tokenizer which is focused

play05:06

on Japanese and uses Japanese

play05:10

grammatical

play05:11

knowledge this is more efficient

play05:13

compared to gpts

play05:17

tokenizer our tokenization reflects

play05:20

natural Japanese

play05:22

structure due to what constraints we

play05:24

used

play05:33

so now let's move on to the second

play05:35

feature it's Proficiency in

play05:39

Japanese we

play05:41

introduced The Benchmark results for

play05:43

Japanese language models called

play05:46

Luda a model out performed GPT 3.5 and

play05:51

other Japanese models such as CaRu Eliza

play05:55

and Lena in The

play05:57

Benchmark it has seen a 30 % increase in

play06:01

win rate against GPD 3.5 since

play06:05

October this result was

play06:09

achieved sorry this result was achieved

play06:12

by pre-training on over 1 trillion

play06:15

tokens and the fine tuning with of high

play06:18

quality instruction tuning

play06:23

corus here is an example of question

play06:26

answering and assessment in Ruda Theon

play06:29

ating how two models responding to the

play06:32

questions testing their knowledge of

play06:35

Japan this question is about the social

play06:40

and political changes in

play06:42

Japan GPT 4 judges which of the two

play06:46

outputs is

play06:47

better in this case sui was judged

play06:50

better because it provided more specific

play06:54

and detailed responses

play07:06

Tumi is also capable of answering

play07:08

questions in English so I will show you

play07:11

some

play07:14

examples first as a brainstorming task I

play07:19

asked Tumi

play07:22

to I asked Su me how a I change our

play07:25

lives

play07:30

next we asked it to express extract the

play07:35

information from the previous

play07:45

response then uh we asked it to draft an

play07:49

email requesting collaboration with a

play07:52

medical doctor

play08:11

and finally we asked it to express its

play08:16

opinion on the futures of AI using

play08:26

emojis from the responses it is a

play08:30

suzumi can respond to the question in

play08:32

English as well as

play08:37

Japanese the final feature of Tumi is

play08:40

about March

play08:42

modality since around 2020 we have been

play08:46

enhancing our language models with a

play08:49

visual comprehension

play08:51

component enabling the model to

play08:53

understand document

play08:55

visually we propose a visual document

play08:58

understanding mod model which consists

play09:01

of

play09:02

an image

play09:04

encoder a language model and an adapter

play09:08

for visual document

play09:11

understanding in this case our model was

play09:14

able to understand the table from images

play09:18

and output the correct

play09:20

answer our paper on this adapter was

play09:23

presented at triple AI which is a top

play09:27

conference in AI

play09:31

this is an example of information

play09:33

extraction from an older

play09:36

form we ask tzumi to convert this image

play09:40

into Json format with the keys of name

play09:44

form and

play09:51

message sorry

play10:03

we can say from the results that Tumi

play10:06

was able to extract the information as

play10:08

instructed from

play10:14

image this capability is useful for

play10:17

digital

play10:18

transation transformation part by

play10:20

language

play10:22

models the next one is example of

play10:25

question answering on the

play10:27

document to me was able to answer the

play10:31

question based on the visual

play10:34

content this capability is useful for

play10:38

retrieval augmented generation using

play10:41

visual

play10:44

information finally I will explain our

play10:47

vision for the

play10:49

future our goal is to create an AGI that

play10:53

can naturally coexist with people in any

play10:57

environment and achieve humans will

play11:01

being we aim to develop a software robot

play11:04

that can work with humans as a

play11:06

collaborator on the

play11:08

computer

play11:12

and we develop a lot that grows with

play11:15

people as a life

play11:20

partner such air requires the

play11:22

development of an input output interface

play11:25

matching with human capabilities

play11:29

and the ability to execute a wide range

play11:32

of mul modality and physical

play11:37

tasks we' like to break out the level

play11:41

where humans adapt to

play11:46

AI we have developed a proof of concept

play11:49

for a lot equipped with

play11:51

suzumi capable creating a menu with user

play11:55

request serving dishes and expanding the

play11:58

arrangement

play12:01

we are seeing promising results and the

play12:04

plan to sorry plan to continue to

play12:08

continue expanding across various

play12:10

modalities such as hearing and

play12:15

touch okay that's all for me from me uh

play12:18

we direct to use our language model to

play12:21

innovate the sustainable future for

play12:23

people in the planet thank you for your

play12:25

attention

Rate This

5.0 / 5 (0 votes)

Related Tags
AI言語モデルTzumi持続可能性日本語英語対応コンセプトデモンストレーション効率性トークン化マルチモダリティビジュアル理解デジタル変革AGIソフトウェアロボットコラボレーション
Do you need a summary in English?