Tsuzumi
Summary
TLDRこのスクリプトでは、NTTが開発した愛言語モデル「スズミ」について紹介されています。スズミは、7億のパラメータを持つ比較的小型ながらも強力なモデルで、英語と日本語の両方に対応しています。また、持続可能な社会のコンセプトを導入し、大規模なモデルに頼ることなく、小規模で効率的なAIの集積知能を活用して社会課題に対処しています。スズミは、高速なテキスト生成能力と日本語の専門知識を持ち合わせており、日本の言語モデルのベンチマークで優れた結果を出しています。さらに、2020年以降、視覚理解機能を強化し、文書を視覚的に理解できるようにしました。将来的には、人間と自然に共存できるAGI(人工一般知能)を目指し、人間のように幅広い多様性と物理的タスクを実行できるソフトウェアロボットを開発し、人類の意志を実現するというビジョンを持っています。
Takeaways
- 📚 Tumiは、NTTによって開発された言語モデルで、7億のパラメータを持つ比較的小型ながらも強力なモデルです。
- 🗣️ Tumiは英語と日本語の両方に対応し、特に日本語の理解と生成において優れています。
- 💡 Tumiは伝統的な日本の楽器からインスパイアされており、小型ながらも大きな影響力を持つと比喩的に述べています。
- 🌐 Tumiは持続可能な社会のためのコンソーシアムの概念を導入し、大規模なモデルに頼ることを避け、小規模で効率的なAIを利用しています。
- ⚙️ Tumiは軽量モデルとして2つのタイプがあり、パラメータ数が小さく、1つのGPUで動作可能です。
- 🔍 Tumiのトークン化プロセスは、日本語に特化しており、効率的で自然な日本語構造を反映しています。
- 📈 TumiはLudaという日本語言語モデルのベンチマークでGPT 3.5を上回る性能を発揮しました。
- 🇯🇵 Tumiは日本語での質問に答えることもできますが、英語での応答も可能です。
- 👀 Tumiは視覚理解コンポーネントを強化し、文書を視覚的に理解することができます。
- 📈 TumiはAIの未来について意見を述べ、絵文字を使って表現することができ、多様なデータタイプを効果的に処理できます。
- 🌟 Tumiの将来のビジョンは、人間と自然に共存し、様々な環境で協働できるAGI(人工的な一般知能)の開発です。
Q & A
スズミはどのような言語モデルをベースにしていますか?
-スズミは、NTTが開発した愛言語モデルをベースにしています。
スズミのパラメータ数はいくつですか?
-スズミのパラメータ数は70億です。他のモデルに比べて比較的小さく、1つのGPUで動作可能です。
スズミは日本語と英語のどちらの言語に対応していますか?
-スズミは日本語と英語の両方の言語に対応しています。
スズミが持つ特徴として、持続可能な社会のためのコンセプトとは何ですか?
-スズミは、大規模なモンティックモデルに頼ることなく、小規模で効率的なAIの集団知能を活用して社会課題を解決するコンセプトを導入しています。
スズミのトークン化プロセスはどのようにして日本語の効率性を向上させていますか?
-スズミのトークン化プロセスは、日本語の文法知識を活用して冗長なトークンを最小限に抑えることで、自然な日本語構造を反映しています。
スズミは日本語の言語モデルのベンチマークでどのようにパフォーマンスしていますか?
-スズミは、他の日本語モデルやGPT 3.5と比較して、30%以上の勝率増加を示しており、1兆トークンでの事前トレーニングと高品質な指示チューニングコーパスで調整されています。
スズミは英語での質問にどのように応答していますか?
-スズミは英語での質問にも日本語と同じように応答することができます。具体的な応答例がスクリプトに示されています。
スズミのマルチモダリティの能力とは何ですか?
-スズミは、2020年頃から視覚理解コンポーネントを強化し、文書を視覚的に理解することができます。画像から情報を抽出したり、視覚コンテンツに基づいて質問に答える機能があります。
スズミの将来のビジョンは何ですか?
-スズミの将来のビジョンは、人間に自然に共存できるAGI(人工的な一般知能)の創造であり、人間と協力してコンピュータ上で働くソフトウェアロボットの開発を目指しています。
スズミが持つ視覚ドキュメント理解モデルの構成要素は何ですか?
-スズミの視覚ドキュメント理解モデルは、画像エンコーダー、言語モデル、そして視覚ドキュメント理解のためのアダプターから構成されます。
スズミがデジタル変換トランスフォーメーションにどのように役立つか説明してください。
-スズミは、画像から情報を抽出し、それをJson形式に変換することで、デジタル変換トランスフォーメーションに役立ちます。これにより、文書のデジタル化が促進されます。
スズミの開発チームは今後どのようなモダリティを強化する予定ですか?
-スズミの開発チームは、今後も聴覚や触覚など、様々なモダリティを強化し続ける予定です。これにより、より包括的な人間の能力にマッチする入力出力インターフェースを開発することが可能です。
Outlines
😀 Tumiの紹介と特徴
TumiはNTTが開発した愛称言語モデルで、Suzumiが自身について質問に答えることをデモンストレーションしています。パラメータ数は7億と比較的小さいながらも、英語と日本語の両方をサポートし、特に日本語の理解と生成に優れています。Tumiは、伝統的な日本の楽器である同じ名前のSuzumiからインスパイアされています。また、持続可能な社会のためのコンソーシアムという考え方を導入し、大規模なモデルに依存しないように、小規模で効率的なAIを活用して社会課題を解決しています。Tumiは、データの様々なタイプを効果的に処理し、生成速度が非常に速く、GPT 3.5よりもはるかに速いという利点があります。
📚 日本語の熟練度とマルチモダリティ
Tumiは日本語での熟練度を誇ります。Ludaという日本語言語モデルのベンチマーク結果では、GPT 3.5や他の日本語モデルよりも優れた結果を出しました。1兆以上のトークンで事前トレーニングし、高品質の指示チューニングで微調整することで、30%の勝率向上を実現しました。また、Tumiは英語での問い合わせにも答えることができます。さらに、Tumiは2020年頃から視覚理解コンポーネントを強化し、文書を視覚的に理解できるようになっています。これにより、デジタル変換の際に画像から情報を抽出することができ、質問に応じて文書に基づく回答を提供できます。
🌟 Tumiのビジョンと将来
Tumiの将来の目標は、人間に自然に共存できるAGI(人工的な一般知能)を創造することです。人間と協力してコンピュータ上で働くソフトウェアロボットを開発し、人々とともに成長するライフパートナーになることを目指しています。これには、人間の能力に合った入力出力インターフェースの開発と、幅広いマルチモダリティおよび物理的タスクを実行する能力が必要です。Tumiは、ユーザーの要求に応じてメニューを作成し、料理を提供し、配置を拡大する能力を持つプロトタイプを開発しました。これからも様々なモダリティを強化し続け、持続可能な未来を目指して取り組んでいく予定です。
Mindmap
Keywords
💡Suzumi
💡パラメータサイズ
💡コンパクトVAB
💡多様性
💡持続可能な社会
💡Luda
💡ビジュアル理解
💡AGI
💡デジタル変換
💡マルチモダリティ
💡持続可能なソリューション
Highlights
Introduction of Tumi, a language model developed by NTT with a parameter size of 7 billion.
Tumi's ability to respond accurately and quickly to questions, showcasing its efficiency.
Comparison of Tumi's parameter size to other models, emphasizing its relative small size.
Support for both English and Japanese languages in Tumi's capabilities.
Inspiration from the traditional Japanese musical instrument in the design of Tumi.
Tumi's advantages in understanding and generating Japanese, a unique capability among language models.
Lightweight and powerful nature of Tumi, akin to the Japanese drum.
Implementation of a sustainable society concept, avoiding heavy reliance on large models.
Use of NTT's network ion to harness a constellation of specialized AI for sustainable solutions.
Demonstration of Tumi's fast text generation compared to GPT 3.5.
Development of two types of lightweight models with 7 billion and 0.6 billion parameters.
Enhanced speed and reduced memory load through quantization and a compact vocabulary.
Efficiency of Tumi's tokenizer through minimizing redundant tokens and focusing on Japanese grammatical knowledge.
Tumi's proficiency in Japanese, outperforming GPT 3.5 and other models in benchmarks.
Example of question answering and assessment in Japanese policy discussion.
Tumi's capability to answer questions in English, demonstrated through various tasks.
Introduction of multimodality in Tumi, with a visual comprehension component.
Tumi's ability to understand documents visually and extract information from images.
Vision for the future involving the creation of an AGI that can coexist with humans.
Development of a software robot as a collaborator and life partner, growing with people.
Proof of concept for a robot equipped with Tumi, capable of creating menus and serving dishes.
Commitment to continue expanding Tumi's capabilities across various modalities.
Transcripts
[Music]
hi everyone my name is
kinisha today I will talk about
tzumi I will introduce a demonstration
where suzumi answers a question about
itself this is the actual output
generated by
Tumi a love langage model developed by
NTT as you can see suzumi can respond to
the question accurately and
quickly
so
so with the parameter size of 7
billion it is relatively small compared
to other
models sorry
and it supports both English and
Japanese no
sorry
and be enh has its capabilities
especially in
modalities we look at the features of
Tumi a model is inspired by the
traditional Japanese musical instrument
of the same name Su
Zumi a mod has advantages in
understanding and generating Japanese
this is a capability not found in most
open models such as Lama
2 second a model is
lightweight yet
powerful similar to the Japanese drum
that is small in size but has a strong
impact last our model has much
modality to me
the Japanese d looks sound and acts
beautifully suzumi handles various types
of data
effectively now let's move on to the
first feature of
Tumi we have implemented the con concept
of a consolation for a sustainable
Society safing away from the heavy
Reliance on large montic models that
require significant comp Computing
resources we focused on resolving Social
Challenges through the collective
intelligence of smaller efficient
AIS using nt's network
ion we harness a constellation of
specialized
AI to facilitate Sustainable
Solutions this is a demonstration in
Japanese
where we have tzumi and GPT
3.5 discuss Japanese
policy so it is evident that suzumi
generates text very fast significantly
faster than GPT
3.5 five fast is the generation so fast
the F reason is its parameter size and
quantization
we have developed of two types of
lightweight models one has seven bilon
and the other has 0.6 billion
parameters they is significantly smaller
than recent huge models such as
gpt3 that has 175 billion
parameters both can operate on a single
GPU and the smallest version is capable
of learning on
CPUs additionally lower with
quantization parameters enhances speed
and reduce memory
load for example an 8bit version runs
efficiently on the GPU with limited
memory the second reason for the speed
is our tokenization
process our tokenizer has a compact VAB
with a low section of Japanese tokens
achieved by minimizing redundant tokens
through wild
segmentation
constraints for instance GPT 3.5
tokenizer which is not specifically
focused on Japanese results in less
efficient and produces many character
and bu to
tokens in
contrast our tokenizer which is focused
on Japanese and uses Japanese
grammatical
knowledge this is more efficient
compared to gpts
tokenizer our tokenization reflects
natural Japanese
structure due to what constraints we
used
so now let's move on to the second
feature it's Proficiency in
Japanese we
introduced The Benchmark results for
Japanese language models called
Luda a model out performed GPT 3.5 and
other Japanese models such as CaRu Eliza
and Lena in The
Benchmark it has seen a 30 % increase in
win rate against GPD 3.5 since
October this result was
achieved sorry this result was achieved
by pre-training on over 1 trillion
tokens and the fine tuning with of high
quality instruction tuning
corus here is an example of question
answering and assessment in Ruda Theon
ating how two models responding to the
questions testing their knowledge of
Japan this question is about the social
and political changes in
Japan GPT 4 judges which of the two
outputs is
better in this case sui was judged
better because it provided more specific
and detailed responses
Tumi is also capable of answering
questions in English so I will show you
some
examples first as a brainstorming task I
asked Tumi
to I asked Su me how a I change our
lives
next we asked it to express extract the
information from the previous
response then uh we asked it to draft an
email requesting collaboration with a
medical doctor
and finally we asked it to express its
opinion on the futures of AI using
emojis from the responses it is a
suzumi can respond to the question in
English as well as
Japanese the final feature of Tumi is
about March
modality since around 2020 we have been
enhancing our language models with a
visual comprehension
component enabling the model to
understand document
visually we propose a visual document
understanding mod model which consists
of
an image
encoder a language model and an adapter
for visual document
understanding in this case our model was
able to understand the table from images
and output the correct
answer our paper on this adapter was
presented at triple AI which is a top
conference in AI
this is an example of information
extraction from an older
form we ask tzumi to convert this image
into Json format with the keys of name
form and
message sorry
we can say from the results that Tumi
was able to extract the information as
instructed from
image this capability is useful for
digital
transation transformation part by
language
models the next one is example of
question answering on the
document to me was able to answer the
question based on the visual
content this capability is useful for
retrieval augmented generation using
visual
information finally I will explain our
vision for the
future our goal is to create an AGI that
can naturally coexist with people in any
environment and achieve humans will
being we aim to develop a software robot
that can work with humans as a
collaborator on the
computer
and we develop a lot that grows with
people as a life
partner such air requires the
development of an input output interface
matching with human capabilities
and the ability to execute a wide range
of mul modality and physical
tasks we' like to break out the level
where humans adapt to
AI we have developed a proof of concept
for a lot equipped with
suzumi capable creating a menu with user
request serving dishes and expanding the
arrangement
we are seeing promising results and the
plan to sorry plan to continue to
continue expanding across various
modalities such as hearing and
touch okay that's all for me from me uh
we direct to use our language model to
innovate the sustainable future for
people in the planet thank you for your
attention
Browse More Related Video
![](https://i.ytimg.com/vi/m_n3J6q8Y1I/hq720.jpg)
NTT R&Dフォーラム2023 特別セッション2:汎用AIはヒトと暮らす夢を見るか?〜 大規模言語モデル tsuzumi の研究開発 〜
![](https://i.ytimg.com/vi/-nkaiRAiDWE/hqdefault.jpg?sqp=-oaymwEXCJADEOABSFryq4qpAwkIARUAAIhCGAE=&rs=AOn4CLCZmOVttxu5b6moapKHAcM7OwClPA)
Mary Evelyn Tucker 0101 - To See The Universe Not Just As A Place, But As A Story
![](https://i.ytimg.com/vi/BihyfzOidDI/hqdefault.jpg?sqp=-oaymwEXCJADEOABSFryq4qpAwkIARUAAIhCGAE=&rs=AOn4CLCbQD7CwqjWzsgQJqIkCOToThrA3A)
Paper deep dive: Evolutionary Optimization of Model Merging Recipes
![](https://i.ytimg.com/vi/j5N2j6Ydhao/hq720.jpg)
【漫士科普】GPT是如何工作的?为什么要学习接下一个词?#gpt #chatgpt #openai
![](https://i.ytimg.com/vi/28dEqCoH0pg/hq720.jpg)
GPT-4o|ChatGPT最新モデルは何が凄いのか?
![](https://i.ytimg.com/vi/99fS2bXmY6c/hq720.jpg)
これさえ押さえておけばOK! 生成AI時流を解説 〜3月後半の生成AIトレンドをご紹介〜(2024/04/03)
5.0 / 5 (0 votes)