OpenAI против Google - разбор презентаций | GPT-4o | Gemini 1.5 Pro | Imagen 3 | Veo

Vasily Ryazanov
18 May 202408:11

Summary

TLDRВсем привет! Недавно Open AI и Google представили свои последние разработки в области искусственного интеллекта, что привлекает большое внимание. Open AI продемонстрировала мультимодальную нейросеть GPT-4, способную работать с текстом, голосом и видео, а также улучшив скорость реагирования на аудио и снизив стоимость работы через API. Google, в свою очередь, анонсировала обновления в своих продуктах, включая LaMDA 1.5 Pro с увеличенным контекстным окном и интеграцией в свои сервисы, а также Project Astra и Imagine 3, продемонстрировавшие высокое качество генерации изображений и текста на фотках. Кроме того, Google представила Veo, нейросеть для генерации видео, и Music AI Sandbox для музыкальной индустрии. Такие инновации говорят о быстром развитии ИИ и его потенциальном влиянии на различные сферы жизни и бизнеса.

Takeaways

  • 🚀 OpenAI и Google продемонстрировали свои последние разработки в области искусственного интеллекта, что является важным шагом для всей индустрии.
  • 🧠 GPT-4O от OpenAI является первой многообразной нейросетью, обучавшейся на тексте, изображениях и аудио одновременно, что позволяет более эффективной работе и находению связей между данными.
  • 🗣️ OpenAI улучшила взаимодействие с аудио, сократила задержку до 300 миллисекунд и увеличила скорость работы чата в два раза.
  • 💬 Стоимость токенов через API уменьшилась в два раза, а последнюю модель сделали доступной бесплатно.
  • 🌐 OpenAI добилась значительных прогрессов в работе с разными языками, в том числе и русским, сократив количество необходимых токенов на 30%.
  • 🎨 Инженеры OpenAI научили модель распознавать картинки и генерировать изображения с четким текстом и новыми шрифтами.
  • 📹 Возможность общения с OpenAI по видеосвязи была одной из крутых новинок, демонстрируя распознавание настроения и эмоций.
  • 📈 GPT-4O значительно опередила конкурентов, таких как модель CLAD 3 Opus, в генерации текста и творческих задачах.
  • 🔍 Google анонсировала обновления, включая новую версию своей нейросети для генерации текста, Gemini 1.5 Pro, с увеличенным контекстным окном до 2 миллионов токенов.
  • 📚 Gemini будет встроена в сервисы Google, такие как почта и документы, предлагая подсказки для работы с текстом и таблицами.
  • 🎨 Google также представила Imagine 3, разработку в области генерации изображений, способную создавать высококачественные фотореалистичные изображения.

Q & A

  • Какой событие произошло 13 мая, связанное с искусственным интеллектом?

    -13 мая Open AI провела свою презентацию, на которой была представлена новая модель GPT-4o.

  • Что означает термин 'мультимодальная нейросеть' в контексте GPT-4o?

    -Мультимодальная нейросеть — это модель, обучающаяся на нескольких типах данных одновременно, например, тексте, изображениях и аудио. В отличие от предыдущих моделей, GPT-4o обучается на всех этих типах данных сразу, что позволяет ей работать более эффективно.

  • Какие возможности открывает мультимодальность для пользователей?

    -Мультимодальность позволяет пользователям общаться с искусственным интеллектом не только текстом, но и голосом, видео, и даже загружать изображения для анализа.

  • Какие улучшения были внесены в скорость взаимодействия с аудио у GPT-4o?

    -Open AI существенно улучшила взаимодействие с аудио, сократив задержку до 300 миллисекунд, что сопоставимо с человеческой реакцией.

  • Что изменилось с точки зрения стоимости использования модели через API?

    -Стоимость токенов через API уменьшилась в два раза, что делает использование модели доступнее для пользователей.

  • Какие прогрессы были достигнуты в работе с разными языками?

    -Достигнут значительный прогресс в работе с разными языками, в том числе и русским, сократился количество токенов, необходимое для работы с ним, на 30%.

  • Какие новые возможности позволили модели распознавать и генерировать изображения?

    -Модель научилась практически безупречно распознавать изображения и генерировать их с четким текстом, рисовать новые шрифты и общаться по видеосвязи.

  • Какие возможности предоставляет Google в сфере искусственного интеллекта после презентации?

    -Google анонсировала обновления, включая LaMDA 1.5 Pro с увеличенным контекстным окном, интеграцию модели в свои сервисы, такие как почта и документы, и концепт Project Astra.

  • Что такое Imagine 3 и каков его уровень качества?

    -Imagine 3 - это разработка Google в области генерации изображений, способная создавать фотореалистичные изображения и генерировать текст на фотках на высоком уровне.

  • Какие возможности предоставляет нейросеть Veo от Google?

    -Veo - это нейросеть, способная генерировать видео по промпту в качестве 1080p и длиной до одной минуты, что может быть интегрировано в сервисы, такие как YouTube и YouTube Shorts.

  • Какова Music AI Sandbox от Google и для кого она предназначена?

    -Music AI Sandbox - это набор инструментов для генерации и редактирования музыки с помощью нейросетей, предназначенных для музыкантов и звукорежиссеров для создания уникальных мелодий и аранжировок.

  • Какой вывод автор делает о гонке между компаниями за развитие искусственного интеллекта?

    -Автор считает, что нет однозначного ответа о том, кто впереди в гонке за искусственным интеллектом, так как каждая компания обладает своими сильными сторонами, и конкуренция приводит к развитию лучших сервисов и моделей.

Outlines

00:00

🤖 Основные новости недели в области ИИ

В этом выпуске видео рассматриваются основные события недели в области искусственного интеллекта, в частности, презентации от Google и OpenAI. OpenAI представила мультимодальную нейросеть GPT-4O, способную обрабатывать текст, изображения и аудио одновременно, что увеличивает эффективность и позволяет находить связи между различными типами данных. Также была улучшена скорость работы с аудио, снизились затраты на токенов через API, а модель стала более эффективной в работе с разными языками. Google, в свою очередь, анонсировала обновления в своих продуктах, включая глубокую интеграцию модели генерации текста в свои сервисы и концепцию Project Astra, а также представила разработки в области генерации изображений и видео.

05:01

🖼️ Инновации Google в генерации изображений и видео

Второй параграф видео сконцентрирован на инновационных разработках Google в области генерации изображений и видео. Представлена система Imagine 3, способная создавать фотореалистичные изображения и генерировать текст на фотографиях. Также была представлена нейросеть Veo, способная генерировать видео по промпту в качестве 1080p и длиной до одной минуты. Google также анонсировала Music AI Sandbox, набор инструментов для генерации и редактирования музыки с помощью нейросетей. Эти разработки демонстрируют интеграцию искусственного интеллекта в различные аспекты жизни и работы, от видео до музыкальных композиций.

Mindmap

Keywords

💡искусственный интеллект

Искусственный интеллект (ИИ) – это область компьютерной науки, которая занимается созданием программ, способных выполнять задачи, требующие интеллекта у людей, такие как обработка естественного языка, распознавание образов и принятие решений. В контексте видео это основная тема, так как обсуждается последние достижения в области ИИ от компаний Google и OpenAI.

💡нейросеть

Нейросеть – это алгоритм, вдохновленный работой мозга человека, который позволяет компьютерам учиться и делать предсказания или принимать решения на основе данных. В видео упоминается о мультимодальных нейросетях, обученных на тексте, изображениях и аудио, что позволяет им эффективнее работать с различными типами данных.

💡мультимодальная нейросеть

Мультимодальная нейросеть – это тип ИИ, который способен обрабатывать и анализировать данные, представленные в нескольких форматах (например, текст, изображения, звук). В видео упоминается GPT 4o как первая по-настоящему мультимодальная нейросеть, что позволяет ей находить связи между разными типами данных.

💡OpenAI

OpenAI – это исследовательская компания, специализирующаяся на разработке и применении искусственного интеллекта. В видео OpenAI представила свои последние разработки, такие как модели GPT 4o и GPT 4 Omni, которые демонстрируют прогресс в области ИИ.

💡Google

Google – одна из крупнейших компаний в области информационных технологий, которая также активно разрабатывает технологии искусственного интеллекта. В видео упоминается презентация Google IO, на которой были анонсированы обновления и новые продукты в области ИИ.

💡GPT 4o

GPT 4o – это модель нейросети, разработанная компанией OpenAI, которая является первой по-настоящему мультимодальной сетью. В видео упоминается, что GPT 4o обучена на тексте, изображениях и аудио, что позволяет ей работать более эффективно и находить связи между разными типами данных.

💡Gemini 1.5 Pro

Gemini 1.5 Pro – это обновленная версия нейросети компании Google для генерации текста. В видео упоминается, что основное отличие этой версии заключается в увеличенном контекстном окне, позволяющем принимать текст до 2 миллионов токенов, что значительно больше, чем у аналогичных систем.

💡Project Astra

Project Astra – это концепция от Google, представляющая собой ассистента, аналогичную GPT 4o. В видео отмечается, что в отличие от уже работающего прототипа GPT, Project Astra в настоящее время является лишь концептом, но он демонстрирует потенциал интеграции ИИ в повседневные сервисы, такие как почта и документы.

💡Imagine 3

Imagine 3 – это разработка Google в области генерации изображений. В видео утверждается, что Imagine 3 способна создавать фотореалистичные изображения и, по заявлениям, является одной из лучших в этой области, особенно в генерации текста на фотках.

💡Veo

Veo – это нейросеть, представленная Google, которая может генерировать видео по промпту с качеством 1080p и длиной до одной минуты. В видео упоминается, что Veo будет встроена в сервисы Google, такие как YouTube и YouTube Shorts, предоставляя пользователям возможность создавать видео с минимальными техническими требованиями.

Highlights

В течение этой недели Google и Open AI представили свои последние разработки в области искусственного интеллекта.

Open AI представила мультимодальную нейросеть GPT-4o, способную работать с текстом, изображениями и аудио одновременно.

GPT-4o обеспечивает более эффективную работу и находит взаимосвязи между разными типами данных.

Open AI улучшила взаимодействие с аудио, сократила задержку до 300 миллисекунд и увеличила скорость работы чата в два раза.

Стоимость токенов через API уменьшилась в два раза, а для бесплатных пользователей доступна даже последняя модель.

Open AI достигла значительных успехов в работе с разными языками, в том числе с русским, что сокращает количество необходимых токенов на 30%.

Новая модель GPT-4o способна почти идеально распознавать изображения и генерировать их.

Во время презентации Open AI демонстрировала модель, способную читать сказки с разными голосами и эмоциями.

GPT-4o также может угадывать настроение ведущего по фото или видео, что показывает развитие в области юмора и сарказма.

Open AI продемонстрировала возможности чата GPT в роли синхронного переводчика для двух людей, общающихся на разных языках.

Google анонсировала обновленную версию своей нейросети для генерации текста, Gemini 1.5 Pro, с увеличенным контекстным окном до 2 миллионов токенов.

Gemini 1.5 Pro будет встроена в сервисы Google, такие как почта и документы, для помощи в написании текстов и ответах.

Google представила концепт Project Astra, аналогичный GPT-4o, но в настоящее время он остается только концептом.

Imagine 3 от Google является лучшим достижением в области генерации изображений с высококачественными фотореалистичными результатами.

Veo - это нейросеть от Google, способная генерировать видео по промпто с качеством 1080p и длительностью до одной минуты.

Google также представила Music AI Sandbox, набор инструментов для генерации и редактирования музыки с помощью нейросетей.

Конкуренция между компаниями в области искусственного интеллекта приводит к разработке лучших сервисов и моделей для пользователей.

Презентации Google и Open AI демонстрируют, что искусственный интеллект продолжает быстро развиваться и преодолевать пределы.

Transcripts

play00:00

на этой неделе два лидера планеты по

play00:01

искусственному интеллекту Google и Open

play00:04

ai показали свои самые последние

play00:06

разработки но смогут ли самые передовые

play00:08

нейросети ответить на этот простой

play00:10

вопрос узнаем в конце ролика сегодня мы

play00:13

поговорим о главных новостях прошедшей

play00:15

недели в сфере искусственного интеллекта

play00:17

а именно о двух презентациях Open ai и

play00:20

Google Input output Это большой шаг для

play00:22

всей индустрии и сейчас я объясню почему

play00:24

13 мая Open ai провела свою презентацию

play00:27

на которой показала модели gpt 4o и она

play00:30

же gpt 4 Омни первое что нужно знать gpt

play00:33

4o - это первая по-настоящему

play00:34

мультимодальная нейросеть Что это значит

play00:37

до сих пор большинство нейросетей

play00:39

обучалось отдельно на одном типе данных

play00:41

это текст картинки или аудио но gpt 4o

play00:44

было обучена на этих данных сразу Что

play00:46

позволит ей работать более эффективно и

play00:48

находить взаимосвязи между этими типами

play00:49

данных это открывает море возможностей

play00:52

для пользователей Теперь вы можете

play00:53

общаться с искусственным интеллектом

play00:55

хоть текстом хоть голосом хоть через

play00:56

видео хотите узнать что на этом фото

play00:59

просто загрузить его в чат нет времени

play01:01

печатать текст Спросите голосом gpt 4o

play01:04

справится почти с Любой задачей Кстати о

play01:06

скорости Open ai существенно поработали

play01:08

над взаимодействием с аудио теперь

play01:10

задержка составляет не 2-3 секунды а

play01:12

всего-то около 300 миллисекунд что

play01:15

сопоставимо с реакции человека при этом

play01:17

Chat gpt стал работать в два раза

play01:18

быстрее стоимость токенов через API

play01:21

уменьшилась в два раза а бесплатным

play01:23

пользователям и вовсе доступна даже

play01:24

последняя модель стоит также отметить

play01:26

существенный Прогресс при работе с

play01:28

разными языками кстати знаете На сколько

play01:30

меньше токенов нужно чтобы работать с

play01:32

русским языком на 30% что это значит у

play01:36

нас появился новый токена изер То есть

play01:38

модель которая разбивает текст на токены

play01:40

токен - это что-то среднее между буквой

play01:42

и словом это некоторая частая

play01:44

последовательность встречающихся букв в

play01:46

тексте благодаря эффективной токенизация

play01:48

модель лучше кодирует текст лучше

play01:50

понимает смысл а Для нас это быстрее и

play01:52

дешевле но и это ещё не всё инженеры

play01:55

Open ai научили модель практически

play01:57

безупречно распознавать картинки и и

play02:00

генерить собственно это было и раньше но

play02:02

модель существенно улучшилась Вы только

play02:04

Посмотрите на эти примеры модель

play02:06

способна создавать изображение с чётким

play02:08

аккуратным текстом рисовать новые шрифты

play02:11

А как вам возможность общаться с Open

play02:13

eii по видеосвязи Наверное это была

play02:16

самая крутая фишка из презентации уж

play02:18

чего только ведущий не делал со своим

play02:20

ней росет начал он с того что он сказал

play02:22

что сейчас проводит презентацию про эту

play02:24

модель рассечка немножко засмущалась но

play02:27

видно что ей было приятно потом прямо во

play02:29

время живого вступления нам показали как

play02:31

нейросеть читает сказки разными голосами

play02:33

придавая ей больше или меньше эмоций

play02:35

также нейросеть угадывал настроение

play02:37

ведущего по фото по видео то есть не

play02:39

Росс сетки потихоньку учатся в сарказм и

play02:41

юмор поймите уровень прогресса gpt 4o

play02:44

стала на 100 баллов выше одного из своих

play02:46

главных конкурентов модели clad 3 Opus

play02:49

по этому графику вы видите насколько

play02:50

отрыв стал существенным новая модель

play02:53

буквально размазала соперников в

play02:55

генерации текста в коде и даже

play02:56

творческих задачах пару примеров

play02:59

Представьте вы изучаете иностранный язык

play03:01

и хотите потренировать своё произношение

play03:03

и разговорную речь теперь не нужно

play03:05

искать репетитора просто достаёт из

play03:06

кармана свою росет и болтаете на разные

play03:09

темы уже после презентации Open ai

play03:11

выкатилась канал примеры как чат gpt

play03:14

выступают в роли синхронного переводчика

play03:17

два человека общаются один на английском

play03:18

другой на испанском и нейросеть

play03:20

переводит Сначала с английского на

play03:22

испанский и потом в обратную сторону с

play03:24

испанского на английский тем самым

play03:25

позволяя двум людям общающимися на

play03:27

разных языках легко найти язык между

play03:29

собой и на самом деле Похоже что

play03:31

разработчики из Open ai сами не понимают

play03:33

на что их модель на самом деле способна

play03:36

потому что на презентации они сами

play03:38

испытывали эмоции как будто видят это в

play03:39

первый раз Несмотря на все достоинства

play03:41

Chat gpt и Open ai не стоит думать что

play03:44

это единственный крупный игрок на рынке

play03:46

искусственного интеллекта перейдём к

play03:48

презентации Google IO которая случилась

play03:50

ровно на один день позже презентации от

play03:52

Open ai похоже Сэм альман что-то знал и

play03:55

были анонсированы любопытные обновления

play03:57

которые тоже заслуживают нашего с вами

play03:59

внимания во-первых Google представил

play04:01

gemi 1.5 Pro это обновлённая версия

play04:04

ихней россет для генерации текста такая

play04:06

же как Chat gpt икд и главное её отличие

play04:09

в увеличенном контекстном окне Что это

play04:12

значит теперь jini 1.5 Pro может

play04:15

принимать текст длиной до 2 млн токенов

play04:18

это на секундочку в 40 раз больше чем у

play04:21

gpt 4o и в этот текст влезет аж целая

play04:24

книга вторая фишка Gemini что она как ни

play04:27

странно будет встроена в сервисы Гугла

play04:29

такие как почта и документы вы сможете

play04:31

быстро эффективно работать с таблицами с

play04:33

документами не россеть будет

play04:35

подсказывать вам как дополнить текст или

play04:37

какой ответ написать на пришедшее

play04:39

сообщение и обещают что это будет

play04:40

работать всё очень быстро без какой-либо

play04:42

нагрузки на ваши устройства тут стоит

play04:44

также отметить Project Astra - это

play04:46

концепт от Гугла и и ассистента по сути

play04:49

типа gpt 4o Но если у gpt - это уже

play04:52

реально работающий прототип то у Гугла -

play04:54

это пока что концепт Кстати ссылочка на

play04:56

Gemini выглядит не так очевидно как это

play04:59

кажется поэтому я оставил её в описании

play05:01

под видео а также в своей телеге не

play05:03

будем забывать и про генеративные

play05:04

возможности искусственного интеллекта от

play05:06

Гугла компания показала Imagine 3 это

play05:09

самая лучшая разработка Гугла в сфере

play05:11

генерации изображений И если мы

play05:13

посмотрим на примеры которые нам

play05:15

показали то действительно их качество на

play05:18

очень высоком уровне в общем Imagine 3

play05:20

как и M journe stable diffusion и другие

play05:22

нейросети умеет создавать очень

play05:24

фотореалистичный изображения надо будет

play05:27

их отдельно сравнить если интересно

play05:28

подписывайся вот Вот но главная фишка

play05:30

Imagine 3 сейчас это то что по

play05:32

заявлениям и по М демка которые нам

play05:34

показали она чуть ли не лучше всех

play05:37

генерирует текст на фотках А это для

play05:39

наших моделей по генерации изображений

play05:41

всегда было Самой сложной задачей Ну и

play05:44

для любителей видео Google представил

play05:45

Veo это нейросеть которая может

play05:48

генерировать ролики по промпто в

play05:50

качестве 1080p длиной аж до целой одно

play05:54

минуты то есть да это как ссора Но от

play05:56

Гугла Вот посмотрите сравнение качества

play05:58

от ссоры и от Veo Напишите Какая вообще

play06:01

модель вам больше нравится потому что я

play06:03

иногда затрудняюсь ответить даже так вот

play06:05

ссора ссорой но Veo будет хороша тем что

play06:07

она также будет встроена в некоторые

play06:09

сервисы от Гугла например скорее всего

play06:11

её добавят в YouTube и в YouTube shorts

play06:13

это на самом деле будет очень удобно и

play06:15

интересно ну и музыкантам и саунд

play06:18

дизайнерам тоже есть чему порадоваться

play06:20

потому что Google Представила свою росет

play06:22

Music ai Sandbox это набор инструментов

play06:25

для генерации и редактирования музыки с

play06:27

помощью нейросетей вы сможете создавать

play06:30

уникальные ритмы мелодии аранжировки и

play06:32

даже переносить стиль с одной музыки на

play06:34

другую похоже скоро для создания

play06:36

саундтрека как домашнему видео не нужно

play06:38

будет приглашать целый оркестр это

play06:40

кстати шутка от чат gpt Так какая же

play06:43

компания впереди в гонке за

play06:44

искусственный интеллект тут нет

play06:46

однозначного ответа потому что каждая из

play06:48

этих компаний хороша по-своему в своей

play06:50

области gpt поражают своей

play06:52

универсальностью они продвигают API для

play06:54

бизнеса и у них хорошие мультимодальные

play06:56

модели а продукты Google хороши тем что

play06:59

они интегрированы в сервисы компании и

play07:01

со временем это может перевесить что я

play07:04

скажу всё-таки Open ai Молодцы они

play07:06

потому что будущие гораздо более мелкой

play07:08

компания чем Google Microsoft и другие

play07:10

Они смогли выстрелить и показать всем

play07:12

кто реально правит искусственным

play07:14

интеллектом и Даже несмотря на то что

play07:16

сейчас другие компании запоздалым темпом

play07:18

подтягиваются типа Гугла всё равно за

play07:20

этой гонкой наблюдать очень интересно И

play07:22

для нас пользователей это в принципе

play07:24

значит хорошие новости потому что у нас

play07:27

Благодаря этой конкуренции будет самый

play07:29

лучший сервис самые лучшие модели но

play07:31

надеемся что искуственный интеллект не

play07:33

заберёт нашу работу может быть я вообще

play07:34

уже Аватар или нет И время узнать какая

play07:37

же из нейросетей справилась с этой

play07:39

сложной загадкой лучше другой кстати

play07:41

Попрошу тебя написать в комментарии свою

play07:43

первую мысль как бы ты ответил на данный

play07:45

вопрос потому что когда я ответил на

play07:47

этот вопрос и я сделал это неправильно И

play07:49

вот он правильный

play07:53

ответ поздравляем Джеми най ты победил

play07:57

ты лучший искусственный интеллект Кстати

play08:00

если тебе нужна консультация по

play08:01

нейросетям по искусственному интеллекту

play08:02

или даже по Data Science ты всегда

play08:04

можешь написать мне в Telegram Пиши на

play08:06

этом всё спасибо что посмотрели это

play08:08

видео до конца увидимся

Rate This

5.0 / 5 (0 votes)

Ähnliche Tags
Искусственный интеллектGoogleOpenAIНейросетиМультимодальностьТекстовая генерацияГенерация изображенийИнтеграция сервисовАудио взаимодействиеТокенизацияСинхронный переводчикКонкуренцияТехнологические новшества
Benötigen Sie eine Zusammenfassung auf Englisch?