OpenAI против Google - разбор презентаций | GPT-4o | Gemini 1.5 Pro | Imagen 3 | Veo
Summary
TLDRВсем привет! Недавно Open AI и Google представили свои последние разработки в области искусственного интеллекта, что привлекает большое внимание. Open AI продемонстрировала мультимодальную нейросеть GPT-4, способную работать с текстом, голосом и видео, а также улучшив скорость реагирования на аудио и снизив стоимость работы через API. Google, в свою очередь, анонсировала обновления в своих продуктах, включая LaMDA 1.5 Pro с увеличенным контекстным окном и интеграцией в свои сервисы, а также Project Astra и Imagine 3, продемонстрировавшие высокое качество генерации изображений и текста на фотках. Кроме того, Google представила Veo, нейросеть для генерации видео, и Music AI Sandbox для музыкальной индустрии. Такие инновации говорят о быстром развитии ИИ и его потенциальном влиянии на различные сферы жизни и бизнеса.
Takeaways
- 🚀 OpenAI и Google продемонстрировали свои последние разработки в области искусственного интеллекта, что является важным шагом для всей индустрии.
- 🧠 GPT-4O от OpenAI является первой многообразной нейросетью, обучавшейся на тексте, изображениях и аудио одновременно, что позволяет более эффективной работе и находению связей между данными.
- 🗣️ OpenAI улучшила взаимодействие с аудио, сократила задержку до 300 миллисекунд и увеличила скорость работы чата в два раза.
- 💬 Стоимость токенов через API уменьшилась в два раза, а последнюю модель сделали доступной бесплатно.
- 🌐 OpenAI добилась значительных прогрессов в работе с разными языками, в том числе и русским, сократив количество необходимых токенов на 30%.
- 🎨 Инженеры OpenAI научили модель распознавать картинки и генерировать изображения с четким текстом и новыми шрифтами.
- 📹 Возможность общения с OpenAI по видеосвязи была одной из крутых новинок, демонстрируя распознавание настроения и эмоций.
- 📈 GPT-4O значительно опередила конкурентов, таких как модель CLAD 3 Opus, в генерации текста и творческих задачах.
- 🔍 Google анонсировала обновления, включая новую версию своей нейросети для генерации текста, Gemini 1.5 Pro, с увеличенным контекстным окном до 2 миллионов токенов.
- 📚 Gemini будет встроена в сервисы Google, такие как почта и документы, предлагая подсказки для работы с текстом и таблицами.
- 🎨 Google также представила Imagine 3, разработку в области генерации изображений, способную создавать высококачественные фотореалистичные изображения.
Q & A
Какой событие произошло 13 мая, связанное с искусственным интеллектом?
-13 мая Open AI провела свою презентацию, на которой была представлена новая модель GPT-4o.
Что означает термин 'мультимодальная нейросеть' в контексте GPT-4o?
-Мультимодальная нейросеть — это модель, обучающаяся на нескольких типах данных одновременно, например, тексте, изображениях и аудио. В отличие от предыдущих моделей, GPT-4o обучается на всех этих типах данных сразу, что позволяет ей работать более эффективно.
Какие возможности открывает мультимодальность для пользователей?
-Мультимодальность позволяет пользователям общаться с искусственным интеллектом не только текстом, но и голосом, видео, и даже загружать изображения для анализа.
Какие улучшения были внесены в скорость взаимодействия с аудио у GPT-4o?
-Open AI существенно улучшила взаимодействие с аудио, сократив задержку до 300 миллисекунд, что сопоставимо с человеческой реакцией.
Что изменилось с точки зрения стоимости использования модели через API?
-Стоимость токенов через API уменьшилась в два раза, что делает использование модели доступнее для пользователей.
Какие прогрессы были достигнуты в работе с разными языками?
-Достигнут значительный прогресс в работе с разными языками, в том числе и русским, сократился количество токенов, необходимое для работы с ним, на 30%.
Какие новые возможности позволили модели распознавать и генерировать изображения?
-Модель научилась практически безупречно распознавать изображения и генерировать их с четким текстом, рисовать новые шрифты и общаться по видеосвязи.
Какие возможности предоставляет Google в сфере искусственного интеллекта после презентации?
-Google анонсировала обновления, включая LaMDA 1.5 Pro с увеличенным контекстным окном, интеграцию модели в свои сервисы, такие как почта и документы, и концепт Project Astra.
Что такое Imagine 3 и каков его уровень качества?
-Imagine 3 - это разработка Google в области генерации изображений, способная создавать фотореалистичные изображения и генерировать текст на фотках на высоком уровне.
Какие возможности предоставляет нейросеть Veo от Google?
-Veo - это нейросеть, способная генерировать видео по промпту в качестве 1080p и длиной до одной минуты, что может быть интегрировано в сервисы, такие как YouTube и YouTube Shorts.
Какова Music AI Sandbox от Google и для кого она предназначена?
-Music AI Sandbox - это набор инструментов для генерации и редактирования музыки с помощью нейросетей, предназначенных для музыкантов и звукорежиссеров для создания уникальных мелодий и аранжировок.
Какой вывод автор делает о гонке между компаниями за развитие искусственного интеллекта?
-Автор считает, что нет однозначного ответа о том, кто впереди в гонке за искусственным интеллектом, так как каждая компания обладает своими сильными сторонами, и конкуренция приводит к развитию лучших сервисов и моделей.
Outlines
🤖 Основные новости недели в области ИИ
В этом выпуске видео рассматриваются основные события недели в области искусственного интеллекта, в частности, презентации от Google и OpenAI. OpenAI представила мультимодальную нейросеть GPT-4O, способную обрабатывать текст, изображения и аудио одновременно, что увеличивает эффективность и позволяет находить связи между различными типами данных. Также была улучшена скорость работы с аудио, снизились затраты на токенов через API, а модель стала более эффективной в работе с разными языками. Google, в свою очередь, анонсировала обновления в своих продуктах, включая глубокую интеграцию модели генерации текста в свои сервисы и концепцию Project Astra, а также представила разработки в области генерации изображений и видео.
🖼️ Инновации Google в генерации изображений и видео
Второй параграф видео сконцентрирован на инновационных разработках Google в области генерации изображений и видео. Представлена система Imagine 3, способная создавать фотореалистичные изображения и генерировать текст на фотографиях. Также была представлена нейросеть Veo, способная генерировать видео по промпту в качестве 1080p и длиной до одной минуты. Google также анонсировала Music AI Sandbox, набор инструментов для генерации и редактирования музыки с помощью нейросетей. Эти разработки демонстрируют интеграцию искусственного интеллекта в различные аспекты жизни и работы, от видео до музыкальных композиций.
Mindmap
Keywords
💡искусственный интеллект
💡нейросеть
💡мультимодальная нейросеть
💡OpenAI
💡GPT 4o
💡Gemini 1.5 Pro
💡Project Astra
💡Imagine 3
💡Veo
Highlights
В течение этой недели Google и Open AI представили свои последние разработки в области искусственного интеллекта.
Open AI представила мультимодальную нейросеть GPT-4o, способную работать с текстом, изображениями и аудио одновременно.
GPT-4o обеспечивает более эффективную работу и находит взаимосвязи между разными типами данных.
Open AI улучшила взаимодействие с аудио, сократила задержку до 300 миллисекунд и увеличила скорость работы чата в два раза.
Стоимость токенов через API уменьшилась в два раза, а для бесплатных пользователей доступна даже последняя модель.
Open AI достигла значительных успехов в работе с разными языками, в том числе с русским, что сокращает количество необходимых токенов на 30%.
Новая модель GPT-4o способна почти идеально распознавать изображения и генерировать их.
Во время презентации Open AI демонстрировала модель, способную читать сказки с разными голосами и эмоциями.
GPT-4o также может угадывать настроение ведущего по фото или видео, что показывает развитие в области юмора и сарказма.
Open AI продемонстрировала возможности чата GPT в роли синхронного переводчика для двух людей, общающихся на разных языках.
Google анонсировала обновленную версию своей нейросети для генерации текста, Gemini 1.5 Pro, с увеличенным контекстным окном до 2 миллионов токенов.
Gemini 1.5 Pro будет встроена в сервисы Google, такие как почта и документы, для помощи в написании текстов и ответах.
Google представила концепт Project Astra, аналогичный GPT-4o, но в настоящее время он остается только концептом.
Imagine 3 от Google является лучшим достижением в области генерации изображений с высококачественными фотореалистичными результатами.
Veo - это нейросеть от Google, способная генерировать видео по промпто с качеством 1080p и длительностью до одной минуты.
Google также представила Music AI Sandbox, набор инструментов для генерации и редактирования музыки с помощью нейросетей.
Конкуренция между компаниями в области искусственного интеллекта приводит к разработке лучших сервисов и моделей для пользователей.
Презентации Google и Open AI демонстрируют, что искусственный интеллект продолжает быстро развиваться и преодолевать пределы.
Transcripts
на этой неделе два лидера планеты по
искусственному интеллекту Google и Open
ai показали свои самые последние
разработки но смогут ли самые передовые
нейросети ответить на этот простой
вопрос узнаем в конце ролика сегодня мы
поговорим о главных новостях прошедшей
недели в сфере искусственного интеллекта
а именно о двух презентациях Open ai и
Google Input output Это большой шаг для
всей индустрии и сейчас я объясню почему
13 мая Open ai провела свою презентацию
на которой показала модели gpt 4o и она
же gpt 4 Омни первое что нужно знать gpt
4o - это первая по-настоящему
мультимодальная нейросеть Что это значит
до сих пор большинство нейросетей
обучалось отдельно на одном типе данных
это текст картинки или аудио но gpt 4o
было обучена на этих данных сразу Что
позволит ей работать более эффективно и
находить взаимосвязи между этими типами
данных это открывает море возможностей
для пользователей Теперь вы можете
общаться с искусственным интеллектом
хоть текстом хоть голосом хоть через
видео хотите узнать что на этом фото
просто загрузить его в чат нет времени
печатать текст Спросите голосом gpt 4o
справится почти с Любой задачей Кстати о
скорости Open ai существенно поработали
над взаимодействием с аудио теперь
задержка составляет не 2-3 секунды а
всего-то около 300 миллисекунд что
сопоставимо с реакции человека при этом
Chat gpt стал работать в два раза
быстрее стоимость токенов через API
уменьшилась в два раза а бесплатным
пользователям и вовсе доступна даже
последняя модель стоит также отметить
существенный Прогресс при работе с
разными языками кстати знаете На сколько
меньше токенов нужно чтобы работать с
русским языком на 30% что это значит у
нас появился новый токена изер То есть
модель которая разбивает текст на токены
токен - это что-то среднее между буквой
и словом это некоторая частая
последовательность встречающихся букв в
тексте благодаря эффективной токенизация
модель лучше кодирует текст лучше
понимает смысл а Для нас это быстрее и
дешевле но и это ещё не всё инженеры
Open ai научили модель практически
безупречно распознавать картинки и и
генерить собственно это было и раньше но
модель существенно улучшилась Вы только
Посмотрите на эти примеры модель
способна создавать изображение с чётким
аккуратным текстом рисовать новые шрифты
А как вам возможность общаться с Open
eii по видеосвязи Наверное это была
самая крутая фишка из презентации уж
чего только ведущий не делал со своим
ней росет начал он с того что он сказал
что сейчас проводит презентацию про эту
модель рассечка немножко засмущалась но
видно что ей было приятно потом прямо во
время живого вступления нам показали как
нейросеть читает сказки разными голосами
придавая ей больше или меньше эмоций
также нейросеть угадывал настроение
ведущего по фото по видео то есть не
Росс сетки потихоньку учатся в сарказм и
юмор поймите уровень прогресса gpt 4o
стала на 100 баллов выше одного из своих
главных конкурентов модели clad 3 Opus
по этому графику вы видите насколько
отрыв стал существенным новая модель
буквально размазала соперников в
генерации текста в коде и даже
творческих задачах пару примеров
Представьте вы изучаете иностранный язык
и хотите потренировать своё произношение
и разговорную речь теперь не нужно
искать репетитора просто достаёт из
кармана свою росет и болтаете на разные
темы уже после презентации Open ai
выкатилась канал примеры как чат gpt
выступают в роли синхронного переводчика
два человека общаются один на английском
другой на испанском и нейросеть
переводит Сначала с английского на
испанский и потом в обратную сторону с
испанского на английский тем самым
позволяя двум людям общающимися на
разных языках легко найти язык между
собой и на самом деле Похоже что
разработчики из Open ai сами не понимают
на что их модель на самом деле способна
потому что на презентации они сами
испытывали эмоции как будто видят это в
первый раз Несмотря на все достоинства
Chat gpt и Open ai не стоит думать что
это единственный крупный игрок на рынке
искусственного интеллекта перейдём к
презентации Google IO которая случилась
ровно на один день позже презентации от
Open ai похоже Сэм альман что-то знал и
были анонсированы любопытные обновления
которые тоже заслуживают нашего с вами
внимания во-первых Google представил
gemi 1.5 Pro это обновлённая версия
ихней россет для генерации текста такая
же как Chat gpt икд и главное её отличие
в увеличенном контекстном окне Что это
значит теперь jini 1.5 Pro может
принимать текст длиной до 2 млн токенов
это на секундочку в 40 раз больше чем у
gpt 4o и в этот текст влезет аж целая
книга вторая фишка Gemini что она как ни
странно будет встроена в сервисы Гугла
такие как почта и документы вы сможете
быстро эффективно работать с таблицами с
документами не россеть будет
подсказывать вам как дополнить текст или
какой ответ написать на пришедшее
сообщение и обещают что это будет
работать всё очень быстро без какой-либо
нагрузки на ваши устройства тут стоит
также отметить Project Astra - это
концепт от Гугла и и ассистента по сути
типа gpt 4o Но если у gpt - это уже
реально работающий прототип то у Гугла -
это пока что концепт Кстати ссылочка на
Gemini выглядит не так очевидно как это
кажется поэтому я оставил её в описании
под видео а также в своей телеге не
будем забывать и про генеративные
возможности искусственного интеллекта от
Гугла компания показала Imagine 3 это
самая лучшая разработка Гугла в сфере
генерации изображений И если мы
посмотрим на примеры которые нам
показали то действительно их качество на
очень высоком уровне в общем Imagine 3
как и M journe stable diffusion и другие
нейросети умеет создавать очень
фотореалистичный изображения надо будет
их отдельно сравнить если интересно
подписывайся вот Вот но главная фишка
Imagine 3 сейчас это то что по
заявлениям и по М демка которые нам
показали она чуть ли не лучше всех
генерирует текст на фотках А это для
наших моделей по генерации изображений
всегда было Самой сложной задачей Ну и
для любителей видео Google представил
Veo это нейросеть которая может
генерировать ролики по промпто в
качестве 1080p длиной аж до целой одно
минуты то есть да это как ссора Но от
Гугла Вот посмотрите сравнение качества
от ссоры и от Veo Напишите Какая вообще
модель вам больше нравится потому что я
иногда затрудняюсь ответить даже так вот
ссора ссорой но Veo будет хороша тем что
она также будет встроена в некоторые
сервисы от Гугла например скорее всего
её добавят в YouTube и в YouTube shorts
это на самом деле будет очень удобно и
интересно ну и музыкантам и саунд
дизайнерам тоже есть чему порадоваться
потому что Google Представила свою росет
Music ai Sandbox это набор инструментов
для генерации и редактирования музыки с
помощью нейросетей вы сможете создавать
уникальные ритмы мелодии аранжировки и
даже переносить стиль с одной музыки на
другую похоже скоро для создания
саундтрека как домашнему видео не нужно
будет приглашать целый оркестр это
кстати шутка от чат gpt Так какая же
компания впереди в гонке за
искусственный интеллект тут нет
однозначного ответа потому что каждая из
этих компаний хороша по-своему в своей
области gpt поражают своей
универсальностью они продвигают API для
бизнеса и у них хорошие мультимодальные
модели а продукты Google хороши тем что
они интегрированы в сервисы компании и
со временем это может перевесить что я
скажу всё-таки Open ai Молодцы они
потому что будущие гораздо более мелкой
компания чем Google Microsoft и другие
Они смогли выстрелить и показать всем
кто реально правит искусственным
интеллектом и Даже несмотря на то что
сейчас другие компании запоздалым темпом
подтягиваются типа Гугла всё равно за
этой гонкой наблюдать очень интересно И
для нас пользователей это в принципе
значит хорошие новости потому что у нас
Благодаря этой конкуренции будет самый
лучший сервис самые лучшие модели но
надеемся что искуственный интеллект не
заберёт нашу работу может быть я вообще
уже Аватар или нет И время узнать какая
же из нейросетей справилась с этой
сложной загадкой лучше другой кстати
Попрошу тебя написать в комментарии свою
первую мысль как бы ты ответил на данный
вопрос потому что когда я ответил на
этот вопрос и я сделал это неправильно И
вот он правильный
ответ поздравляем Джеми най ты победил
ты лучший искусственный интеллект Кстати
если тебе нужна консультация по
нейросетям по искусственному интеллекту
или даже по Data Science ты всегда
можешь написать мне в Telegram Пиши на
этом всё спасибо что посмотрели это
видео до конца увидимся
Voir Plus de Vidéos Connexes
GPT-4o - Безумные ИЗМЕНЕНИЯ уже сейчас. Исторический поворот от Open Ai
UDIO - Уже ЛУЧШЕ Человека. Музыкальные Шедевры за Бесплатно. UDIO AI в разы круче SUNO
ИЗУЧИТЕ ГЛАВНУЮ НЕЙРОСЕТЬ МИРА от Б до Ю
5 Новых Нейросетей Для Создания Вирусных Видео [2024]
Claude 3 Haiku vs Sonnet vs Opus for Writing
5 formule per una bio instagram di successo
5.0 / 5 (0 votes)