OpenAI против Google - разбор презентаций | GPT-4o | Gemini 1.5 Pro | Imagen 3 | Veo

Vasily Ryazanov

18 May 202408:11

Summary

TLDRВсем привет! Недавно Open AI и Google представили свои последние разработки в области искусственного интеллекта, что привлекает большое внимание. Open AI продемонстрировала мультимодальную нейросеть GPT-4, способную работать с текстом, голосом и видео, а также улучшив скорость реагирования на аудио и снизив стоимость работы через API. Google, в свою очередь, анонсировала обновления в своих продуктах, включая LaMDA 1.5 Pro с увеличенным контекстным окном и интеграцией в свои сервисы, а также Project Astra и Imagine 3, продемонстрировавшие высокое качество генерации изображений и текста на фотках. Кроме того, Google представила Veo, нейросеть для генерации видео, и Music AI Sandbox для музыкальной индустрии. Такие инновации говорят о быстром развитии ИИ и его потенциальном влиянии на различные сферы жизни и бизнеса.

Takeaways

🚀 OpenAI и Google продемонстрировали свои последние разработки в области искусственного интеллекта, что является важным шагом для всей индустрии.
🧠 GPT-4O от OpenAI является первой многообразной нейросетью, обучавшейся на тексте, изображениях и аудио одновременно, что позволяет более эффективной работе и находению связей между данными.
🗣️ OpenAI улучшила взаимодействие с аудио, сократила задержку до 300 миллисекунд и увеличила скорость работы чата в два раза.
💬 Стоимость токенов через API уменьшилась в два раза, а последнюю модель сделали доступной бесплатно.
🌐 OpenAI добилась значительных прогрессов в работе с разными языками, в том числе и русским, сократив количество необходимых токенов на 30%.
🎨 Инженеры OpenAI научили модель распознавать картинки и генерировать изображения с четким текстом и новыми шрифтами.
📹 Возможность общения с OpenAI по видеосвязи была одной из крутых новинок, демонстрируя распознавание настроения и эмоций.
📈 GPT-4O значительно опередила конкурентов, таких как модель CLAD 3 Opus, в генерации текста и творческих задачах.
🔍 Google анонсировала обновления, включая новую версию своей нейросети для генерации текста, Gemini 1.5 Pro, с увеличенным контекстным окном до 2 миллионов токенов.
📚 Gemini будет встроена в сервисы Google, такие как почта и документы, предлагая подсказки для работы с текстом и таблицами.
🎨 Google также представила Imagine 3, разработку в области генерации изображений, способную создавать высококачественные фотореалистичные изображения.