NVIDIA’s New AI: 50x Smaller Virtual Worlds!
Summary
TLDRIn diesem Video entdecken wir beeindruckende neue Techniken zur Erstellung virtueller Welten. NVIDIA hat eine Technik entwickelt, die qualitativ hochwertige Bilder bei geringerer Dateigröße liefert. Intel und die New York University präsentieren eine Methode, um 3D-Modelle aus Bildern zu erzeugen und diese nach Belieben zu manipulieren. Zudem ermöglicht eine neue KI-Technik, Bilder ohne menschliche Anweisungen zu animieren. Schließlich zeigt eine weitere Innovation, wie KI aus Audiodaten virtuelle Charaktere mit natürlichen Bewegungen erzeugt. Diese Entwicklungen demonstrieren eindrucksvoll das Potenzial der KI in der Bild- und Videobearbeitung.
Takeaways
- 🌐 Die neuesten Papiere ermöglichen die Schaffung atemberaubender virtueller Welten.
- 🎨 NVIDIA hat bereits einen Beitrag dazu geleistet, aber die Verbesserung der Qualität ist nicht offensichtlich.
- 🔍 Eine neue Technik namens Instant Neural Graphics bietet schnelle Konvergenz und bessere Qualität.
- 📏 Die neue Technik bietet dieselbe Qualität in nur einem Fünftel der Größe verglichen mit Instant Neural Graphics.
- 🤖 Eine zweite Papierbesprechung beschäftigt sich mit der Umwandlung von Bildern in 3D-Modelle, um neue Posen und Positionen zu erstellen.
- 🖼️ Es ist möglich, Objekte in Bildern zu versetzen und zu deformieren, was eine große Kontrolle über das Bild bietet.
- 🎨 Eine weitere Studie ermöglicht es, bestehende Bilder mit künstlerischer Richtung zu versehen und Bewegungen zu erzeugen.
- 🐎 Die AI kann komplexe Bewegungen wie das Bewegen eines Pferdes verstehen und synthetisieren.
- 🎬 Eine weitere Technik basiert auf Audioeingaben und erstellt automatisch virtuelle Charaktere mit Mundbewegungen und Gesten.
- 🗣️ Die synthetisierten Bewegungen können expressiv sein, manchmal jedoch etwas steif und ungenau.
- 🧠 Die Herausforderung besteht darin, menschliche Ausdrücke und Reaktionen überzeugend zu synthetisieren, da unser Gehirn darauf programmiert ist, sie zu lesen.
Q & A
Was ist das Hauptthema des Videos?
-Das Hauptthema des Videos ist die Erstellung virtueller Welten mithilfe neuer KI-Techniken und Forschungspapiere.
Welche zwei Unternehmen werden in Bezug auf die Bildumgestaltung erwähnt?
-Intel und die New York University werden in Bezug auf die Bildumgestaltung erwähnt.
Was sind NERFs und wofür werden sie verwendet?
-NERFs sind Techniken, mit denen eine Vielzahl von Fotos zu einer virtuellen Welt zusammengefügt werden kann.
Wie unterscheidet sich die Qualität der neuen Technik im Vergleich zu früheren Methoden?
-Die neue Technik bietet die gleiche hohe Qualität wie frühere Methoden, ist aber viel kompakter in der Größe, bis zu fünfmal kleiner.
Was ermöglicht die neue Technik der Bildbearbeitung?
-Die neue Technik ermöglicht es, Objekte in einem Bild in 3D-Modelle umzuwandeln, sie in neue Posen zu versetzen und zurück ins Bild einzufügen.
Was kann die Technik zur Erstellung von Videos aus bestehenden Bildern bewirken?
-Die Technik kann Videos aus bestehenden Bildern erstellen, indem sie Bewegungen basierend auf Anweisungen des Benutzers simuliert.
Welche Herausforderung besteht bei der Synthese von realistischen Mundbewegungen und Gesten in virtuellen Welten?
-Eine große Herausforderung besteht darin, dass unsere Gehirne auf die Erkennung von Ungenauigkeiten in Mimik und Gestik programmiert sind, was es schwierig macht, diese Bewegungen realistisch zu synthetisieren.
Wie zeigt das Video den Fortschritt der KI in der Videobearbeitung?
-Das Video zeigt den Fortschritt der KI, indem es Techniken präsentiert, die aus Audioeingaben realistische Mundbewegungen und Gesten in virtuellen Charakteren erstellen können.
Was ist das „Erste Gesetz der Papiere“, das im Video erwähnt wird?
-Das „Erste Gesetz der Papiere“ besagt, dass Forschung ein Prozess ist und man den Fortschritt über mehrere Forschungspapiere hinweg betrachten sollte, anstatt nur den aktuellen Stand.
Welche zukünftigen Entwicklungen werden im Video vorhergesagt?
-Das Video prognostiziert, dass in naher Zukunft fortschrittlichere und realistischere Techniken für die Erstellung und Bearbeitung virtueller Welten und Charaktere entwickelt werden.
Outlines
🌐 Innovative virtuelle Welten erstellen
Dieses Video zeigt, wie neue Technologien von NVIDIA und anderen Unternehmen dazu beitragen, atemberaubende virtuelle Welten zu erstellen. Es beginnt mit der Einführung von NERFs, die es ermöglichen, eine Vielzahl von Fotos zu sammeln und diese zu einer virtuellen Welt zusammenzufügen. Ein Beispiel dafür ist die Instant Neural Graphics-Technologie, die in Sekunden konvergiert und oft bessere Qualität als ihre Vorgänger bietet. Besonders hervorhebt wird die Verbesserung in der Darstellung von Details wie Haaren und Pullovern. Ein besonderer Fokus liegt auf der Dateigröße der neuen Technik, die dieselbe Qualität bei nur einem Fünftel der Größe bietet. Darüber hinaus werden Methoden vorgestellt, die Bilder in 3D-Modelle umwandeln und diese in neue Posen bringen, was eine enorme Kontrolle über die Bilder bietet. Schließlich wird eine AI-Technik vorgestellt, die Videos ohne menschliche Anweisungen selbstständig lenken kann, was ein erstaunliches Beispiel für die Entwicklung in diesem Bereich ist.
🎨 Künstlerische Anweisungen für Bilder und Videos
Der zweite Absatz konzentriert sich auf die künstlerische Anweisung von Bildern und Videos durch AI. Hierbei wird gezeigt, wie AI-Techniken Pfade und Bewegungen für Bilder interpretieren können, um Videos zu erstellen, die die gewünschten Bewegungen widerspiegeln. Ein Beispiel ist die Anwendung von Bewegungsanweisungen auf ein Pferd, was zeigt, wie die KI das Bewegungsmuster des Pferdes verstehen und in ein Video umsetzen kann. Es wird auch auf die Herausforderungen hingewiesen, die mit der Erstellung von ausdrucksstarken und naturalen Gesichts- und Gestenbewegungen verbunden sind, die für echte Konversationen in virtuellen Welten notwendig sind. Die Tatsache, dass aus reinem Audio eine so detaillierte und expressive Bewegung synthetisiert werden kann, ist beeindruckend und zeigt das Potenzial der AI in Zukunft noch weiter zu entwickeln.
Mindmap
Keywords
💡NERFs
💡Instant Neural Graphics
💡Virtuelle Welten
💡Gaussian Splatting
💡3D-Modellierung
💡Bildbearbeitung
💡Bewegungssynthese
💡Künstliche Intelligenz (AI)
💡Zweite Gesetz der Papiere
💡DALL-E
💡Audio-Eingabe
Highlights
NVIDIA's new technique for creating virtual worlds with improved quality and speed.
Instant Neural Graphics, a model that stitches photos into a virtual world in seconds with better detail.
The new technique's ability to maintain quality while significantly reducing file size compared to previous methods.
Gaussian Splatting, a legendary technique for creating and animating virtual worlds, and the new technique's 50 times more compact size.
Intel and New York University's collaboration to re-sculpt images into 3D models with knowledge of the backside for new poses.
The ability to rotate and shift 3D models of objects within images, and apply deformations.
Adding new elements like ducklings or fish into images with relative consistency.
The potential for future advancements in image manipulation and control as indicated by the current state of research.
Applying artistic direction to existing images with simple instructions for movement resulting in a synthesized video.
The complexity of instructing a horse to move in a synthesized video and the AI's understanding of motion.
The First Law of Papers emphasizing the evolution of research and the potential for future breakthroughs.
AI technique that synthesizes virtual characters, mouth movements, and gestures from audio input for virtual conversations.
The current limitations in synthesized movements' expressiveness and accuracy, and the potential for future improvements.
The challenge of creating realistic human interactions in virtual worlds due to our brain's ability to read expressions.
The showcase of human ingenuity and AI's power to overcome difficult problems in virtual character creation.
Transcripts
Today we are going to create absolutely incredible virtual worlds with these new papers. First,
NVIDIA did something here, but if the quality does not seem to be too much better here,
then how does this really help? We’ll find out together.
Then, we are going to re-sculpt an image
with this collaboration between Intel and New York University.
Then, we will become a movie director and give directions to,
not people, but get this: images. Oh yes.
And then, we won’t even need to direct these images. This
AI technique directs the video by itself.
Dear Fellow Scholars, this is Two Minute Papers with Dr. Károly Zsolnai-Fehér.
So, with NERFs, we are able to gather a bunch of photos, and have a technique stitch it together
into a virtual world. There are models that can do this extremely quickly, for instance,
Instant Neural Graphics. This converges in a matter of seconds, which is kind of insane.
And its quality is often even better than its predecessors. You see a great deal more detail
in the hair and the sweater. And now, let’s see the new technique! Ready to be blown away.
Wait a second… this looks nearly the same! So is this better? If it is better, how?
Well, what you see here is quality, but quality is just half of the story! The other half is
size. We haven’t talked about that yet. The first technique is reasonably sized,
but the quality is lacking, then comes Instant Neural Graphics, quality much better,
but the size is much larger. And now, look at the new technique, which looks roughly the same,
but, oh my, it packs the same quality but in one fifth the size. Fantastic. In this sense, this is
even better than the legendary new technique, Gaussian Splatting, which can create and now,
even animate virtual worlds, and this new one is 50 times more compact than that. Crazy.
Now, let’s sculpt some images. Second paper. Here, the goal is to take an image, any image,
and then, convert the people or objects in it into a 3D model, but not to create a video
game character from them, although that’s quite nice too, but no, not here! Here, we now have
knowledge about the backside of this model too, so we can choose a new pose for our character,
and apply some more magic to put it back into the image with the new pose. We can even rotate them,
you name it. Shifting these objects to new positions is also possible. And wait,
these are 3D models, so we can even apply deformations to them. Carve out that bad boy,
and there we go! Apart from some suspect artifacts at the mouth region,
this one is almost perfect. Or placing new ducklings or fish into an image?
Not a problem. And this concept gives us a great deal of control over these images. For instance,
how many cherries would you like? How about this one? And another one? And another one? The
consistency between the images is not perfect, but they are nearly the same. And just imagine what
we will be capable of just two more papers down the line. My goodness. What a time to be alive!
And, we are not done with magic for today, not even close. With this other work,
we can apply some more artistic direction to already existing images. Just look at the arrows,
this indicates our wishes as to how the image should be moving, and bam! We get a video. This
works great for camera movement, but you know what. I wonder what happens if I instruct this
horse to move. That is so much more complex than just camera movement. So, what happens then? Now
hold on to your papers Fellow Scholars, and…my goodness. Look at that. The AI understands how a
horse should move, and synthesizes exactly that. It is not perfect, not even close, but this is
once again an excellent opportunity to invoke the First Law of Papers. What is that? Well,
the First Law of Papers says that research is a process. Do not look at where we are,
look at where we will be two more papers down the line. Remember what DALL-E 1 could do in
terms of text to image, and then, DALL-E 2 dropped and blew it out of the water. Just
imagine what a DALL-E 2 moment for this kind of video synthesis could be. Wow.
And now, check this out. Here, this AI technique looked at videos of people in real conversations,
and then, all we need is our audio input. Then, get this, it creates virtual characters,
mouth movements and even gestures automatically so we can have conversations in virtual worlds
more easily. I have to say the synthesized movements are often expressive, I give you
that, but also sometimes a little stiff, mouth movement is not that accurate yet,
but it is very impressive that from just the audio, all this can be synthesized. Once again,
just two more papers down the line, and you might start seeing this out there in the real world.
I think this work is a really good showcase of how difficult this problem is. You see, our brains are
wired to look at each other, and read each other’s expressions. Thus, if even a little hesitation,
just a tiny smirk, if just the slightest things are off, we immediately know that something is
wrong. We are wired for that. So making this work properly will be incredibly difficult,
but if something, human ingenuity and the power of AI will be able to do that.
関連動画をさらに表示
KI auf Drogen: Kreative neuronale Netze mit Deep Dream! Künstliche Intelligenz | Phil's Physics
Explainable AI explained! | #3 LIME
9 KOSTENLOSE KI-Tools, die Du einfach kennen Musst
So erstellst du fotorealistische KI Bilder in Canva. Schritt für Schritt Anleitung.
Google's New AI Feature is UNREAL...
CRISPR bei Pflanzen: Zum Beispiel Weizen
5.0 / 5 (0 votes)