NVIDIA’s New AI: 50x Smaller Virtual Worlds!

Two Minute Papers
27 Jan 202407:32

Summary

TLDRIn diesem Video entdecken wir beeindruckende neue Techniken zur Erstellung virtueller Welten. NVIDIA hat eine Technik entwickelt, die qualitativ hochwertige Bilder bei geringerer Dateigröße liefert. Intel und die New York University präsentieren eine Methode, um 3D-Modelle aus Bildern zu erzeugen und diese nach Belieben zu manipulieren. Zudem ermöglicht eine neue KI-Technik, Bilder ohne menschliche Anweisungen zu animieren. Schließlich zeigt eine weitere Innovation, wie KI aus Audiodaten virtuelle Charaktere mit natürlichen Bewegungen erzeugt. Diese Entwicklungen demonstrieren eindrucksvoll das Potenzial der KI in der Bild- und Videobearbeitung.

Takeaways

  • 🌐 Die neuesten Papiere ermöglichen die Schaffung atemberaubender virtueller Welten.
  • 🎨 NVIDIA hat bereits einen Beitrag dazu geleistet, aber die Verbesserung der Qualität ist nicht offensichtlich.
  • 🔍 Eine neue Technik namens Instant Neural Graphics bietet schnelle Konvergenz und bessere Qualität.
  • 📏 Die neue Technik bietet dieselbe Qualität in nur einem Fünftel der Größe verglichen mit Instant Neural Graphics.
  • 🤖 Eine zweite Papierbesprechung beschäftigt sich mit der Umwandlung von Bildern in 3D-Modelle, um neue Posen und Positionen zu erstellen.
  • 🖼️ Es ist möglich, Objekte in Bildern zu versetzen und zu deformieren, was eine große Kontrolle über das Bild bietet.
  • 🎨 Eine weitere Studie ermöglicht es, bestehende Bilder mit künstlerischer Richtung zu versehen und Bewegungen zu erzeugen.
  • 🐎 Die AI kann komplexe Bewegungen wie das Bewegen eines Pferdes verstehen und synthetisieren.
  • 🎬 Eine weitere Technik basiert auf Audioeingaben und erstellt automatisch virtuelle Charaktere mit Mundbewegungen und Gesten.
  • 🗣️ Die synthetisierten Bewegungen können expressiv sein, manchmal jedoch etwas steif und ungenau.
  • 🧠 Die Herausforderung besteht darin, menschliche Ausdrücke und Reaktionen überzeugend zu synthetisieren, da unser Gehirn darauf programmiert ist, sie zu lesen.

Q & A

  • Was ist das Hauptthema des Videos?

    -Das Hauptthema des Videos ist die Erstellung virtueller Welten mithilfe neuer KI-Techniken und Forschungspapiere.

  • Welche zwei Unternehmen werden in Bezug auf die Bildumgestaltung erwähnt?

    -Intel und die New York University werden in Bezug auf die Bildumgestaltung erwähnt.

  • Was sind NERFs und wofür werden sie verwendet?

    -NERFs sind Techniken, mit denen eine Vielzahl von Fotos zu einer virtuellen Welt zusammengefügt werden kann.

  • Wie unterscheidet sich die Qualität der neuen Technik im Vergleich zu früheren Methoden?

    -Die neue Technik bietet die gleiche hohe Qualität wie frühere Methoden, ist aber viel kompakter in der Größe, bis zu fünfmal kleiner.

  • Was ermöglicht die neue Technik der Bildbearbeitung?

    -Die neue Technik ermöglicht es, Objekte in einem Bild in 3D-Modelle umzuwandeln, sie in neue Posen zu versetzen und zurück ins Bild einzufügen.

  • Was kann die Technik zur Erstellung von Videos aus bestehenden Bildern bewirken?

    -Die Technik kann Videos aus bestehenden Bildern erstellen, indem sie Bewegungen basierend auf Anweisungen des Benutzers simuliert.

  • Welche Herausforderung besteht bei der Synthese von realistischen Mundbewegungen und Gesten in virtuellen Welten?

    -Eine große Herausforderung besteht darin, dass unsere Gehirne auf die Erkennung von Ungenauigkeiten in Mimik und Gestik programmiert sind, was es schwierig macht, diese Bewegungen realistisch zu synthetisieren.

  • Wie zeigt das Video den Fortschritt der KI in der Videobearbeitung?

    -Das Video zeigt den Fortschritt der KI, indem es Techniken präsentiert, die aus Audioeingaben realistische Mundbewegungen und Gesten in virtuellen Charakteren erstellen können.

  • Was ist das „Erste Gesetz der Papiere“, das im Video erwähnt wird?

    -Das „Erste Gesetz der Papiere“ besagt, dass Forschung ein Prozess ist und man den Fortschritt über mehrere Forschungspapiere hinweg betrachten sollte, anstatt nur den aktuellen Stand.

  • Welche zukünftigen Entwicklungen werden im Video vorhergesagt?

    -Das Video prognostiziert, dass in naher Zukunft fortschrittlichere und realistischere Techniken für die Erstellung und Bearbeitung virtueller Welten und Charaktere entwickelt werden.

Outlines

00:00

🌐 Innovative virtuelle Welten erstellen

Dieses Video zeigt, wie neue Technologien von NVIDIA und anderen Unternehmen dazu beitragen, atemberaubende virtuelle Welten zu erstellen. Es beginnt mit der Einführung von NERFs, die es ermöglichen, eine Vielzahl von Fotos zu sammeln und diese zu einer virtuellen Welt zusammenzufügen. Ein Beispiel dafür ist die Instant Neural Graphics-Technologie, die in Sekunden konvergiert und oft bessere Qualität als ihre Vorgänger bietet. Besonders hervorhebt wird die Verbesserung in der Darstellung von Details wie Haaren und Pullovern. Ein besonderer Fokus liegt auf der Dateigröße der neuen Technik, die dieselbe Qualität bei nur einem Fünftel der Größe bietet. Darüber hinaus werden Methoden vorgestellt, die Bilder in 3D-Modelle umwandeln und diese in neue Posen bringen, was eine enorme Kontrolle über die Bilder bietet. Schließlich wird eine AI-Technik vorgestellt, die Videos ohne menschliche Anweisungen selbstständig lenken kann, was ein erstaunliches Beispiel für die Entwicklung in diesem Bereich ist.

05:03

🎨 Künstlerische Anweisungen für Bilder und Videos

Der zweite Absatz konzentriert sich auf die künstlerische Anweisung von Bildern und Videos durch AI. Hierbei wird gezeigt, wie AI-Techniken Pfade und Bewegungen für Bilder interpretieren können, um Videos zu erstellen, die die gewünschten Bewegungen widerspiegeln. Ein Beispiel ist die Anwendung von Bewegungsanweisungen auf ein Pferd, was zeigt, wie die KI das Bewegungsmuster des Pferdes verstehen und in ein Video umsetzen kann. Es wird auch auf die Herausforderungen hingewiesen, die mit der Erstellung von ausdrucksstarken und naturalen Gesichts- und Gestenbewegungen verbunden sind, die für echte Konversationen in virtuellen Welten notwendig sind. Die Tatsache, dass aus reinem Audio eine so detaillierte und expressive Bewegung synthetisiert werden kann, ist beeindruckend und zeigt das Potenzial der AI in Zukunft noch weiter zu entwickeln.

Mindmap

Keywords

💡NERFs

NERFs steht für Neurale Radon-Funktionen und ist eine Methode, die es ermöglicht, aus einer Sammlung von Fotos eine virtuelle Welt zu erstellen. Im Video wird darauf hingewiesen, dass es Modelle gibt, die dies sehr schnell tun können, wie zum Beispiel Instant Neural Graphics. Diese Methode ist eng mit dem Thema des Videos verbunden, das sich auf die Schaffung virtueller Welten durch neue Technologien konzentriert.

💡Instant Neural Graphics

Instant Neural Graphics ist ein Modell, das in der Lage ist, Fotos in Sekundenschnelle zu einer virtuellen Welt zu verarbeiten. Im Video wird betont, dass die Qualität dieser Technik oft besser ist als ihrer Vorgänger und dass sie detailreichere Informationen, wie zum Beispiel die Haare und das Sweater eines Modells, liefert.

💡Virtuelle Welten

Virtuelle Welten sind eine der Hauptthemen des Videos und beziehen sich auf die Schaffung von realistischen, computergenerierten Umgebungen. Im Kontext des Skripts werden verschiedene Techniken vorgestellt, die zur Erstellung solcher Welten beitragen, einschließlich der Verwendung von NERFs und Instant Neural Graphics.

💡Gaussian Splatting

Gaussian Splatting ist eine neue Technik, die im Video vorgestellt wird und die Fähigkeit hat, virtuelle Welten zu erstellen und sogar zu animieren. Es wird erwähnt, dass diese Technik 50-mal kompakter ist als die vorherigen Ansätze, was ihre Effizienz und Leistungsfähigkeit hervorhebt.

💡3D-Modellierung

3D-Modellierung ist der Prozess, bei dem Bilder in dreidimensionale Modelle umgewandelt werden. Im Video wird eine Methode beschrieben, die es erlaubt, Personen oder Objekte in Bildern in 3D-Modelle zu konvertieren und diese dann in neue Posen zu bringen oder sogar zu deformieren.

💡Bildbearbeitung

Bildbearbeitung bezieht sich auf die Veränderung von Bildern, um sie zu verbessern oder um sie in ein neues Licht zu rücken. Im Video wird eine Technik gezeigt, die es erlaubt, Bilder zu bearbeiten, indem man Objekte in ihnen neu positioniert oder sogar neue Objekte hinzufügt, wie zum Beispiel Entenküken oder Fische.

💡Bewegungssynthese

Bewegungssynthese ist das Verfahren, bei dem Bewegungen in Bildern oder Videos generiert werden, die nicht auf tatsächlichen Bewegungen basieren. Im Video wird eine Technik vorgestellt, die Bewegungen in Bildern verständnisvoll nachempfindet und diese dann in Videos umsetzt, wie zum Beispiel das Bewegen eines Pferdes.

💡Künstliche Intelligenz (AI)

Künstliche Intelligenz (AI) ist ein zentrales Thema des Videos und bezieht sich auf die Technologien, die es ermöglichen, Aufgaben zu erledigen, die normalerweise menschliches Verständnis und Urteilsvermögen erfordern. Im Video werden verschiedene AI-Techniken verwendet, um virtuelle Welten zu erstellen und Bewegungen in Bildern zu synthetisieren.

💡Zweite Gesetz der Papiere

Das Zweite Gesetz der Papiere ist eine Metapher, die im Video verwendet wird, um die kontinuierliche Verbesserung und Entwicklung in der Forschung zu betonen. Es wird darauf hingewiesen, dass die Forschung ein Prozess ist und dass die Technologien, die heute vorgestellt werden, in Zukunft noch weiter verbessert und perfekcioniert werden.

💡DALL-E

DALL-E ist ein Beispiel für eine KI-Technologie, die in der Vergangenheit signifikante Fortschritte in der Text-zu-Bild-Synthese gemacht hat. Im Video wird darauf hingewiesen, dass die Entwicklung von DALL-E 1 zu DALL-E 2 ein Beispiel dafür ist, wie schnell und drastisch Technologien verbessert werden können, was auch auf die Zukunft der in dem Video vorgestellten Technologien hindeutet.

💡Audio-Eingabe

Audio-Eingabe wird im Video in einem Kontext erwähnt, in dem KI-Techniken verwendet werden, um aus Tonaufnahmen von Gesprächen virtuelle Charaktere mit Mundbewegungen und Gesten zu erstellen. Dies zeigt die Fähigkeit der AI, nicht nur visuelle, sondern auch akustische Informationen zu verarbeiten und in interaktive virtuelle Umgebungen umzusetzen.

Highlights

NVIDIA's new technique for creating virtual worlds with improved quality and speed.

Instant Neural Graphics, a model that stitches photos into a virtual world in seconds with better detail.

The new technique's ability to maintain quality while significantly reducing file size compared to previous methods.

Gaussian Splatting, a legendary technique for creating and animating virtual worlds, and the new technique's 50 times more compact size.

Intel and New York University's collaboration to re-sculpt images into 3D models with knowledge of the backside for new poses.

The ability to rotate and shift 3D models of objects within images, and apply deformations.

Adding new elements like ducklings or fish into images with relative consistency.

The potential for future advancements in image manipulation and control as indicated by the current state of research.

Applying artistic direction to existing images with simple instructions for movement resulting in a synthesized video.

The complexity of instructing a horse to move in a synthesized video and the AI's understanding of motion.

The First Law of Papers emphasizing the evolution of research and the potential for future breakthroughs.

AI technique that synthesizes virtual characters, mouth movements, and gestures from audio input for virtual conversations.

The current limitations in synthesized movements' expressiveness and accuracy, and the potential for future improvements.

The challenge of creating realistic human interactions in virtual worlds due to our brain's ability to read expressions.

The showcase of human ingenuity and AI's power to overcome difficult problems in virtual character creation.

Transcripts

play00:00

Today we are going to create absolutely incredible  virtual worlds with these new papers. First,  

play00:06

NVIDIA did something here, but if the quality  does not seem to be too much better here,  

play00:14

then how does this really  help? We’ll find out together.

play00:18

Then, we are going to re-sculpt an image  

play00:21

with this collaboration between  Intel and New York University.

play00:26

Then, we will become a movie  director and give directions to,  

play00:30

not people, but get this: images. Oh yes.

play00:35

And then, we won’t even need  to direct these images. This  

play00:39

AI technique directs the video by itself.

play00:42

Dear Fellow Scholars, this is Two Minute  Papers with Dr. Károly Zsolnai-Fehér.

play00:47

So, with NERFs, we are able to gather a bunch of  photos, and have a technique stitch it together  

play00:53

into a virtual world. There are models that  can do this extremely quickly, for instance,  

play01:00

Instant Neural Graphics. This converges in a  matter of seconds, which is kind of insane. 

play01:06

And its quality is often even better than its  predecessors. You see a great deal more detail  

play01:14

in the hair and the sweater. And now, let’s  see the new technique! Ready to be blown away.  

play01:22

Wait a second… this looks nearly the same!  So is this better? If it is better, how?

play01:29

Well, what you see here is quality, but quality  is just half of the story! The other half is  

play01:37

size. We haven’t talked about that yet.  The first technique is reasonably sized,  

play01:42

but the quality is lacking, then comes  Instant Neural Graphics, quality much better,  

play01:49

but the size is much larger. And now, look at  the new technique, which looks roughly the same,  

play01:56

but, oh my, it packs the same quality but in one  fifth the size. Fantastic. In this sense, this is  

play02:05

even better than the legendary new technique,  Gaussian Splatting, which can create and now,  

play02:11

even animate virtual worlds, and this new one  is 50 times more compact than that. Crazy.

play02:19

Now, let’s sculpt some images. Second paper.  Here, the goal is to take an image, any image,  

play02:26

and then, convert the people or objects in  it into a 3D model, but not to create a video  

play02:33

game character from them, although that’s quite  nice too, but no, not here! Here, we now have  

play02:40

knowledge about the backside of this model too,  so we can choose a new pose for our character,  

play02:47

and apply some more magic to put it back into the  image with the new pose. We can even rotate them,  

play02:54

you name it. Shifting these objects to  new positions is also possible. And wait,  

play03:01

these are 3D models, so we can even apply  deformations to them. Carve out that bad boy,  

play03:08

and there we go! Apart from some  suspect artifacts at the mouth region,  

play03:14

this one is almost perfect. Or placing  new ducklings or fish into an image?  

play03:19

Not a problem. And this concept gives us a great  deal of control over these images. For instance,  

play03:26

how many cherries would you like? How about  this one? And another one? And another one? The  

play03:32

consistency between the images is not perfect, but  they are nearly the same. And just imagine what  

play03:40

we will be capable of just two more papers down  the line. My goodness. What a time to be alive!

play03:47

And, we are not done with magic for today,  not even close. With this other work,  

play03:53

we can apply some more artistic direction to  already existing images. Just look at the arrows,  

play03:59

this indicates our wishes as to how the image  should be moving, and bam! We get a video. This  

play04:07

works great for camera movement, but you know  what. I wonder what happens if I instruct this  

play04:14

horse to move. That is so much more complex than  just camera movement. So, what happens then? Now  

play04:22

hold on to your papers Fellow Scholars, and…my  goodness. Look at that. The AI understands how a  

play04:29

horse should move, and synthesizes exactly that.  It is not perfect, not even close, but this is  

play04:37

once again an excellent opportunity to invoke  the First Law of Papers. What is that? Well,  

play04:44

the First Law of Papers says that research  is a process. Do not look at where we are,  

play04:50

look at where we will be two more papers down  the line. Remember what DALL-E 1 could do in  

play04:56

terms of text to image, and then, DALL-E 2  dropped and blew it out of the water. Just  

play05:03

imagine what a DALL-E 2 moment for this  kind of video synthesis could be. Wow.

play05:09

And now, check this out. Here, this AI technique  looked at videos of people in real conversations,  

play05:16

and then, all we need is our audio input.  Then, get this, it creates virtual characters,  

play05:23

mouth movements and even gestures automatically  so we can have conversations in virtual worlds  

play05:31

more easily. I have to say the synthesized  movements are often expressive, I give you  

play05:43

that, but also sometimes a little stiff,  mouth movement is not that accurate yet,  

play05:50

but it is very impressive that from just the  audio, all this can be synthesized. Once again,  

play05:57

just two more papers down the line, and you might  start seeing this out there in the real world.

play06:03

I think this work is a really good showcase of how  difficult this problem is. You see, our brains are  

play06:10

wired to look at each other, and read each other’s  expressions. Thus, if even a little hesitation,  

play06:18

just a tiny smirk, if just the slightest things  are off, we immediately know that something is  

play06:25

wrong. We are wired for that. So making this  work properly will be incredibly difficult,  

play06:32

but if something, human ingenuity and  the power of AI will be able to do that.

Rate This

5.0 / 5 (0 votes)

العلامات ذات الصلة
Virtuelle WeltenAI-Technologie3D-ModellierungBildbearbeitungVideo-SynthesisNeurale GrafikGaussian SplatsBildsculptingKünstlerische RichtungKonversations-AIForschungsfortschritt
هل تحتاج إلى ملخص باللغة العربية؟