Where AI is today and where it's going. | Richard Socher | TEDxSanFrancisco

TEDx Talks
7 Nov 201715:37

Summary

TLDRDie Präsentation untersucht die Entwicklung und den aktuellen Stand der künstlichen Intelligenz (KI). Ursprünglich konzentrierte sich die KI-Forschung auf Spiele wie Schach, doch inzwischen hat sie sich auf komplexere Herausforderungen wie Spracherkennung und Computer Vision verlagert. Fortschritte in der Bildklassifizierung und Sprachverarbeitung haben bedeutende Anwendungen in Bereichen wie medizinischer Diagnostik ermöglicht. Es wird betont, dass KI ein Werkzeug bleibt, das sowohl positive als auch negative Auswirkungen haben kann, abhängig von seiner Nutzung und den zugrunde liegenden Daten. Zukünftige Entwicklungen könnten unsere Kommunikation und Effizienz erheblich verbessern, erfordern jedoch auch sorgfältige Regulierung, um Verzerrungen zu vermeiden.

Takeaways

  • 🔍 Die Definition von Künstlicher Intelligenz (KI) ist fließend und verändert sich, wenn Probleme gelöst werden.
  • 🤖 Frühere KI-Forschung konzentrierte sich auf das Lösen von Spielen wie Schach, was als Prolog-Umgebung ohne die Komplexitäten der realen Welt angesehen wurde.
  • 🗣️ Spracherkennung war einst ein großes Problem, bis Deep Learning 2010 Fortschritte erzielte und es zu einer Routine-Technologie machte.
  • 👀 Computer Vision, insbesondere Bildklassifizierung, hat durch Deep Learning in den letzten Jahren enorme Fortschritte gemacht.
  • 🌟 End-to-End-Modelle in der KI ermöglichen es, von Rohdaten zu abstrakten Darstellungen zu lernen, was früher manuell definiert werden musste.
  • 🧠 Die Schichtenkomplikation in KI-Modellen spiegelt die Verarbeitung im menschlichen Gehirn wider, von einfachen Kanten bis zu komplexen Objektteilen und vollständigen Objekten.
  • 🎨 Kombination von Computer Vision und Sprachverarbeitung ermöglicht innovative Anwendungen wie das Beschreiben von Bildern und das Beantworten von Fragen zu ihnen.
  • 🏥 KI hat auch in der Medizin, insbesondere in der Onkologie, großes Potenzial, z.B. bei der automatischen Zählung von Blutzellen.
  • 🏗️ In der Zukunft könnte KI bei der Automatisierung grundlegender menschlicher Bedürfnisse wie der Landwirtschaft und dem Bauwesen helfen.
  • 🤖 Motorische Kontrolle ist ein noch aktiver Forschungsbereich in der KI, da Roboter oft nicht so flexibel sind wie erhofft.
  • 📈 Die Anwendung von KI in der Sprachverarbeitung, insbesondere beim Textklassifizierung, hat sich verbessert und kann nun Kontext besser erfassen.
  • 📚 Fortschritte in der KI, insbesondere in der Sprachverarbeitung, eröffnen neue Möglichkeiten für Aufgaben wie Textzusammenfassung und Fragebeantwortung.
  • 🌐 KI ist ein Werkzeug und sollte sorgfältig eingesetzt werden, um negative Auswirkungen zu vermeiden, die durch voreingestellte Daten oder Entscheidungsprozesse entstehen könnten.
  • 👥 Die KI-Gemeinschaft ist sich der Bedeutung von Vielfalt und der Notwendigkeit ihrer Förderung im Forschungsprozess bewusst.

Q & A

  • Was ist die grundlegende Herausforderung beim Definieren von künstlicher Intelligenz?

    -Die Definition der künstlichen Intelligenz ist schwierig, da sie ständig sich bewegt. Sobald ein Problem gelöst wird, wird es oft nicht mehr als künstliche Intelligenz bezeichnet.

  • Warum haben frühere Forschungen in der künstlichen Intelligenz mit Schach begonnen?

    -Frühere Forschungen begannen mit Schach, weil Forscher glaubten, dass das Lösen solcher Probleme viele andere Probleme lösen könnte, da Schach ein komplexes Spiel ist, das Mathematik, Logik und strategisches Denken erfordert.

  • Was hat das tiefe Lernen für das Spracherkennungsproblem gebracht?

    -Seit dem Jahr 2010 hat das tiefe Lernen erhebliche Fortschritte im Bereich der Spracherkennung gemacht, was ein Problem war, das vorher als besonders schwierig galt.

  • Was sind die Hauptkomponenten eines End-to-End-Lernmodells in der Bildverarbeitung?

    -Ein End-to-End-Lernmodell nimmt Rohdaten wie die Pixel eines Bildes und lernt komplexe Repräsentationen, um z.B. Objekte im Bild zu identifizieren, von einfachen Kanten bis hin zu vollständigen Objekten.

  • Wie funktioniert die Farbcodierung in der visuellen Wahrnehmung, um die Aufmerksamkeitsbereiche eines Modells zu visualisieren?

    -Die Farbcodierung visualisiert, auf welche Teile des Bildes das Modell beim Generieren einer Beschreibung schaut, indem es die Bereiche hervorhebt, auf die das Modell beim Erzeugen von Wörtern konzentriert.

  • Was ist das visuelle Fragen-Beantwortungs-System und wie nützlich kann es sein?

    -Das visuelle Fragen-Beantwortungs-System ist eine Aufgabe, bei der das Modell mit einem Bild, einer Frage und einer Antwort trainiert wird und dann versucht, die Frage anhand des Bildes zu beantworten. Es kann dabei helfen, das Bild besser zu verstehen und ist in Bereichen wie der Medizin oder der Bildbeschreibung nützlich.

  • Welche Anwendungen hat die künstliche Intelligenz im medizinischen Bereich, insbesondere in der Onkologie?

    -In der Onkologie kann künstliche Intelligenz dazu beitragen, das Zählen von Blutzellen zu automatisieren, was die Onkologie-Versorgung verbessern und die Identifizierung von Infektionen unterstützen kann.

  • Welche Herausforderungen gibt es im Bereich der motorischen Steuerung in der künstlichen Intelligenz?

    -Im Bereich der motorischen Steuerung haben wir noch viele Herausforderungen zu meistern, da selbst teure Roboter oft Schwierigkeiten haben, einfache Aufgaben wie das Öffnen von Türen oder das Drehen von Hebeln zu erledigen.

  • Welche Fortschritte hat die natürliche Sprachverarbeitung in Bezug auf die Textklassifizierung gemacht?

    -Die natürliche Sprachverarbeitung hat erhebliche Fortschritte gemacht, indem sie den gesamten Kontext von Sätzen erfasst und nicht nur einzelne Wörter betrachtet, was zu einer korrekteren Klassifizierung von Sätzen führt.

  • Was sind die Herausforderungen im Bereich der Textzusammenfassung?

    -Die Textzusammenfassung ist eine schwierige Aufgabe, da Modelle normalerweise nur kurze, kohärente Sätze generieren können. Die Automatisierung der Zusammenfassung längerer Dokumente ist noch ein offenes Forschungsproblem.

  • Welche Rolle kann die künstliche Intelligenz in der Fragebeantwortung spielen?

    -Fragebeantwortung kann als eine Aufgabe angesehen werden, die fast alle anderen NLP-Aufgaben umfasst, da sie Übersetzungen, Stimmungen, Zusammenfassungen und mehr beinhalten kann.

  • Welche Bedeutung hat die Qualität der Trainingsdaten für die künstliche Intelligenz?

    -Die Qualität der Trainingsdaten ist entscheidend, da sie die Fähigkeiten der künstlichen Intelligenz formt. Wenn die Daten voreingenommen sind, kann die AI diese Muster aufnehmen und sogar verstärken.

  • Welche Auswirkungen kann die künstliche Intelligenz auf die Arbeitswelt haben?

    -Die künstliche Intelligenz kann die Arbeitswelt revolutionieren, indem sie grundlegende menschliche Bedürfnisse wie Landwirtschaft und Bauwesen automatisiert und so die Produktivität erhöht.

  • Was bedeutet die Vielfalt im Zusammenhang mit der künstlichen Intelligenz?

    -Die Vielfalt bezieht sich auf die Notwendigkeit, verschiedene Perspektiven und Hintergründe in die Entwicklung und Anwendung der künstlichen Intelligenz einzubeziehen, um Vorurteile und Bias zu vermeiden.

Outlines

00:00

🧠 Künstliche Intelligenz: Definition und Entwicklung

Der erste Absatz stellt die Herausforderung dar, eine einheitliche Definition für künstliche Intelligenz zu finden, da sie sich ständig weiterentwickelt. Ursprünglich fokusierte die Forschung auf das Lösen von Spielen wie Schach, da man annahm, dies würde die Grundlage für die Bewältigung komplexer Probleme schaffen. Doch die Realität hat gezeigt, dass die Herausforderungen der realen Welt größer sind. Die Forschung hat sich daraufhin verstärkt auf das Verständnis von Sprache und Sehkraft (Computer Vision) verlagert, wo tiefe Lernprozesse in den letzten Jahren erhebliche Fortschritte erzielt haben, insbesondere in Bezug auf die Erkennung gesprochener Worte und das Klassifizieren von Bildern.

05:01

🔎 Fortschritte in Computer Vision und Spracherkennung

In diesem Absatz werden die Fortschritte in den Bereichen Computer Vision und Spracherkennung diskutiert. Es wird erklärt, wie sogenannte end-to-end-trainierbare Modelle funktionieren, die aus Rohdaten wie Bildpixeln lernen, um komplexe Anweisungen oder Erkenntnisse zu extrahieren. Beispielsweise können diese Modelle nun Objekte in Bildern erkennen, indem sie von einfachen Mustern zu komplexeren Textur- und Objektteilen schrittweise lernen. Darüber hinaus wird die Kombination von Computer Vision und Sprachverarbeitung zur Generierung von Bildbeschreibungen und zur Beantwortung von visuellen Fragen thematisiert, die zeigen, wie Algorithmen auf bestimmte Bereiche in Bildern fokussieren können, um genaue Antworten zu liefern.

10:03

🏥 Anwendungen der KI in der Medizin und Herausforderungen

Der dritte Absatz konzentriert sich auf die Anwendungen von künstlicher Intelligenz im medizinischen Bereich, insbesondere in der Onkologie, wo KI bei der automatischen Zählung von Blutzellen helfen kann. Auch in der Radiologie wird die KI zur Verbesserung des Diagnoseprozesses eingesetzt, obwohl hier aufgrund der Vielfalt der möglichen Erkrankungen noch mehr trainierte Daten benötigt werden. Es wird auch auf die Herausforderungen in der motorischen Steuerung hingewiesen, bei denen die KI noch nicht so weit entwickelt ist wie in anderen Bereichen, und es wird die Bedeutung der Sprachverarbeitung und des Fortschritts in der natürlichen Sprachverarbeitung (NLP) hervorgehoben.

15:03

🤖 KI als Werkzeug: Chancen und Verantwortung

Der vierte Absatz reflektiert über die Rolle der künstlichen Intelligenz als Werkzeug und betont, dass sie es nur in gutem oder schlechtem Maße wie die Menschen und politischen Systeme, die sie einsetzen, ist. Es wird auf die Bedeutung der Qualität der Trainingsdaten hingewiesen, da diese die Leistung und Verhaltensweisen von KI-Systemen bestimmen. Die Notwendigkeit von Vorschriften oder Richtlinien zur Vermeidung negativer Auswirkungen wird diskutiert, ebenso wie die Bedeutung der Diversität und des Fortschritts in der AI-Forschung. Der Absatz endet mit der Aussicht auf eine Zukunft, in der die KI zur Verbesserung der Kommunikation, des Zugangs zu Informationen und zur Effizienz am Arbeitsplatz beitragen kann, während gleichzeitig die Menschen sich auf kreative und einzigartige Aufgaben konzentrieren können.

Mindmap

Keywords

💡Künstliche Intelligenz

Künstliche Intelligenz (KI) ist das Fachgebiet, das sich mit der Entwicklung von Computern und anderen Systemen befasst, die ähnliche Funktionen wie das menschliche Gehirn besitzen, wie z.B. das Lernen, Problemlösen und Entscheidungsfindung. Im Video wird die KI als zentrales Thema diskutiert, mit einem Schwerpunkt auf ihrem heutigen Stand und zukünftigen Entwicklungen. Das Video betont auch, dass die Definition von KI sich im Laufe der Zeit verändert hat, da Probleme, die gelöst wurden, nicht mehr als KI betrachtet werden.

💡Lernalgorithmen

Lernalgorithmen sind Methoden, die Computern ermöglichen, aus Daten zu lernen und Muster zu identifizieren. Im Kontext des Videos werden Lernalgorithmen, insbesondere tiefe Lernalgorithmen, als Schlüssel zur Verbesserung von KI-Fähigkeiten wie der Spracherkennung und Bildklassifizierung hervorgehoben. Sie ermöglichen es KI-Systemen, sich von einfachen Mustern zu komplexen Darstellungen zu entwickeln.

💡Tiefe Lernprozesse

Tiefe Lernprozesse beziehen sich auf eine Art von KI-Lernalgorithmus, der mehrere Schichten von Verarbeitung verwendet, um komplexe Daten zu analysieren. Im Video wird die Rolle von tiefen Lernprozessen in der Entwicklung von KI-Modellen, die in der Lage sind, Sprache zu erkennen und Bilder zu klassifizieren, betont. Diese Prozesse ermöglichen es den Modellen, von einfachen Mustern wie Kanten zu komplexen Objektteilen und vollständigen Objekten zu erkennen.

💡Bildklassifizierung

Bildklassifizierung ist ein Bereich der KI, der sich mit der Erkennung und Kategorisierung von Objekten in Bildern befasst. Im Video wird die Leistungsfähigkeit von KI in der Bildklassifizierung diskutiert, insbesondere durch die Verwendung von End-to-End-Modellen, die aus Rohdaten wie Pixeln lernen, um komplexe Objekte in Bildern zu identifizieren.

💡End-to-End-Modelle

End-to-End-Modelle sind KI-Modelle, die in der Lage sind, direkt von den Eingangsdaten zu den Enddaten zu lernen. Im Video wird diese Modellart als eine der wichtigsten Entwicklungen in der KI-Forschung beschrieben, da sie es ermöglicht, komplexe Probleme wie die Bildklassifizierung und die Spracherkennung zu lösen, ohne dass manuelle Feature-Extraktion erforderlich ist.

💡Spracherkennung

Spracherkennung ist die Fähigkeit von KI-Systemen, menschliche Sprache zu verstehen und zu interpretieren. Im Video wird die Verbesserung der Spracherkennung durch tiefe Lernprozesse hervorgehoben, die es Systemen ermöglichen, aus gesprochenen Wörtern Bedeutungen zu extrahieren. Dies war vor 2010 eine schwierige Aufgabe, die durch die Einführung von tiefen Lernalgorithmen wesentlich verbessert wurde.

💡Computer Vision

Computer Vision ist ein Bereich der KI, der sich mit der Erkennung, Interpretation und Verarbeitung von visuellen Informationen aus der Welt befasst. Im Video wird Computer Vision als ein Gebiet, in dem die KI in den letzten Jahren enorme Fortschritte gemacht hat, vorgestellt, insbesondere in Bereichen wie der Bildklassifizierung und der visuellen Fragebeantwortung.

💡Visuelle Fragebeantwortung

Visuelle Fragebeantwortung ist die Fähigkeit von KI-Systemen, Fragen über ein Bild zu beantworten. Im Video wird dies als eine der fortschrittlichsten Anwendungen der Computer Vision beschrieben, bei der das System nicht nur das Bild erkennt, sondern auch die Frage versteht und eine relevante Antwort gibt, indem es auf bestimmte Bereiche des Bildes fokussiert.

💡Natürliche Sprachverarbeitung

Natürliche Sprachverarbeitung (NLP) ist ein Teil der KI, der sich mit der Interaktion zwischen Computern und menschlicher Sprache befasst. Im Video wird die Verbesserung von NLP durch tiefe Lernprozesse diskutiert, was es ermöglicht, komplexe Aufgaben wie die Textklassifizierung, Zusammenfassung und Fragebeantwortung zu bewältigen.

💡Textklassifizierung

Textklassifizierung ist die Zuordnung von Texten zu vordefinierten Kategorien. Im Video wird dies als eine der grundlegenden Anwendungen von NLP beschrieben, bei der es heutzutage möglich ist, durch tiefe Lernprozesse komplexe Kontexte zu verstehen und Texte korrekt zu klassifizieren, selbst wenn sie scheinbar widersprüchliche Wörter enthalten.

💡Textzusammenfassung

Textzusammenfassung ist die Fähigkeit, langen Textinhalte in kurze, aber informativ zu sammenfassende Zitate zu verwandeln. Im Video wird die Herausforderung der Automatisierung von Textzusammenfassung diskutiert und wie tiefe Lernprozesse dazu beitragen, zusammenhängende Zusammenfassungen zu erstellen, indem sie Wörter oder Phrasen aus dem Originaltext auswählen und kombinieren.

💡Fragebeantwortung

Fragebeantwortung ist die Fähigkeit von KI-Systemen, spezifische Fragen zu beantworten, oft basierend auf gegebenen Texten oder Daten. Im Video wird die Fragebeantwortung als eine zentrale Aufgabe in der NLP dargestellt, die viele andere Aufgaben wie Übersetzung, Stimmungsanalyse und Zusammenfassung umfasst.

💡Diversität in der KI-Forschung

Diversität in der KI-Forschung bezieht sich auf die Notwendigkeit, verschiedene Hintergründe und Perspektiven in die Entwicklung von KI-Technologien einzubeziehen. Im Video wird betont, dass die Diversität in der Forschung wichtig ist, um Bias in den Trainingsdaten und in den Algorithmen selbst zu vermeiden, und um sicherzustellen, dass KI-Technologien fair und inklusive sind.

💡Ethik in der KI

Ethik in der KI bezieht sich auf die Überlegungen und Richtlinien, die bei der Entwicklung und Anwendung von KI-Technologien beachtet werden müssen, um sicherzustellen, dass sie ethisch verantwortungsvoll sind. Im Video wird die Bedeutung der ethischen Überlegungen hervorgehoben, einschließlich der Notwendigkeit, Bias in den Trainingsdaten zu vermeiden und die Verwendung von KI in verschiedenen Bereichen wie Finanzsystemen, Justizsystemen und politischer Werbung zu regulieren.

Highlights

Definition of artificial intelligence is constantly evolving as problems are solved and no longer considered AI.

Initial focus on AI was on solving complex games like chess due to human expertise in logic and strategy.

AI research has shifted from games to understanding and processing real-world noise and complexities.

Deep learning revolutionized speech recognition, making significant progress since 2010.

Computer vision, particularly image classification, has seen tremendous advancements due to deep learning.

End-to-end trainable models have been developed to learn complex representations from raw inputs like pixels.

Models now can identify simple edges to full objects in images through layers of deep learning networks.

Combining computer vision with language processing allows for generating descriptions of images.

Visual question answering allows algorithms to understand and answer questions about images.

AI applications in the medical field, such as automating blood cell counting, are showing promise.

Radiology can benefit from AI, particularly in identifying critical conditions like strokes quickly.

Motor control remains a challenge for AI, with progress slower compared to other areas.

Natural language processing (NLP) has improved significantly in text classification and understanding context.

Text summarization is an active research area, with models learning to generate coherent summaries.

Question answering in NLP is an encompassing task that requires understanding various language aspects.

AI is a tool and should be used responsibly, with consideration for its impact on society.

The quality of AI is dependent on the training data, which can introduce and amplify biases.

AI has the potential to automate basic human needs and enhance productivity, leading to a future focused on creative and empathetic tasks.

There is a need for regulations and guidelines to prevent negative effects of AI, especially in sensitive areas.

Diversity and inclusion in the AI community are important to prevent biases and ensure ethical development.

Transcripts

play00:00

[Music]

play00:06

I'm super excited to talk to you today

play00:09

about the present and future of

play00:11

artificial intelligence whenever there's

play00:14

a buzzword and a complex subject matter

play00:17

it's usually good to start with a

play00:19

definition but it's actually a little

play00:21

tricky because the definition of

play00:23

artificial intelligence seems to be

play00:25

constantly moving whenever we solve a

play00:26

problem we don't quite call it

play00:28

artificial intelligence anymore

play00:30

it started with chess a lot of smart

play00:33

researchers looked at other smart people

play00:34

and thought well we're really good at

play00:37

math and logic and playing complex games

play00:41

like chess and so they started working

play00:42

on those kinds of problems thinking that

play00:44

once they solve them a lot of other

play00:46

things will just fall into place but it

play00:48

didn't quite because those were

play00:50

simulated environments that didn't have

play00:52

the right to the same kind of noise that

play00:54

we have in the real world

play00:56

so now research has actually shifted

play00:58

largely from playing games which is

play01:00

still an important area and can feature

play01:02

some things - things that we didn't used

play01:04

to consider as that much of high

play01:07

intelligence just understanding spoken

play01:09

words seems relatively simple we can all

play01:11

do it but that was actually a really

play01:13

hard problem up until 2010 when deep

play01:16

learning changed it and is able to make

play01:19

much more progress on this and now we

play01:21

don't call it AI anymore it's just Siri

play01:23

it's just a speech recognition software

play01:24

but that was a really hard problem that

play01:27

we weren't able to solve and there's

play01:29

still some tricky issues in research in

play01:31

it another area that deep learning has

play01:35

made a huge amount of progress in in

play01:37

recent years is computer vision namely

play01:39

image classification and this is the one

play01:41

time I'll try to explain a little bit to

play01:43

you what these kinds of models do and

play01:45

how they work one of the most important

play01:47

ideas of recent years in the AI is to

play01:50

have so-called end-to-end trainable

play01:52

models where we take in raw input for

play01:55

instance the pixels of an image and want

play01:58

to predict a final output for instance

play01:59

is there a cat or a dog or house or

play02:01

clock in that image and so as we put

play02:04

that raw input the pixels into these

play02:07

models they keep trying to learn more

play02:10

and more complex representations so as

play02:13

they

play02:13

start looking at the pixels the first

play02:14

layer might only identify simple edges

play02:18

and blobs which actually turns out to

play02:19

also have good correlation to the early

play02:22

visual cortex in the human brain but

play02:23

then as they go to the next layer they

play02:26

combine these blobs and colors and edges

play02:29

to more complex textures and then as

play02:32

they go further and deeper into these

play02:34

different layers they'll identify object

play02:37

parts and eventually combine those

play02:38

object parts to identify full objects

play02:42

and that was really really hard and

play02:44

initially people tried to manually

play02:46

identify oh if there's a cat then maybe

play02:48

their whiskers here then this might

play02:50

improve to increase the probability of a

play02:52

cat and things like that and now this

play02:54

entire process all these visualizations

play02:56

that you see here on this slide they're

play02:58

all learned automatically just by giving

play03:00

it a lot of supervised data here's an

play03:02

image and it's pixels here's the output

play03:04

that we care about

play03:07

now we've actually been able to combine

play03:10

in computer vision even with some

play03:12

language processing and we can do quite

play03:14

amazing things in the last couple of

play03:17

years here you see a visualization of a

play03:19

recent paper of collaborators of mine

play03:21

where we color code where the algorithm

play03:25

is paying attention to as it's trying to

play03:27

generate a description of an image so

play03:30

you have a little girl sitting on a

play03:31

bench holding an umbrella and you see

play03:34

that indeed when it's generating the

play03:35

word girl it is looking at the girl when

play03:38

it's generating the bench it is focusing

play03:40

its attention on bench or a zebra

play03:43

standing next to a zebra in a dirt field

play03:45

these are very factual descriptions

play03:47

we're not gonna get very interesting

play03:49

ones from them but indeed the first

play03:52

zebra it's focusing its attention on is

play03:54

the one in the foreground and then to

play03:57

the next zebra it's actually the one in

play03:58

the background and you see that color

play04:00

coded too so computer vision algorithms

play04:02

have gotten a lot more sophisticated and

play04:04

actually also telling us a little bit

play04:06

where they're paying attention to as

play04:07

they're trying to translate from visual

play04:10

data into text it gets even further we

play04:14

can also do so-called visual question

play04:16

answering this is an interesting task

play04:18

where you basically as training data

play04:21

give it an image a question and an

play04:23

answer and now you want to probe the

play04:25

algorithm you can ask it lots of the

play04:27

some kinds of questions about an image

play04:29

and you see if it still gets dried or

play04:31

not so the example here at the top what

play04:35

color are the bananas is a good one

play04:37

because if you didn't know the image in

play04:39

90% of the cases you'd probably be

play04:41

correct just saying yellow without the

play04:43

image but we have here the visualization

play04:46

also of where the algorithm is paying

play04:48

attention to as it's trying to answer

play04:50

this particular question and it's

play04:52

actually focusing its attention on the

play04:54

brighter areas in that image and

play04:57

realizes those bananas are actually

play04:59

green and gives the correct answer

play05:01

another fun one what is the pattern on

play05:04

the cat's fur on its tail it actually

play05:06

focuses most of its attention again in

play05:08

that bright area on the cat's tail and

play05:11

correctly identifies this as striped and

play05:14

another fun example what is the boy

play05:16

holding it's actually figuring out based

play05:19

on the question that you now need to

play05:21

focus your attention on the arm and the

play05:24

object below the arm and correctly

play05:25

classifies this as surfboard so those

play05:28

are some of the great applications that

play05:30

we're now able to do as long as we have

play05:32

enough training data about a certain

play05:33

domain if you never show at a baseball

play05:35

image and it's training time it won't be

play05:37

able to answer any questions about

play05:39

baseball they actually even more

play05:42

powerful applications that we can now do

play05:43

with computer vision one of the ones

play05:46

that I'm very excited about as in the

play05:48

medical field particular oncology this

play05:51

is a small start-up a felis that

play05:54

actually is automating blood cell

play05:57

counting so you can make it very small

play06:00

pricking your finger and you can count

play06:01

blood cells with the same kind of

play06:03

architecture as the one I showed you

play06:05

before it's a convolutional neural

play06:07

network and now that you make this so

play06:09

cheap this used to cost a couple hundred

play06:11

dollars to have people actually sit

play06:12

there and for each blood sample count

play06:14

how many red or white blood cells they

play06:15

are now that you can make this much

play06:17

cheaper you can prove oncology care you

play06:20

can identify infections and help

play06:21

patients with leukemia and so on in

play06:24

general I think radiology will also have

play06:27

a huge impact with AI the problem with

play06:31

radiology is that we need a lot of

play06:33

trained data because unlike in a blood

play06:35

scan or pathology scan you're looking

play06:37

for a thousand different things that

play06:39

could be wrong in a head CT

play06:40

a scan and it will take us a while

play06:42

before we could automate that entire

play06:45

process so for a very long time

play06:47

AI will work together with radiologists

play06:49

to improve that process and in fact we

play06:52

already know that we can identify

play06:53

certain things that can very quickly

play06:56

kill you so for instance a stroke or a

play06:59

so called intracranial hemorrhage brain

play07:00

bleeds those we can identify very

play07:03

quickly and then without knowing all the

play07:06

other things that might be wrong in a

play07:07

head CT scan we can put those to the top

play07:09

of the queue in an emergency room

play07:11

setting and that can already save lives

play07:16

now we talked about computer vision and

play07:19

speech recognition as two successes of

play07:21

AI there's actually still some areas

play07:24

that we're struggling with and that is

play07:25

motor control this is a DARPA Grand

play07:28

Challenge and a bunch of examples of

play07:30

some very expensive robots that are

play07:33

trying to walk around open doors turn

play07:36

levers and things like that and as you

play07:40

can see we're still quite far away as a

play07:42

community in fact you could say that

play07:48

we're not even at the level of Abby yet

play07:51

when it comes to motor control abby is

play07:53

actually quite complex has a million

play07:55

neurons it needs to identify a lot of

play07:57

different paths and so on and we're not

play08:00

there yet so that is a very active area

play08:02

of research one of the most interesting

play08:06

manifestations of human intelligence I

play08:09

think is language and in language making

play08:12

a huge amount of progress right now but

play08:14

there's still a lot of ways to go so

play08:17

here's an example I think we could bed

play08:18

do better now but this is from 2011 when

play08:21

folks realized that whenever Anne

play08:22

Hathaway famous actress won a couple of

play08:24

Oscars starred in a movie the reviews

play08:27

came out all the sudden the stocks for

play08:29

the company Berkshire Hathaway go up a

play08:31

significant amount so it was already

play08:34

clear in 2011 people were trying to use

play08:36

natural language processing for

play08:38

algorithmic trading and in this case

play08:40

made the mistake of so-called entity

play08:42

disambiguation they disambiguated a

play08:44

Hathaway to the company instead of the

play08:46

actress and then made pretty substantial

play08:49

monetary decisions

play08:54

where we have gotten better an NLP is

play08:57

actually on just text classification in

play09:00

fact here are a couple of examples of

play09:02

sentences that up until two years ago

play09:04

pretty much every algorithm out there

play09:06

would have incorrectly classified the

play09:09

first sentence is in its ragged cheap

play09:11

and unassuming way the movie works so

play09:14

traditional algorithms would have said

play09:16

well it's ragged and cheap so it's

play09:18

probably negative sentence because they

play09:19

haven't had the ability to capture the

play09:22

whole context but now and what you see

play09:24

here is we actually have two passes over

play09:26

that sentence and in the second pass the

play09:28

algorithm focuses much more on works the

play09:32

movie actually working despite its flaws

play09:34

so it correctly classified this as

play09:36

positive and the second one is the

play09:39

opposite kind of example the best way to

play09:41

hope for any chance of enjoying this

play09:42

film is by lowering your expectations

play09:45

again a kind of example that is quite

play09:48

tricky because algorithms in the past

play09:50

would just look at single words and has

play09:52

best and hope and chance and enjoying

play09:54

such a positive sentence yet you can

play09:57

only get there if you already think the

play09:59

movie is pretty crappy so those are

play10:02

examples that we can now do largely

play10:04

because of advances also again in deep

play10:07

learning there's some active areas of

play10:10

research that we still work on and one

play10:14

of them is text summarization it's

play10:16

actually a really tricky problem pretty

play10:17

much every natural language processing

play10:19

in a model that you've seen in the past

play10:21

only can generate at most a sentence

play10:24

coherently once tried when we tried as a

play10:26

community to generate longer sequences

play10:29

fully automatically in this end-to-end

play10:31

deep learning models which usually

play10:33

didn't do very well so this is a result

play10:35

from just a couple of months ago where

play10:37

our group worked on summarization and

play10:40

you see here at the bottom a longer

play10:42

document and at the top you see the

play10:45

summary and what's fascinating here is

play10:47

that it actually the summarization

play10:48

algorithm learned to some cases copy and

play10:51

paste particular words sometimes entire

play10:53

phrases but sometimes it also picks and

play10:55

chooses which words to pick from which

play10:57

area of the longer document in order to

play11:00

generate the summary in many cases

play11:02

actually generates coherent longer

play11:05

document summarize summaries and as the

play11:11

summary correctly says to do this really

play11:13

well still remains an open research

play11:15

problem one of the areas of NLP that I'm

play11:20

personally most excited about is

play11:21

question answering because you can

play11:23

actually think of question answering as

play11:25

a task that encompasses pretty much

play11:27

every other NLP task you can ask what is

play11:30

the translation of the sentence into

play11:31

French you can ask what is the sentiment

play11:33

you can ask what is the summary right in

play11:35

some ways everything becomes a question

play11:37

answering problem if you have a really

play11:39

powerful question answering model and so

play11:41

here we worked on this regrade data set

play11:44

that stanford collected called squad

play11:46

with stanford question answering data

play11:47

set that takes lots of wikipedia

play11:49

articles and then asks crowd workers to

play11:51

collect questions and then also

play11:54

different guard workers to collect the

play11:56

answers and the models that you now see

play11:59

that dwell on this task are much more

play12:02

complex than a model I showed you in the

play12:04

beginning that had the same kind of

play12:06

layer just learning more abstract

play12:07

representations language by itself also

play12:10

seems to require a lot of distributed

play12:12

computing in our brain that takes a lot

play12:15

of different parts and elements now what

play12:21

makes me really excited and looking

play12:23

forward to this to the next couple of

play12:25

years is the number of people that are

play12:27

now entering the field it's there's a

play12:30

lot of excitement in AI and just in a

play12:32

class I echo talked with Chris Manning

play12:34

earlier this year we had over 660

play12:37

students at Stanford attending that

play12:39

class even though it's a graduate level

play12:40

class and there are hundreds of

play12:42

thousands of views on YouTube of pretty

play12:44

technical material and that is very

play12:47

exciting but as we see AI actually

play12:51

working we have to acknowledge also that

play12:54

it's just a tool and it will stay a tool

play12:56

for the foreseeable future we don't

play12:58

really have to worry about Skynet or

play13:00

terminator kinds of scenarios but what

play13:03

is important is to understand that tools

play13:05

can be used in good ways and in bad ways

play13:07

in some ways AI is just like the

play13:09

internet or hammer or cars and you can

play13:12

use them as weapons or you can use them

play13:14

to transport sick people and it's

play13:16

important for us to acknowledge that

play13:19

the tools are only as good as the people

play13:20

and the political systems that end up

play13:22

using them in fact if we use them well I

play13:26

think AI and especially AI power

play13:29

language capabilities will allow us to

play13:31

improve our communication pretty sure we

play13:34

can eventually have the Babel Fish in

play13:35

the next couple of years where we talk

play13:37

in one language and we listen in another

play13:39

one coming live at the other end we can

play13:43

improve access to information question

play13:46

answering is a great example for that

play13:48

and in general make work much more

play13:51

efficient in fact I think we'll be able

play13:53

to automate most of the basic human

play13:58

needs like food we can automate farming

play14:00

with computer vision and some simpler

play14:02

robotic control we can build houses

play14:05

automatically and so on I think in the

play14:09

end as human intelligence and

play14:11

productivity gets enhanced I hope that

play14:14

that will lead us to a future where we

play14:16

can focus on unique and creative tasks

play14:19

and those kinds of tasks that require

play14:20

empathy and where we care for each other

play14:23

and we can basically automate a lot of

play14:26

the boring treachery that is out there

play14:29

what's important to acknowledge is that

play14:33

AI is only as good as a training data

play14:35

that we give it if your training data is

play14:38

sexist or racist then the I will pick

play14:41

those patterns up and in some cases

play14:44

repeat them or even amplify them so as

play14:47

we're applying AI to more and more

play14:50

different areas in simple things like

play14:53

loan applications but also more complex

play14:55

things like the financial system or the

play15:00

judicial system and medical applications

play15:03

and political advertisement and so on

play15:06

they I will eventually be in all of

play15:08

these areas I think it's important that

play15:10

we think about regulations or at least

play15:11

guidelines to prevent the negative

play15:14

effects that could happen and that may

play15:16

have already been in our training data

play15:18

and lastly it's not just the data that

play15:22

might have biases is also the communion

play15:24

itself and the IEEE community right now

play15:27

it's actually quite aware that we have a

play15:29

diversity issue and that is some

play15:31

that we continue to work on all right

play15:32

thank you

play15:33

[Applause]

Rate This

5.0 / 5 (0 votes)

Related Tags
KIZukunftTechnologieComputer VisionDeep LearningSpracherkennungForschungNLPMedizinAutomatisierung
Do you need a summary in English?