Ein Agent der lernt | Die Welt der KI entdecken 02

Tilman Michaeli
15 Feb 202320:39

Summary

TLDRDieses Video erklärt das Prinzip des maschinellen Lernens anhand von Beispielen wie Schach, Go und Mini-Schach. Es zeigt, wie Computerprogramme als 'Agenten' Umwelten wahrnehmen, Entscheidungen treffen und durch Belohnung und Bestrafung ihre Strategien verbessern. Durch das Hinzufügen von Schokolinsen als Belohnungen lernt ein Computer, Schachstrategien anzupassen. Das Video veranschaulicht, wie künstliche Intelligenz in Spielen und der Praxis Anwendung findet und wie es durch stärker gefördertes Lernen stetig optimiert wird.

Takeaways

  • 🤖 Die künstliche Intelligenz hat in Spielen wie Schach und Go bedeutende Fortschritte gemacht, mit Deep Blue und AlphaGo als Beispiele für KI-Systeme, die weltbekannte Spieler geschlagen haben.
  • 🎲 Das Mini-Schach-Spiel dient als vereinfachtes Beispiel, um zu demonstrieren, wie ein Computer durch das Lernen von Regeln und Strategien autonom spielen kann.
  • 👑 Der Begriff 'Schachtürken' bezieht sich auf eine frühe Vorstellung von KI, bei der tatsächlich ein Mensch in einer Apparatur verborgen war und das Schachspiel führte, um die Idee einer intelligenten Maschine zu vermitteln.
  • 📚 Maschinelles Lernen beinhaltet, dass ein Computerprogramm seine Umwelt wahrnimmt, Entscheidungen trifft und selbstständiges Verhalten zeigt, abhängig von den gegebenen Umständen.
  • 🔄 Verstärktes Lernen verwendet Belohnungen und Bestrafungen, um die Effektivität von Aktionen zu verbessern und somit die Strategie des Computers oder Roboters zu optimieren.
  • 🧩 Der Prozess des Lernens durch Belohnung und Bestrafung ähnelt dem menschlichen Lernprozess, bei dem durch Ausprobieren und Anpassung an die Ergebnisse gelernt wird.
  • 🤹‍♂️ Verstärktes Lernen ermöglicht es Maschinen, komplexe Aufgaben zu erlernen, wie etwa die Bewältigung von Spielen, die anpassungsfähigere Verhaltensweisen erfordern als Schach.
  • 🔧 Anwendungsbereiche von verstärktem Lernen umfassen nicht nur Spiele, sondern auch industrielle Anwendungen, wie zum Beispiel die Steuerung von Industrierobotern für präzise Aufgaben.
  • 🌐 Verstärktes Lernen kann auch in Simulationsumgebungen eingesetzt werden, bevor Roboter oder Fahrzeuge mit der realen Welt interagieren, um zuvor Erfahrungen zu sammeln und zu lernen.
  • 🔋 Ein Beispiel für die Anwendung von verstärktem Lernen ist die Optimierung von Energieverbrauch in Rechenzentren, wobei die Belohnung auf der Verbesserung der Energieeffizienz basiert.
  • 🔢 Die Anwendung von verstärktem Lernen in der Praxis erfordert oft umfangreiche Datenmengen und erlaubt es, Probleme zu lösen, die für Menschen zu komplex sind, wie bei der Optimierung von Klimaanlagen oder Fahrplänen.

Q & A

  • Was war das Hauptthema des Videos?

    -Das Hauptthema des Videos war das maschinelle Lernen und wie Maschinen durch Belohnung und Bestrafung lernen können, anhand von Beispielen wie Schach, Go und Mini-Schach.

  • Welche historische Ereignisse wurden im Video erwähnt, um Fortschritte in der künstlichen Intelligenz zu illustrieren?

    -Im Video wurden die Niederlage von Garry Kasparow durch Deep Blue im Jahr 1996 und die Niederlage von Lee Sedol, einem der besten Golfspieler, durch AlphaGo im Jahr 2016 erwähnt.

  • Was ist der Unterschied zwischen dem Schach-Türken und einem modernen Computerprogramm für maschinelles Lernen?

    -Der Schach-Türke war ein mechanisches Pferd, das von einem versteckten Menschen gesteuert wurde, während ein modernes Computerprogramm für maschinelles Lernen ein autonomes System ist, das durch Umweltbeobachtung und Aktionen lernen kann, ohne menschliche Intervention.

  • Wie wird das Verhalten eines Computers in Bezug auf das Lernen im Video beschrieben?

    -Das Verhalten des Computers wird als selbstständiges und autonomes Verhalten beschrieben, das in der Lage ist, Strategien zu lernen und zu verbessern, basierend auf Belohnungen und Bestrafungen für bestimmte Aktionen.

  • Was ist das Ziel des Mini-Schach-Spiels im Video?

    -Das Ziel des Mini-Schach-Spiels ist es, zu demonstrieren, wie ein Computer durch das Hinzufügen und Entfernen von Schokolinsen als Belohnungen und Bestrafungen Strategien für Spielzüge lernen kann.

  • Wie werden Belohnungen und Bestrafungen im Mini-Schach-Spiel verwendet?

    -Belohnungen werden verwendet, indem Schokolinsen hinzugefügt werden, wenn der Computer eine gute Entscheidung trifft, während Bestrafungen durch das Entfernen von Schokolinsen erfolgen, wenn eine schlechte Entscheidung gemacht wird.

  • Welche Rolle spielen Exploration und Exploitation im Lernprozess des Computers?

    -Exploration bedeutet, dass der Computer zufällige Aktionen ausprobiert, um zu sehen, welche Ergebnisse sie erzielen. Exploitation bedeutet, dass der Computer dann diejenigen Aktionen nutzt, die zuvor erfolgreich waren, um weiterhin erfolgreich zu sein.

  • Wie wird das Lernen durch Belohnung und Bestrafung im Video mit dem menschlichen Lernen verglichen?

    -Das Lernen durch Belohnung und Bestrafung wird mit dem menschlichen Lernen verglichen, bei dem ein Kind durch Ausprobieren und Scheitern lernt und durch Bestrafung für gefährliches Verhalten oder Belohnung für erfolgreiches Verhalten seine Handlungen anpasst.

  • Welche Anwendungsbereiche für verstärktes Lernen werden im Video genannt?

    -Im Video werden Anwendungsbereiche wie das Erlernen komplexer Spiele wie Go, kollaborative Spiele wie Starcraft 2, die Steuerung von Industrierobotern, Optimierungsaufgaben in Datenzentren und die Planung von Fahrplänen im öffentlichen Nahverkehr genannt.

  • Was ist ein Beispiel für ein reales Problem, bei dem verstärktes Lernen angewendet werden kann?

    -Ein Beispiel für ein reales Problem, bei dem verstärktes Lernen angewendet werden kann, ist die Steuerung einer Klimaanlage in einem Rechenzentrum, um Energie zu sparen und die Effizienz zu verbessern.

Outlines

00:00

🤖 Maschinelles Lernen in Spielen

Der erste Absatz behandelt das Thema des maschinellen Lernens, insbesondere in Bezug auf Spiele. Es wird erwähnt, dass künstliche Intelligenz (KI) in Bereichen wie Schach und Go erhebliche Fortschritte gemacht hat, mit Beispielen wie Deep Blue, das 1996 Garry Kasparow geschlagen hat, und AlphaGo, das 2016 einen der besten Go-Spieler besiegt hat. Es wird auch auf die Idee der 'Türken' eingegangen, eine frühe Vorstellung von KI, die tatsächlich von einem Menschen manipuliert wurde, um die Illusion zu erwecken, dass eine Maschine Schach spielt. Der Absatz endet mit der Einführung in das Konzept des Lernens durch KI, das als 'Agent' bezeichnet wird, der in der Lage ist, autonome Entscheidungen zu treffen.

05:05

🎲 Mini-Schach als Lernmodell

Der zweite Absatz beschreibt ein Mini-Schach-Spiel als Modell für das maschinelle Lernen. Es wird erklärt, wie Tillmann, der als 'Computer' fungiert, seine Strategie anhand von Spielzügen und deren Ergebnissen anpasst. Die Verwendung von Schokolinsen als Spielsteine, die nach jedem Zug belohnt oder bestraft werden, dient als Mechanismus für das Lernen durch Verstärkung. Der Absatz zeigt, wie der Computer durch Zufallsauswahl und anschließende Anpassung seiner Strategie lernt, welche Züge zum Sieg führen und welche nicht.

10:12

🌱 Anwendung des Lernens in der Praxis

In diesem Absatz wird das Konzept des Lernens durch Verstärkung auf andere Anwendungsbereiche übertragen, wie zum Beispiel auf einen Roboter, der Pflanzen anpflanzt. Der Roboter erfasst den Zustand seiner Umgebung und kann dann Aktionen ausführen, die durch Belohnung oder Bestrafung angepasst werden. Der Absatz erklärt, wie das Lernen durch Belohnung und Bestrafung funktioniert, wobei bestimmte Aktionen nach und nach stärker oder seltener auftreten, je nachdem, ob sie zu einem gewünschten Ergebnis führen.

15:13

🚀 Verstärkendes Lernen in der Realität

Der vierte Absatz erweitert das Gespräch um die Anwendung von verstärketem Lernen in der echten Welt, wie zum Beispiel in der Fertigungsindustrie oder bei der Optimierung von Aufgaben, die mathematisch schwer zu lösen sind. Es wird auf die Herausforderungen eingegangen, die mit dem Sammeln großer Datenmengen und dem schrittweisen Verbessern von Strategien verbunden sind. Beispiele für erfolgreiche Anwendungen, wie die Energieoptimierung in Googles Rechenzentren, werden genannt, die durch verstärkendes Lernen um bis zu 40% effizienter gemacht werden konnten.

20:16

🔮 Zukunft der KI und des Lernens

Der letzte Absatz schließt das Video mit einer Vorschau auf zukünftige Diskussionen über das maschinelle Lernen. Es wird angedeutet, dass das Lernen durch Verstärkung in vielen Situationen Anwendung finden kann, nicht nur in Spielen. Der Absatz endet mit einer Dankesbotschaft und einer Erwartungsaufbaum für weitere Themen, die in zukünftigen Videos behandelt werden.

Mindmap

Keywords

💡Künstliche Intelligenz

Künstliche Intelligenz (KI) ist ein Bereich der Informatik, der sich mit der Entwicklung von Computern und Algorithmen befasst, die ähnliche Fähigkeiten wie der menschliche Verstand besitzen, wie z.B. Problemlösung, Entscheidungsfindung und Wahrnehmung. Im Video wird KI als zentrale Technologie dargestellt, die es Maschinen ermöglicht, komplexe Aufgaben zu erlernen und auszuführen, wie das Spielen von Schach oder Go.

💡Lernprozess

Der Lernprozess beschreibt die Fähigkeit von KI-Systemen, durch Erfahrungen oder durch die Verarbeitung von Daten Wissen zu akquirieren und zu verbessern. Im Video wird der Lernprozess anhand des Beispiels eines Computerprogramms, das Schach spielt, veranschaulicht, das durch wiederholtes Spielen und Anpassen seiner Strategien lernt, wie es am besten Züge ausführt.

💡Verstärktes Lernen

Verstärktes Lernen ist eine Methode der maschinellen Lernens, bei der ein System durch Belohnungen und Bestrafungen lernt, welche Aktionen in bestimmten Situationen die bestmöglichen Ergebnisse erzielen. Im Video wird dies anhand des Schachspiels und des robotischen Gießens von Pflanzen erklärt, wobei das System durch Hinzufügen oder Entfernen von 'Süßigkeiten' oder Goldmünzen belohnt bzw. bestraft wird.

💡Schach

Schach ist ein strategisches Brettspiel, das oft als Test für kognitive Fähigkeiten und als Anwendungsfall für KI verwendet wird. Im Video wird Schach als Beispiel für ein Spiel verwendet, bei dem KI-Systeme durch das Lernen und Anpassen ihrer Züge erfolgreiche Spieler werden können.

💡Go

Go ist ein chinesisches Brettspiel, das für seine Komplexität und die Fähigkeit, KI-Systemen zu herausfordern, bekannt ist. Im Video wird erwähnt, dass KI-Systeme auch in Spielen wie Go Erfolge erzielen konnten, was ihre Fähigkeit zur Bewältigung komplexer Aufgaben zeigt.

💡Agent

In KI bezeichnet ein Agent ein System, das in der Lage ist, Entscheidungen zu treffen und Aktionen in seiner Umwelt durchzuführen. Im Video wird der Agent als das KI-System beschrieben, das Schach spielt oder einen Roboter steuert, der Pflanzen anpflanzt.

💡Belohnung und Bestrafung

Belohnung und Bestrafung sind zentrale Konzepte im verstärkten Lernen, bei denen das System durch positive oder negative Feedback lernt, welche Aktionen in bestimmten Situationen am besten sind. Im Video werden Süßigkeiten oder Goldmünzen als Belohnungen und Bestrafungen verwendet, um das Schachspiel- oder den Roboteranwendungsfall zu veranschaulichen.

💡Modell

Ein Modell in der KI ist eine Darstellung oder ein Algorithmus, der die Wege und Methoden beschreibt, wie ein System Entscheidungen trifft. Im Video wird das Modell des Agents als ein 'Regal' beschrieben, in dem für jeden Zustand und jede mögliche Aktion eine Bewertung gespeichert wird.

💡Umgebung

Die Umgebung bezieht sich auf den Kontext oder die Einstellungen, in denen ein KI-System agiert. Im Video wird die Umgebung als der Zustand des Schachbretts oder der Pflanzen im Garten beschrieben, abhängig von dem der Agent Aktionen ausführt.

💡Exploration und Exploitation

Exploration und Exploitation sind Konzepte im Lernprozess, wobei Exploration die Untersuchung neuer Aktionen und Exploitation die Nutzung von已知 Aktionen zur Maximierung der Belohnung bedeutet. Im Video wird dies durch das zufällige Ziehen von Süßigkeiten oder das Nachahmen erfolgreicher Schachzüge veranschaulicht.

Highlights

Einführung in das Thema Maschinelles Lernen und dessen Anwendung in Alltagsaufgaben, die bisher nur Menschen vorbehalten waren.

Historische Ereignisse wie der Schachweltmeister Garry Kasparow, der 1996 von Deep Blue geschlagen wurde.

Der Sieg von AlphaGo über einen der besten Go-Spieler der Welt im Jahr 2016 zeigt die Komplexität von Künstlicher Intelligenz in Spielen.

Die Bedeutung von Schach und Go als Instrumente zur Demonstration von KI-Fähigkeiten aufgrund ihrer präzisen Regeln.

Der Schachtürke, ein mechanischer Schachspieler von 1769, der auf menschliche Intelligenz basierte.

Der Begriff 'Agent' in Bezug auf Computerprogramme, die autonomes Verhalten zeigen können.

Einführung in das Mini-Schachspiel als Beispiel für das Lernen von Computern.

Beschreibung des Lernprozesses eines Computers, der durch Zufall und Belohnung/Bestrafung lernt.

Das Konzept der Belohnung und Bestrafung als Lernmechanismus für KI-Systeme.

Die Anpassung der Strategie eines Computers durch das Hinzufügen oder Entfernen von 'Schokolinsen'.

Das Verständnis von Umweltzustand und Aktionen als zentrale Elemente des Lernprozesses.

Die Anwendung von Verstärkungslernen in der Praxis, wie bei der Bewässerung von Pflanzen mit einem Roboter.

Die Bedeutung von Datenmengen und schrittweisem Verbessern im Verstärkungslernen.

Die Anwendung von Verstärkungslernen in komplexeren Spielen wie Go und kollaborativen Spielen wie Starcraft 2.

Die Verwendung von Simulationsumgebungen vor der Interaktion mit der realen Welt für Roboter und Autos.

Die Anwendung von Verstärkungslernen bei der Optimierung von Aufgaben, wie der Klimaanlage in einem Rechenzentrum.

Der Erfolg von Google bei der Energieersparnis in Rechenzentren durch Verstärkungslernen.

Die Fähigkeit von Computern, durch Verstärkungslernen, Lösungen für Probleme zu finden, die für Menschen unüberschaubar sind.

Ausblick auf zukünftige Themen und das Programmieren von Agenten zur Selbstlernendheit.

Transcripts

play00:04

hallo willkommen zu unserer heutigen

play00:06

einheit letztes mal haben wir uns

play00:09

angeschaut was und wo in unserem alltag

play00:12

kennen denn nun eigentlich ist

play00:14

heute wollen wir uns genau anschauen wie

play00:16

maschinen tatsächlich lernen können und

play00:19

damit dinge tun die bisse nur uns

play00:22

menschen vorbehalten waren

play00:24

wir haben bereits gesehen dass einige

play00:27

der grössten fortschritte und erfolge

play00:28

von künstlicher intelligenz in spielen

play00:31

erreicht worden

play00:32

1996 wo die garri kasparow der

play00:34

amtierenden schachweltmeister von einem

play00:37

ki system namens deep blue geschlagen

play00:40

2016 wurde ließ idol eine der besten

play00:44

golfspieler weltweit durch algo besiegt

play00:46

go ist ein chinesisches brettspiel das

play00:49

deutlich komplexer ist als schach spiele

play00:52

wie schach oder go erfordern ganz

play00:54

offensichtlich irgendeine art von

play00:56

intelligenz um zu gewinnen

play00:58

auch haben diese spiele präzise regeln

play01:01

die einfach zu formalisieren sind daher

play01:04

sind gerade solche brettspiele eine

play01:06

beliebte anwendung in die fähigkeiten

play01:08

und möglichkeiten von künstlicher

play01:10

intelligenz zu demonstrieren dabei ist

play01:15

der traum von einer maschine die schach

play01:17

spielt also das spiel der könige

play01:19

deutlich älter als künstliche

play01:22

intelligenz auf diesem bild sehen wir

play01:25

den sogenannten schach türken der

play01:27

schacht türke ist ein schachspielen der

play01:30

roboter der 1769 von einem

play01:33

österreichischen mechaniker konstruiert

play01:35

wurde und die maschine gewarnt spiele

play01:37

unter anderem gegen personen wie

play01:40

napoleon bonaparte oder benjamin

play01:42

franklin lange versuchten

play01:45

zeitgenössische wissenschaftler das

play01:47

geheimnis der maschine zu ergründen

play01:49

dieses geheimnis lautete menschliche

play01:52

intelligenz wie auf dem bild zu erkennen

play01:54

ist befand sich tatsächlich ein mensch

play01:57

innerhalb der maschine und führte die

play01:59

spielzeuge durch mit einem guten

play02:02

menschlichen spieler konnte so natürlich

play02:05

die mehrheit der spiele gewonnen werden

play02:06

und für den jeweiligen gegner war die

play02:09

illusion einer schach spielenden

play02:11

maschine perfekt

play02:14

wir würden den schacht orten auch wenn

play02:17

der betrug war

play02:18

als agenten bezeichnet wenn wir von

play02:21

maschinellem lernen sprechen ist unser

play02:24

computerprogramm unser agent kein

play02:26

geheimagent james bond sondern eben ein

play02:29

computerprogramm ein computerprogramm

play02:32

das seine umwelt wahrnimmt und aktionen

play02:35

ausführt und damit in der lage ist

play02:38

selbstständiges und autonomes verhalten

play02:41

zu zeigen

play02:41

zumindest bis zu einem gewissen grad das

play02:45

heißt in abhängigkeit von der umwelt

play02:48

werden bestimmte aktionen ausgeführt

play02:50

ohne dass ein explizites signal oder

play02:53

ähnliches von außen erfolgt und heute

play02:57

wollen wir lernen wie eine maschine

play02:59

lernen kann schach zu spielen nachdem

play03:04

schach und etwas zu komplexen für unser

play03:07

kurzes video haben wir euch eine version

play03:09

von mini schach mitgebracht dabei darf

play03:12

sich jede figur wie ein bauer bewegen

play03:14

das heißt sie kann gerade aus zehn und

play03:17

diagonal schmeißen gerade aussehen

play03:20

diagonal diagonal schmeißen so eine

play03:28

person übernimmt jetzt die rolle der

play03:29

äffchen und nimmt damit den menschlichen

play03:32

spieler in unserem fall übernehmen diese

play03:34

rolle malich und eine weitere person

play03:37

oder in der version die ihr nachher

play03:38

ausprobieren könnt tatsächlich der

play03:40

computer übernimmt die rolle der

play03:42

krokodile und meint damit den computer

play03:44

in unserem fall übernimmt das heute man

play03:48

kann es vielleicht am arm erkennen

play03:49

tillmann eine seite hat gewonnen wenn

play03:52

sie erschafft eine ihrer figuren bis ans

play03:55

andere ende des spielbretts zu führen

play03:56

also von hierzu hier für die äffchen

play04:00

oder alle gegnerischen figuren zu

play04:03

schmeißen oder wenn sie es schafft

play04:06

sicherzustellen dass sich der gegner in

play04:08

der nächsten runde nicht mehr bewegen

play04:09

kann

play04:10

als vorbereitung haben wir bereits die

play04:13

möglichen züge des computers ausgedruckt

play04:14

und danach auch noch schokolinsen als

play04:18

eine art spielsteine auf die spielzüge

play04:20

aufgeteilt für jeden farbigen pfeil auf

play04:23

dem spielfeld haben wir eine

play04:24

schokolinsen in der gleichen farbe im

play04:27

feld rechts daneben positioniert

play04:31

anhand dieses vereinfachten schachspiels

play04:35

können wir jetzt sehen wie der computer

play04:37

strategien für spieler lernen kann von

play04:40

denen sie aber nur die spielregeln

play04:41

kennen und unser agent in diesem fall

play04:43

ist will man also der spieler der die

play04:46

krokodile steuert legen einfach mal los

play04:49

die äffchen also ich beginne als

play04:53

menschlicher spieler kann ich meinen zug

play04:55

entsprechend der spielregeln frei wählen

play04:58

ich werde also mal hin damit eröffnet

play05:04

anschließend sind die krokodile dran

play05:07

tillmann vergleich dazu zunächst die

play05:09

spiele stellung die aktuell auf dem

play05:11

board ist mit denen die auf seinen

play05:13

zettel abgedruckt hat und wählt dann die

play05:16

passende spielsituation aus in diesem

play05:21

tag in diesem fall ist sie hier

play05:22

als nächstes schließt er seine augen und

play05:26

zieht zufällig einen der schoko

play05:28

spielsteine aus dem feld neben der

play05:30

spielsituation die farbe der schoko

play05:36

linse in dem fall orange gibt an welchen

play05:39

zu kümmern ausführen wird

play05:48

prüfen wir also ob es einen gewinner

play05:50

gibt niemanden dass am ende des spiels

play05:53

angekommen auch haben beide spieler noch

play05:55

figuren und zumindest ich kann mich noch

play05:57

bewegen

play05:58

da ist also noch keinen sieger gibt darf

play06:00

ich zum beispiel zug werde ich jetzt

play06:05

tillmanns figur hinschmeißen und bin

play06:12

damit am ende

play06:13

nachdem also meine entchen das ende des

play06:16

spielfelds erreicht haben habe ich

play06:17

gewonnen

play06:18

der computer tillmann muss nun seine

play06:21

strategie anpassen bevor er seine neue

play06:24

rolle spielen wird er seine strategie so

play06:27

anpassen dass er die schokolinsen die

play06:30

den letzten zug der krokodile bestimmt

play06:32

hat entfernen wird bevor wir jetzt eine

play06:38

neue runde spielen setzen wir noch alle

play06:41

verbleibenden schokolinsen zurück und

play06:43

legen sie jeweils wieder rechts der

play06:45

jeweilig skizzierten spielsituation hin

play06:47

und reset resetten das spielbrett

play06:57

so

play06:59

ich bin wer also noch eine runde diesmal

play07:02

sich außen und nachdem ich gezogen habt

play07:08

ist wieder zimmern an der reihe und

play07:11

themen sucht die passende spielsituation

play07:14

welt zufällig 1 der süßigkeiten tokens

play07:19

aus und zieht entsprechend der gezeigten

play07:23

farbe

play07:30

so ich versuche mich jetzt einfach mal

play07:33

an dem mann vorbei zu schleichen und

play07:36

meine spielfigur bis ans andere ende

play07:37

durchzubringen

play07:42

es ist wieder tim ein anderer film an

play07:45

sucht die passende spiel situation weil

play07:48

zufällig eines der token aus und führt

play07:50

den entsprechenden muff aus

play08:07

tillmann das ende des spielfelds

play08:08

erreicht hat haben in diesem fall die

play08:10

krokodile gewonnen wir fügen also eine

play08:12

weitere schokolinsen in der sieg

play08:14

bringenden farbe zum siegbringenden zug

play08:17

hinzu

play08:26

wir werden jetzt noch einige weitere

play08:28

runden spielen wir fordern die aber das

play08:30

video weiter ansiehst möchten möchten

play08:32

wir dich dazu einladen das video zu

play08:34

pausieren und selbst einige runden mini

play08:36

schacht zu spielen

play08:37

dazu haben wir einen link in die video

play08:39

beschreibung gepackt der durch zu einer

play08:41

digitalen version von diesem spiel führt

play09:23

so schauen

play09:25

nochmal zwei partien an nachdem wir also

play09:27

einige runden gespielt haben habe ich

play09:29

als mensch kaum noch eine chance zu

play09:31

gewinnen

play09:31

ich versuche jetzt malen den spielzug

play09:34

der mich vorhin zum gewinnen geführt hat

play09:36

ich eröffne also über die mitte wie wir

play09:41

sehen haben die krokodile jetzt eine

play09:43

verteilung der schokolinsen die mit der

play09:46

vom anfang nicht mehr viel gemein hat

play09:47

die strategie sagt den computer in

play09:50

diesem fall dass er meine spielfigur

play09:52

schlagen sollte der spielzug mit dem er

play09:57

vorhin angehe vorbeigezogen ist der es

play10:00

längst nicht mehr teil seiner strategie

play10:11

nachdem der computer jetzt gezogen hat

play10:13

sich nochmal hier am computer vorbei und

play10:20

versuche ihnen nochmal auszutricksen

play10:29

der computer sucht also die passende

play10:31

spiel situation und wählt wieder

play10:34

zufällig ein zucken aus diesem fall

play10:39

gelb für den zugehörigen spielzug aus

play10:44

und hat gewonnen

play10:47

aber warum gewinnt der computer ist

play10:49

eigentlich immer wo er doch am anfang so

play10:51

leicht auszutricksen war anfangs

play10:54

tillmann in seiner rolle als computer

play10:56

seine spielzüge mehr oder weniger

play10:57

zufällig wählt allerdings hat er mit

play11:00

hilfe der süßigkeiten eben auch stück

play11:02

für stück gelernt welche zügigen zum

play11:05

sieg verhelfen und bei welchen eher

play11:07

sicher verlieren wird der computer

play11:09

verbessert seine strategie nachdem er

play11:12

also für verlieren bestraft und für

play11:14

gewinnen belohnt wird wird er immer mit

play11:17

der zeit immer besser

play11:18

daher nehmen wir diese art und weise wie

play11:21

maschinen lernen können auch verstärken

play11:23

das lernen lernen durch belohnung und

play11:26

bestrafung bestrafung heißt hier konkret

play11:29

wir haben den agenten die schokolinsen

play11:31

weggenommen

play11:32

die schokolinsen die zur niederlage

play11:34

geführt hat belohnt wurde er in dem er

play11:37

eine weitere schokolinsen der sieg

play11:39

bringenden farbe erhalten hat dieses

play11:41

verhalten sortiert also die züge aus die

play11:44

zu einer niederlage geführt haben so

play11:46

dass irgendwann nur noch die guten züge

play11:48

über bleiben

play11:49

in der praxis würde man strategien den

play11:52

ich sofort zum erfolg führen wohl nicht

play11:55

direkt emmely minimieren sondern wohl

play11:57

eher nur deren auftretens

play11:59

wahrscheinlichkeit verringern

play12:01

auf diese weise lernt das system auf

play12:04

jeden fall nach und nach welche

play12:06

strategie in welcher situation am besten

play12:09

geeignet ist dieses vorgehen wollen wir

play12:12

jetzt verallgemeinern für verstärken das

play12:15

lernen haben wir eine umwelt dem fall

play12:19

den wir hier sehen ein blumenbild beet

play12:23

einen agenten unseren roboter und ein

play12:27

problem

play12:28

in diesem fall wird der roboter ganz

play12:30

viele blut bunte blumen anpflanzen als

play12:33

erstes erfasst da der agent dazu den

play12:36

zustand der umwelt

play12:37

unser roboter macht dazu ein foto des

play12:40

wachstums standes der pflanzen

play12:42

bei unserem schachspiel war die position

play12:45

aller figuren auf dem spielbrett der

play12:47

zustand der umwelt

play12:51

innerhalb seiner umwelt kann der agent

play12:53

nun aktionen durchführen

play12:55

abhängig vom zustand in dem er sich

play12:58

befindet stehen ihnen eine reihe von

play13:00

aktionen zur auswahl zur verfügung

play13:02

unser roboter hat immer dieselben zwei

play13:05

aktionen zur verfügung

play13:06

die pflanzen gießen oder mit dem spaten

play13:10

neues setzlinge einpflanzen im

play13:13

schachspiel waren die zur auswahl

play13:14

stehenden aktionen alle möglichen züge

play13:17

die für den jeweiligen zustand des

play13:18

schachbretts durch die farbigen pfeile

play13:20

visualisiert werden wenn der agent eine

play13:24

der aktionen ausführt ändert sich der

play13:26

zustand der umwelt wenn unser roboter

play13:30

bereits im setzlinge bereits gepflanzt

play13:33

zustand ist wie in der grafik und die

play13:36

setzlinge gießt ist der folge zustand

play13:38

die vollständig gewachsenen pflanzen in

play13:42

abhängigkeit der bewertung des folge

play13:44

zustands wird der agent dann jeweils

play13:46

belohnt oder bestraft

play13:48

unser roboter würde für die

play13:50

durchgeführte gießen aktion mit einer

play13:52

bestimmten menge an gold münzen belohnt

play13:55

wenn er stattdessen die setzlinge mit

play13:57

dem spaten wieder ausgegraben hätte wäre

play14:00

er bestraft worden und ihm werden

play14:02

goldmünzen weggenommen worden

play14:04

in unserem mini schacht wurde der agent

play14:07

in abhängigkeit des neuen zustandes des

play14:09

spielbretts durch das hinzufügen von

play14:11

süßigkeiten belohnt oder durch das

play14:14

wegnehmen einer süßigkeit bestraft die

play14:18

belohnung und bestrafung erfolgt dabei

play14:19

immer gemäß von regeln die im voraus vor

play14:23

beginn des lernens festgelegt wurde

play14:26

die auch in unserem schach beispiel wie

play14:29

genau belohnt und bestraft wird hat

play14:31

dabei einen großen einfluss darauf wie

play14:34

der agent lernt es ist durchaus möglich

play14:36

dass ein selbst fahrendes auto lernt

play14:39

lieber gar nicht erst loszufahren weil

play14:41

die bestrafung für einen unfall so groß

play14:43

werden dass sich nicht bewegen und damit

play14:46

auch nicht belohnt werden

play14:47

trotzdem besser erscheint durch

play14:52

belohnung und bestrafung werden gewisse

play14:54

aktionen in gewissen zuständen häufiger

play14:56

andere seltener gezeigt hier durch passt

play14:59

der agent seine strategie an die in

play15:01

einem so genannten modell speichert wenn

play15:05

wir vom lernen des agenten sprechen

play15:07

meinen wir damit dass er sein modell

play15:09

anpasst dieses modell könnte man sich so

play15:12

vorstellen wie das regal des roboters in

play15:15

dem er sich für jeden zustand für jede

play15:17

mögliche aktionen eine aktuelle

play15:19

bewertung speichert aktuell ist es

play15:23

gemäss der münzen im regal deutlich

play15:25

vielversprechender bereits gepflanzten

play15:27

setzlingen zu gießen als sie wieder

play15:29

auszugraben

play15:30

wie bei unserem schach wird das

play15:32

verhalten des agenten am anfang explora

play15:35

tief und relativ zufällig sei in dem mit

play15:39

jedem durchlauf des agenten diese lern

play15:41

schleife aktion ausprobieren belohnung

play15:45

oder bestrafung erhalten durchgeführt

play15:48

wird wird der grund stück für stück

play15:50

seine strategie optimieren

play15:52

diese art des lernens also verstärken

play15:55

das lernen ähnelt sehr stark dem wir als

play15:58

menschen lernen

play15:59

ein kind das lernt sich umzudrehen sich

play16:01

hinzusetzen zu krabbeln oder aufzustehen

play16:03

lernt dass in dem es ausprobiert und

play16:07

scheitert das ist irgendwann sich sehr

play16:10

sehr viel übung lernt sich umzudrehen

play16:12

sich hinzusetzen und so weiter auf die

play16:15

gleiche weise lernt ein kind ja auch den

play16:17

heißen herd nicht zu berühren da ist

play16:19

sofort dabei bestraft wird

play16:21

das verfolgt dabei wie beim aufstehen

play16:23

ein ziel und lernt in interaktion mit

play16:27

seiner umwelt in diesem punkt wirst du

play16:30

dich vielleicht fragen auf welche realen

play16:32

probleme kann verstärken des lernenden

play16:34

angewendet werden mit dem gleichen

play16:38

verfahren können maschinen auch lernen

play16:40

deutlich komplexere spiele zu spielen

play16:42

wie das ist vorhin bereits angesprochene

play16:44

chinesisch spiel go außerdem ist es

play16:47

sogar möglich kollaborative spiele wie

play16:49

starcraft 2 oder dazulernen

play16:51

die wende her leider nicht zeigen können

play16:54

ein weiteres anwendungsgebiet können

play16:57

industrieroboter darstellen die

play16:59

vielleicht zur bearbeitung eines

play17:00

werkstücks ein bestimmtes verhalten

play17:02

lernen müssen stellen wir uns dazu

play17:05

beispielhaft einen schweißroboter vor

play17:06

der die aufgabe hat den allen zum

play17:09

schweißen

play17:10

passend an die nahtstelle heranzuführen

play17:12

im zustand 1 hat er sich dazu

play17:15

entschieden den orangefarbenen

play17:16

servomotor um 42 grad zu drehen

play17:19

das führt ihn dann in einen folge

play17:21

zustand 2 mit diesem zustand entscheidet

play17:26

sich derselbe motor der roboter dazu den

play17:28

gelben servomotor um minus 34 grad zu

play17:31

drehen war sie in einem dritten zustand

play17:34

führt diesen sehen wir jetzt in unserem

play17:37

beispiel als ziel zustand an und

play17:40

belohnen den agenten daraufhin werden

play17:44

die aktionen dienen in diesen zustand

play17:46

gebracht haben

play17:47

positiv verstärkt also belohnt das kann

play17:50

zb abhängig davon sein wie relevant sie

play17:53

für die erhaltene belohnung waren hier

play17:55

beispielhaft durch die unterschiedlich

play17:57

großen daumen angedeutet verstärken es

play18:01

lernen erfordert riesige datenmengen und

play18:03

schrittweise verbessern

play18:05

daher ist es in der praxis auch besser

play18:07

mehr als einen roboter zu haben

play18:10

beispielsweise google verwendet mehrere

play18:12

roboter und kameras um rückmeldung zur

play18:16

hand augen koordination zu geben so dass

play18:18

all diese roboter kontinuierlichere

play18:21

bewegung verbessern können wenn die

play18:24

andere möglichkeit stellt die verwendung

play18:26

von simulations- umgebungen da die

play18:28

genutzt werden bevor unsere roboter oder

play18:31

auch autos mit der realen welt

play18:33

interagieren und ein weiteres

play18:36

anwendungsbeispiel sind optimierungs

play18:38

aufgaben also probleme die mathematisch

play18:41

sehr schwer zu lösen sind und bei denen

play18:43

nicht klar ist welche strategie am

play18:45

besten funktionieren wird das kann zum

play18:47

beispiel die steuerung einer klimaanlage

play18:49

in einem datencenter oder die planung

play18:52

von fahrplänen im öffentlichen

play18:54

nahverkehr seien

play18:55

google beispielsweise nutzt verstärkung

play18:58

des lernen dafür um in seinen

play19:00

rechenzentren energie zu sparen

play19:01

der zustand der umgebung wird durch

play19:05

faktoren wie die gesamtlast auf den it

play19:07

systemen der anzahl an eingesetzten

play19:09

wasserpumpen oder den äußeren

play19:11

wetterbedingungen die der windrichtung

play19:12

der windgeschwindigkeit oder der

play19:14

luftfeuchtigkeit der anzahl der

play19:16

laufenden trocken kühler der anzahl der

play19:17

laufenden kühler und so weiter bestimmt

play19:20

mögliche aktionen sind die 1

play19:23

bestimmten einheit zugeführte energie

play19:24

die eben erhöht oder verringert werden

play19:28

kann

play19:29

mit nur zehn trocken kühlern und jeweils

play19:32

zehn stufen oder

play19:33

einstellungsmöglichkeiten hätten wir

play19:35

dann bereits zehn hoch zehn oder auch

play19:37

zehn milliarden mögliche konfigurationen

play19:41

das sind weit mehr möglichkeiten als

play19:43

wäre es menschen in der realität

play19:44

ausprobieren können und mit so einer

play19:48

unglaublich großen zahl an zuständen

play19:50

kann wohl kein mensch eine optimale

play19:52

lösung finden

play19:52

der computer aber schon mit dem ziel die

play19:56

energieeffizienz der rechenzentren zu

play19:58

verbessern basierte die belohnung in dem

play20:01

konkreten fall auf der effizienz oder

play20:03

der energieeffizienz mit einem solchen

play20:07

agenten war es tatsächlich möglich den

play20:09

energieverbrauch von rechenzentren

play20:10

zentren um bis zu 40 prozent reduzieren

play20:16

wir sehen verstärken das lernen kann

play20:19

also in viel mehr situationen als nur in

play20:20

spielen verwendung finden und morgen

play20:24

wenn wir uns genauer ansehen was in der

play20:26

maschine passiert

play20:27

dieses verhalten erreicht werden kann

play20:28

und wie wir einen agenten so

play20:30

programmieren dass er wirklich selbst

play20:32

lernt wir bedanken uns fürs zu sehen und

play20:35

freuen uns auf morgen

Rate This

5.0 / 5 (0 votes)

Related Tags
Künstliche IntelligenzMaschinelles LernenSchachGo SpielStrategieBelohnungBestrafungRoboterSimulationEffizienzInnovation
Do you need a summary in English?