Ein Agent der lernt | Die Welt der KI entdecken 02
Summary
TLDRDieses Video erklärt das Prinzip des maschinellen Lernens anhand von Beispielen wie Schach, Go und Mini-Schach. Es zeigt, wie Computerprogramme als 'Agenten' Umwelten wahrnehmen, Entscheidungen treffen und durch Belohnung und Bestrafung ihre Strategien verbessern. Durch das Hinzufügen von Schokolinsen als Belohnungen lernt ein Computer, Schachstrategien anzupassen. Das Video veranschaulicht, wie künstliche Intelligenz in Spielen und der Praxis Anwendung findet und wie es durch stärker gefördertes Lernen stetig optimiert wird.
Takeaways
- 🤖 Die künstliche Intelligenz hat in Spielen wie Schach und Go bedeutende Fortschritte gemacht, mit Deep Blue und AlphaGo als Beispiele für KI-Systeme, die weltbekannte Spieler geschlagen haben.
- 🎲 Das Mini-Schach-Spiel dient als vereinfachtes Beispiel, um zu demonstrieren, wie ein Computer durch das Lernen von Regeln und Strategien autonom spielen kann.
- 👑 Der Begriff 'Schachtürken' bezieht sich auf eine frühe Vorstellung von KI, bei der tatsächlich ein Mensch in einer Apparatur verborgen war und das Schachspiel führte, um die Idee einer intelligenten Maschine zu vermitteln.
- 📚 Maschinelles Lernen beinhaltet, dass ein Computerprogramm seine Umwelt wahrnimmt, Entscheidungen trifft und selbstständiges Verhalten zeigt, abhängig von den gegebenen Umständen.
- 🔄 Verstärktes Lernen verwendet Belohnungen und Bestrafungen, um die Effektivität von Aktionen zu verbessern und somit die Strategie des Computers oder Roboters zu optimieren.
- 🧩 Der Prozess des Lernens durch Belohnung und Bestrafung ähnelt dem menschlichen Lernprozess, bei dem durch Ausprobieren und Anpassung an die Ergebnisse gelernt wird.
- 🤹♂️ Verstärktes Lernen ermöglicht es Maschinen, komplexe Aufgaben zu erlernen, wie etwa die Bewältigung von Spielen, die anpassungsfähigere Verhaltensweisen erfordern als Schach.
- 🔧 Anwendungsbereiche von verstärktem Lernen umfassen nicht nur Spiele, sondern auch industrielle Anwendungen, wie zum Beispiel die Steuerung von Industrierobotern für präzise Aufgaben.
- 🌐 Verstärktes Lernen kann auch in Simulationsumgebungen eingesetzt werden, bevor Roboter oder Fahrzeuge mit der realen Welt interagieren, um zuvor Erfahrungen zu sammeln und zu lernen.
- 🔋 Ein Beispiel für die Anwendung von verstärktem Lernen ist die Optimierung von Energieverbrauch in Rechenzentren, wobei die Belohnung auf der Verbesserung der Energieeffizienz basiert.
- 🔢 Die Anwendung von verstärktem Lernen in der Praxis erfordert oft umfangreiche Datenmengen und erlaubt es, Probleme zu lösen, die für Menschen zu komplex sind, wie bei der Optimierung von Klimaanlagen oder Fahrplänen.
Q & A
Was war das Hauptthema des Videos?
-Das Hauptthema des Videos war das maschinelle Lernen und wie Maschinen durch Belohnung und Bestrafung lernen können, anhand von Beispielen wie Schach, Go und Mini-Schach.
Welche historische Ereignisse wurden im Video erwähnt, um Fortschritte in der künstlichen Intelligenz zu illustrieren?
-Im Video wurden die Niederlage von Garry Kasparow durch Deep Blue im Jahr 1996 und die Niederlage von Lee Sedol, einem der besten Golfspieler, durch AlphaGo im Jahr 2016 erwähnt.
Was ist der Unterschied zwischen dem Schach-Türken und einem modernen Computerprogramm für maschinelles Lernen?
-Der Schach-Türke war ein mechanisches Pferd, das von einem versteckten Menschen gesteuert wurde, während ein modernes Computerprogramm für maschinelles Lernen ein autonomes System ist, das durch Umweltbeobachtung und Aktionen lernen kann, ohne menschliche Intervention.
Wie wird das Verhalten eines Computers in Bezug auf das Lernen im Video beschrieben?
-Das Verhalten des Computers wird als selbstständiges und autonomes Verhalten beschrieben, das in der Lage ist, Strategien zu lernen und zu verbessern, basierend auf Belohnungen und Bestrafungen für bestimmte Aktionen.
Was ist das Ziel des Mini-Schach-Spiels im Video?
-Das Ziel des Mini-Schach-Spiels ist es, zu demonstrieren, wie ein Computer durch das Hinzufügen und Entfernen von Schokolinsen als Belohnungen und Bestrafungen Strategien für Spielzüge lernen kann.
Wie werden Belohnungen und Bestrafungen im Mini-Schach-Spiel verwendet?
-Belohnungen werden verwendet, indem Schokolinsen hinzugefügt werden, wenn der Computer eine gute Entscheidung trifft, während Bestrafungen durch das Entfernen von Schokolinsen erfolgen, wenn eine schlechte Entscheidung gemacht wird.
Welche Rolle spielen Exploration und Exploitation im Lernprozess des Computers?
-Exploration bedeutet, dass der Computer zufällige Aktionen ausprobiert, um zu sehen, welche Ergebnisse sie erzielen. Exploitation bedeutet, dass der Computer dann diejenigen Aktionen nutzt, die zuvor erfolgreich waren, um weiterhin erfolgreich zu sein.
Wie wird das Lernen durch Belohnung und Bestrafung im Video mit dem menschlichen Lernen verglichen?
-Das Lernen durch Belohnung und Bestrafung wird mit dem menschlichen Lernen verglichen, bei dem ein Kind durch Ausprobieren und Scheitern lernt und durch Bestrafung für gefährliches Verhalten oder Belohnung für erfolgreiches Verhalten seine Handlungen anpasst.
Welche Anwendungsbereiche für verstärktes Lernen werden im Video genannt?
-Im Video werden Anwendungsbereiche wie das Erlernen komplexer Spiele wie Go, kollaborative Spiele wie Starcraft 2, die Steuerung von Industrierobotern, Optimierungsaufgaben in Datenzentren und die Planung von Fahrplänen im öffentlichen Nahverkehr genannt.
Was ist ein Beispiel für ein reales Problem, bei dem verstärktes Lernen angewendet werden kann?
-Ein Beispiel für ein reales Problem, bei dem verstärktes Lernen angewendet werden kann, ist die Steuerung einer Klimaanlage in einem Rechenzentrum, um Energie zu sparen und die Effizienz zu verbessern.
Outlines
🤖 Maschinelles Lernen in Spielen
Der erste Absatz behandelt das Thema des maschinellen Lernens, insbesondere in Bezug auf Spiele. Es wird erwähnt, dass künstliche Intelligenz (KI) in Bereichen wie Schach und Go erhebliche Fortschritte gemacht hat, mit Beispielen wie Deep Blue, das 1996 Garry Kasparow geschlagen hat, und AlphaGo, das 2016 einen der besten Go-Spieler besiegt hat. Es wird auch auf die Idee der 'Türken' eingegangen, eine frühe Vorstellung von KI, die tatsächlich von einem Menschen manipuliert wurde, um die Illusion zu erwecken, dass eine Maschine Schach spielt. Der Absatz endet mit der Einführung in das Konzept des Lernens durch KI, das als 'Agent' bezeichnet wird, der in der Lage ist, autonome Entscheidungen zu treffen.
🎲 Mini-Schach als Lernmodell
Der zweite Absatz beschreibt ein Mini-Schach-Spiel als Modell für das maschinelle Lernen. Es wird erklärt, wie Tillmann, der als 'Computer' fungiert, seine Strategie anhand von Spielzügen und deren Ergebnissen anpasst. Die Verwendung von Schokolinsen als Spielsteine, die nach jedem Zug belohnt oder bestraft werden, dient als Mechanismus für das Lernen durch Verstärkung. Der Absatz zeigt, wie der Computer durch Zufallsauswahl und anschließende Anpassung seiner Strategie lernt, welche Züge zum Sieg führen und welche nicht.
🌱 Anwendung des Lernens in der Praxis
In diesem Absatz wird das Konzept des Lernens durch Verstärkung auf andere Anwendungsbereiche übertragen, wie zum Beispiel auf einen Roboter, der Pflanzen anpflanzt. Der Roboter erfasst den Zustand seiner Umgebung und kann dann Aktionen ausführen, die durch Belohnung oder Bestrafung angepasst werden. Der Absatz erklärt, wie das Lernen durch Belohnung und Bestrafung funktioniert, wobei bestimmte Aktionen nach und nach stärker oder seltener auftreten, je nachdem, ob sie zu einem gewünschten Ergebnis führen.
🚀 Verstärkendes Lernen in der Realität
Der vierte Absatz erweitert das Gespräch um die Anwendung von verstärketem Lernen in der echten Welt, wie zum Beispiel in der Fertigungsindustrie oder bei der Optimierung von Aufgaben, die mathematisch schwer zu lösen sind. Es wird auf die Herausforderungen eingegangen, die mit dem Sammeln großer Datenmengen und dem schrittweisen Verbessern von Strategien verbunden sind. Beispiele für erfolgreiche Anwendungen, wie die Energieoptimierung in Googles Rechenzentren, werden genannt, die durch verstärkendes Lernen um bis zu 40% effizienter gemacht werden konnten.
🔮 Zukunft der KI und des Lernens
Der letzte Absatz schließt das Video mit einer Vorschau auf zukünftige Diskussionen über das maschinelle Lernen. Es wird angedeutet, dass das Lernen durch Verstärkung in vielen Situationen Anwendung finden kann, nicht nur in Spielen. Der Absatz endet mit einer Dankesbotschaft und einer Erwartungsaufbaum für weitere Themen, die in zukünftigen Videos behandelt werden.
Mindmap
Keywords
💡Künstliche Intelligenz
💡Lernprozess
💡Verstärktes Lernen
💡Schach
💡Go
💡Agent
💡Belohnung und Bestrafung
💡Modell
💡Umgebung
💡Exploration und Exploitation
Highlights
Einführung in das Thema Maschinelles Lernen und dessen Anwendung in Alltagsaufgaben, die bisher nur Menschen vorbehalten waren.
Historische Ereignisse wie der Schachweltmeister Garry Kasparow, der 1996 von Deep Blue geschlagen wurde.
Der Sieg von AlphaGo über einen der besten Go-Spieler der Welt im Jahr 2016 zeigt die Komplexität von Künstlicher Intelligenz in Spielen.
Die Bedeutung von Schach und Go als Instrumente zur Demonstration von KI-Fähigkeiten aufgrund ihrer präzisen Regeln.
Der Schachtürke, ein mechanischer Schachspieler von 1769, der auf menschliche Intelligenz basierte.
Der Begriff 'Agent' in Bezug auf Computerprogramme, die autonomes Verhalten zeigen können.
Einführung in das Mini-Schachspiel als Beispiel für das Lernen von Computern.
Beschreibung des Lernprozesses eines Computers, der durch Zufall und Belohnung/Bestrafung lernt.
Das Konzept der Belohnung und Bestrafung als Lernmechanismus für KI-Systeme.
Die Anpassung der Strategie eines Computers durch das Hinzufügen oder Entfernen von 'Schokolinsen'.
Das Verständnis von Umweltzustand und Aktionen als zentrale Elemente des Lernprozesses.
Die Anwendung von Verstärkungslernen in der Praxis, wie bei der Bewässerung von Pflanzen mit einem Roboter.
Die Bedeutung von Datenmengen und schrittweisem Verbessern im Verstärkungslernen.
Die Anwendung von Verstärkungslernen in komplexeren Spielen wie Go und kollaborativen Spielen wie Starcraft 2.
Die Verwendung von Simulationsumgebungen vor der Interaktion mit der realen Welt für Roboter und Autos.
Die Anwendung von Verstärkungslernen bei der Optimierung von Aufgaben, wie der Klimaanlage in einem Rechenzentrum.
Der Erfolg von Google bei der Energieersparnis in Rechenzentren durch Verstärkungslernen.
Die Fähigkeit von Computern, durch Verstärkungslernen, Lösungen für Probleme zu finden, die für Menschen unüberschaubar sind.
Ausblick auf zukünftige Themen und das Programmieren von Agenten zur Selbstlernendheit.
Transcripts
hallo willkommen zu unserer heutigen
einheit letztes mal haben wir uns
angeschaut was und wo in unserem alltag
kennen denn nun eigentlich ist
heute wollen wir uns genau anschauen wie
maschinen tatsächlich lernen können und
damit dinge tun die bisse nur uns
menschen vorbehalten waren
wir haben bereits gesehen dass einige
der grössten fortschritte und erfolge
von künstlicher intelligenz in spielen
erreicht worden
1996 wo die garri kasparow der
amtierenden schachweltmeister von einem
ki system namens deep blue geschlagen
2016 wurde ließ idol eine der besten
golfspieler weltweit durch algo besiegt
go ist ein chinesisches brettspiel das
deutlich komplexer ist als schach spiele
wie schach oder go erfordern ganz
offensichtlich irgendeine art von
intelligenz um zu gewinnen
auch haben diese spiele präzise regeln
die einfach zu formalisieren sind daher
sind gerade solche brettspiele eine
beliebte anwendung in die fähigkeiten
und möglichkeiten von künstlicher
intelligenz zu demonstrieren dabei ist
der traum von einer maschine die schach
spielt also das spiel der könige
deutlich älter als künstliche
intelligenz auf diesem bild sehen wir
den sogenannten schach türken der
schacht türke ist ein schachspielen der
roboter der 1769 von einem
österreichischen mechaniker konstruiert
wurde und die maschine gewarnt spiele
unter anderem gegen personen wie
napoleon bonaparte oder benjamin
franklin lange versuchten
zeitgenössische wissenschaftler das
geheimnis der maschine zu ergründen
dieses geheimnis lautete menschliche
intelligenz wie auf dem bild zu erkennen
ist befand sich tatsächlich ein mensch
innerhalb der maschine und führte die
spielzeuge durch mit einem guten
menschlichen spieler konnte so natürlich
die mehrheit der spiele gewonnen werden
und für den jeweiligen gegner war die
illusion einer schach spielenden
maschine perfekt
wir würden den schacht orten auch wenn
der betrug war
als agenten bezeichnet wenn wir von
maschinellem lernen sprechen ist unser
computerprogramm unser agent kein
geheimagent james bond sondern eben ein
computerprogramm ein computerprogramm
das seine umwelt wahrnimmt und aktionen
ausführt und damit in der lage ist
selbstständiges und autonomes verhalten
zu zeigen
zumindest bis zu einem gewissen grad das
heißt in abhängigkeit von der umwelt
werden bestimmte aktionen ausgeführt
ohne dass ein explizites signal oder
ähnliches von außen erfolgt und heute
wollen wir lernen wie eine maschine
lernen kann schach zu spielen nachdem
schach und etwas zu komplexen für unser
kurzes video haben wir euch eine version
von mini schach mitgebracht dabei darf
sich jede figur wie ein bauer bewegen
das heißt sie kann gerade aus zehn und
diagonal schmeißen gerade aussehen
diagonal diagonal schmeißen so eine
person übernimmt jetzt die rolle der
äffchen und nimmt damit den menschlichen
spieler in unserem fall übernehmen diese
rolle malich und eine weitere person
oder in der version die ihr nachher
ausprobieren könnt tatsächlich der
computer übernimmt die rolle der
krokodile und meint damit den computer
in unserem fall übernimmt das heute man
kann es vielleicht am arm erkennen
tillmann eine seite hat gewonnen wenn
sie erschafft eine ihrer figuren bis ans
andere ende des spielbretts zu führen
also von hierzu hier für die äffchen
oder alle gegnerischen figuren zu
schmeißen oder wenn sie es schafft
sicherzustellen dass sich der gegner in
der nächsten runde nicht mehr bewegen
kann
als vorbereitung haben wir bereits die
möglichen züge des computers ausgedruckt
und danach auch noch schokolinsen als
eine art spielsteine auf die spielzüge
aufgeteilt für jeden farbigen pfeil auf
dem spielfeld haben wir eine
schokolinsen in der gleichen farbe im
feld rechts daneben positioniert
anhand dieses vereinfachten schachspiels
können wir jetzt sehen wie der computer
strategien für spieler lernen kann von
denen sie aber nur die spielregeln
kennen und unser agent in diesem fall
ist will man also der spieler der die
krokodile steuert legen einfach mal los
die äffchen also ich beginne als
menschlicher spieler kann ich meinen zug
entsprechend der spielregeln frei wählen
ich werde also mal hin damit eröffnet
anschließend sind die krokodile dran
tillmann vergleich dazu zunächst die
spiele stellung die aktuell auf dem
board ist mit denen die auf seinen
zettel abgedruckt hat und wählt dann die
passende spielsituation aus in diesem
tag in diesem fall ist sie hier
als nächstes schließt er seine augen und
zieht zufällig einen der schoko
spielsteine aus dem feld neben der
spielsituation die farbe der schoko
linse in dem fall orange gibt an welchen
zu kümmern ausführen wird
prüfen wir also ob es einen gewinner
gibt niemanden dass am ende des spiels
angekommen auch haben beide spieler noch
figuren und zumindest ich kann mich noch
bewegen
da ist also noch keinen sieger gibt darf
ich zum beispiel zug werde ich jetzt
tillmanns figur hinschmeißen und bin
damit am ende
nachdem also meine entchen das ende des
spielfelds erreicht haben habe ich
gewonnen
der computer tillmann muss nun seine
strategie anpassen bevor er seine neue
rolle spielen wird er seine strategie so
anpassen dass er die schokolinsen die
den letzten zug der krokodile bestimmt
hat entfernen wird bevor wir jetzt eine
neue runde spielen setzen wir noch alle
verbleibenden schokolinsen zurück und
legen sie jeweils wieder rechts der
jeweilig skizzierten spielsituation hin
und reset resetten das spielbrett
so
ich bin wer also noch eine runde diesmal
sich außen und nachdem ich gezogen habt
ist wieder zimmern an der reihe und
themen sucht die passende spielsituation
welt zufällig 1 der süßigkeiten tokens
aus und zieht entsprechend der gezeigten
farbe
so ich versuche mich jetzt einfach mal
an dem mann vorbei zu schleichen und
meine spielfigur bis ans andere ende
durchzubringen
es ist wieder tim ein anderer film an
sucht die passende spiel situation weil
zufällig eines der token aus und führt
den entsprechenden muff aus
tillmann das ende des spielfelds
erreicht hat haben in diesem fall die
krokodile gewonnen wir fügen also eine
weitere schokolinsen in der sieg
bringenden farbe zum siegbringenden zug
hinzu
wir werden jetzt noch einige weitere
runden spielen wir fordern die aber das
video weiter ansiehst möchten möchten
wir dich dazu einladen das video zu
pausieren und selbst einige runden mini
schacht zu spielen
dazu haben wir einen link in die video
beschreibung gepackt der durch zu einer
digitalen version von diesem spiel führt
so schauen
nochmal zwei partien an nachdem wir also
einige runden gespielt haben habe ich
als mensch kaum noch eine chance zu
gewinnen
ich versuche jetzt malen den spielzug
der mich vorhin zum gewinnen geführt hat
ich eröffne also über die mitte wie wir
sehen haben die krokodile jetzt eine
verteilung der schokolinsen die mit der
vom anfang nicht mehr viel gemein hat
die strategie sagt den computer in
diesem fall dass er meine spielfigur
schlagen sollte der spielzug mit dem er
vorhin angehe vorbeigezogen ist der es
längst nicht mehr teil seiner strategie
nachdem der computer jetzt gezogen hat
sich nochmal hier am computer vorbei und
versuche ihnen nochmal auszutricksen
der computer sucht also die passende
spiel situation und wählt wieder
zufällig ein zucken aus diesem fall
gelb für den zugehörigen spielzug aus
und hat gewonnen
aber warum gewinnt der computer ist
eigentlich immer wo er doch am anfang so
leicht auszutricksen war anfangs
tillmann in seiner rolle als computer
seine spielzüge mehr oder weniger
zufällig wählt allerdings hat er mit
hilfe der süßigkeiten eben auch stück
für stück gelernt welche zügigen zum
sieg verhelfen und bei welchen eher
sicher verlieren wird der computer
verbessert seine strategie nachdem er
also für verlieren bestraft und für
gewinnen belohnt wird wird er immer mit
der zeit immer besser
daher nehmen wir diese art und weise wie
maschinen lernen können auch verstärken
das lernen lernen durch belohnung und
bestrafung bestrafung heißt hier konkret
wir haben den agenten die schokolinsen
weggenommen
die schokolinsen die zur niederlage
geführt hat belohnt wurde er in dem er
eine weitere schokolinsen der sieg
bringenden farbe erhalten hat dieses
verhalten sortiert also die züge aus die
zu einer niederlage geführt haben so
dass irgendwann nur noch die guten züge
über bleiben
in der praxis würde man strategien den
ich sofort zum erfolg führen wohl nicht
direkt emmely minimieren sondern wohl
eher nur deren auftretens
wahrscheinlichkeit verringern
auf diese weise lernt das system auf
jeden fall nach und nach welche
strategie in welcher situation am besten
geeignet ist dieses vorgehen wollen wir
jetzt verallgemeinern für verstärken das
lernen haben wir eine umwelt dem fall
den wir hier sehen ein blumenbild beet
einen agenten unseren roboter und ein
problem
in diesem fall wird der roboter ganz
viele blut bunte blumen anpflanzen als
erstes erfasst da der agent dazu den
zustand der umwelt
unser roboter macht dazu ein foto des
wachstums standes der pflanzen
bei unserem schachspiel war die position
aller figuren auf dem spielbrett der
zustand der umwelt
innerhalb seiner umwelt kann der agent
nun aktionen durchführen
abhängig vom zustand in dem er sich
befindet stehen ihnen eine reihe von
aktionen zur auswahl zur verfügung
unser roboter hat immer dieselben zwei
aktionen zur verfügung
die pflanzen gießen oder mit dem spaten
neues setzlinge einpflanzen im
schachspiel waren die zur auswahl
stehenden aktionen alle möglichen züge
die für den jeweiligen zustand des
schachbretts durch die farbigen pfeile
visualisiert werden wenn der agent eine
der aktionen ausführt ändert sich der
zustand der umwelt wenn unser roboter
bereits im setzlinge bereits gepflanzt
zustand ist wie in der grafik und die
setzlinge gießt ist der folge zustand
die vollständig gewachsenen pflanzen in
abhängigkeit der bewertung des folge
zustands wird der agent dann jeweils
belohnt oder bestraft
unser roboter würde für die
durchgeführte gießen aktion mit einer
bestimmten menge an gold münzen belohnt
wenn er stattdessen die setzlinge mit
dem spaten wieder ausgegraben hätte wäre
er bestraft worden und ihm werden
goldmünzen weggenommen worden
in unserem mini schacht wurde der agent
in abhängigkeit des neuen zustandes des
spielbretts durch das hinzufügen von
süßigkeiten belohnt oder durch das
wegnehmen einer süßigkeit bestraft die
belohnung und bestrafung erfolgt dabei
immer gemäß von regeln die im voraus vor
beginn des lernens festgelegt wurde
die auch in unserem schach beispiel wie
genau belohnt und bestraft wird hat
dabei einen großen einfluss darauf wie
der agent lernt es ist durchaus möglich
dass ein selbst fahrendes auto lernt
lieber gar nicht erst loszufahren weil
die bestrafung für einen unfall so groß
werden dass sich nicht bewegen und damit
auch nicht belohnt werden
trotzdem besser erscheint durch
belohnung und bestrafung werden gewisse
aktionen in gewissen zuständen häufiger
andere seltener gezeigt hier durch passt
der agent seine strategie an die in
einem so genannten modell speichert wenn
wir vom lernen des agenten sprechen
meinen wir damit dass er sein modell
anpasst dieses modell könnte man sich so
vorstellen wie das regal des roboters in
dem er sich für jeden zustand für jede
mögliche aktionen eine aktuelle
bewertung speichert aktuell ist es
gemäss der münzen im regal deutlich
vielversprechender bereits gepflanzten
setzlingen zu gießen als sie wieder
auszugraben
wie bei unserem schach wird das
verhalten des agenten am anfang explora
tief und relativ zufällig sei in dem mit
jedem durchlauf des agenten diese lern
schleife aktion ausprobieren belohnung
oder bestrafung erhalten durchgeführt
wird wird der grund stück für stück
seine strategie optimieren
diese art des lernens also verstärken
das lernen ähnelt sehr stark dem wir als
menschen lernen
ein kind das lernt sich umzudrehen sich
hinzusetzen zu krabbeln oder aufzustehen
lernt dass in dem es ausprobiert und
scheitert das ist irgendwann sich sehr
sehr viel übung lernt sich umzudrehen
sich hinzusetzen und so weiter auf die
gleiche weise lernt ein kind ja auch den
heißen herd nicht zu berühren da ist
sofort dabei bestraft wird
das verfolgt dabei wie beim aufstehen
ein ziel und lernt in interaktion mit
seiner umwelt in diesem punkt wirst du
dich vielleicht fragen auf welche realen
probleme kann verstärken des lernenden
angewendet werden mit dem gleichen
verfahren können maschinen auch lernen
deutlich komplexere spiele zu spielen
wie das ist vorhin bereits angesprochene
chinesisch spiel go außerdem ist es
sogar möglich kollaborative spiele wie
starcraft 2 oder dazulernen
die wende her leider nicht zeigen können
ein weiteres anwendungsgebiet können
industrieroboter darstellen die
vielleicht zur bearbeitung eines
werkstücks ein bestimmtes verhalten
lernen müssen stellen wir uns dazu
beispielhaft einen schweißroboter vor
der die aufgabe hat den allen zum
schweißen
passend an die nahtstelle heranzuführen
im zustand 1 hat er sich dazu
entschieden den orangefarbenen
servomotor um 42 grad zu drehen
das führt ihn dann in einen folge
zustand 2 mit diesem zustand entscheidet
sich derselbe motor der roboter dazu den
gelben servomotor um minus 34 grad zu
drehen war sie in einem dritten zustand
führt diesen sehen wir jetzt in unserem
beispiel als ziel zustand an und
belohnen den agenten daraufhin werden
die aktionen dienen in diesen zustand
gebracht haben
positiv verstärkt also belohnt das kann
zb abhängig davon sein wie relevant sie
für die erhaltene belohnung waren hier
beispielhaft durch die unterschiedlich
großen daumen angedeutet verstärken es
lernen erfordert riesige datenmengen und
schrittweise verbessern
daher ist es in der praxis auch besser
mehr als einen roboter zu haben
beispielsweise google verwendet mehrere
roboter und kameras um rückmeldung zur
hand augen koordination zu geben so dass
all diese roboter kontinuierlichere
bewegung verbessern können wenn die
andere möglichkeit stellt die verwendung
von simulations- umgebungen da die
genutzt werden bevor unsere roboter oder
auch autos mit der realen welt
interagieren und ein weiteres
anwendungsbeispiel sind optimierungs
aufgaben also probleme die mathematisch
sehr schwer zu lösen sind und bei denen
nicht klar ist welche strategie am
besten funktionieren wird das kann zum
beispiel die steuerung einer klimaanlage
in einem datencenter oder die planung
von fahrplänen im öffentlichen
nahverkehr seien
google beispielsweise nutzt verstärkung
des lernen dafür um in seinen
rechenzentren energie zu sparen
der zustand der umgebung wird durch
faktoren wie die gesamtlast auf den it
systemen der anzahl an eingesetzten
wasserpumpen oder den äußeren
wetterbedingungen die der windrichtung
der windgeschwindigkeit oder der
luftfeuchtigkeit der anzahl der
laufenden trocken kühler der anzahl der
laufenden kühler und so weiter bestimmt
mögliche aktionen sind die 1
bestimmten einheit zugeführte energie
die eben erhöht oder verringert werden
kann
mit nur zehn trocken kühlern und jeweils
zehn stufen oder
einstellungsmöglichkeiten hätten wir
dann bereits zehn hoch zehn oder auch
zehn milliarden mögliche konfigurationen
das sind weit mehr möglichkeiten als
wäre es menschen in der realität
ausprobieren können und mit so einer
unglaublich großen zahl an zuständen
kann wohl kein mensch eine optimale
lösung finden
der computer aber schon mit dem ziel die
energieeffizienz der rechenzentren zu
verbessern basierte die belohnung in dem
konkreten fall auf der effizienz oder
der energieeffizienz mit einem solchen
agenten war es tatsächlich möglich den
energieverbrauch von rechenzentren
zentren um bis zu 40 prozent reduzieren
wir sehen verstärken das lernen kann
also in viel mehr situationen als nur in
spielen verwendung finden und morgen
wenn wir uns genauer ansehen was in der
maschine passiert
dieses verhalten erreicht werden kann
und wie wir einen agenten so
programmieren dass er wirklich selbst
lernt wir bedanken uns fürs zu sehen und
freuen uns auf morgen
Browse More Related Video
![](https://i.ytimg.com/vi/llpbHXyNk9Q/hq720.jpg?sqp=-oaymwEmCIAKENAF8quKqQMa8AEB-AHUBoAC4AOKAgwIABABGEUgWChlMA8=&rs=AOn4CLBgoAQCdvgxmbrm2-UYES8X3r90ww)
Hinter den Kulissen: Verstärkendes Lernen | Die Welt der KI entdecken 03
![](https://i.ytimg.com/vi/bK32-3-teEI/hq720.jpg?sqp=-oaymwEmCIAKENAF8quKqQMa8AEB-AHUBoAC4AOKAgwIABABGEAgVShlMA8=&rs=AOn4CLBTaJ9_Hvbu7PbqBujjKYWCzOYYJg)
Überwachtes Lernen | Die Welt der KI entdecken 05
![](https://i.ytimg.com/vi/QpxUJTnXqKE/hq720.jpg?sqp=-oaymwEmCIAKENAF8quKqQMa8AEB-AHUBoAC4AOKAgwIABABGD8gWShlMA8=&rs=AOn4CLA1xJeHynXuWggczPvJfuUnfOl6vQ)
Klassische KI Verfahren und maschinelles Lernen | Die Welt der KI entdecken 04
![](https://i.ytimg.com/vi/zZd_2fKyl-w/hq720.jpg?sqp=-oaymwEmCIAKENAF8quKqQMa8AEB-AHUBoAC4AOKAgwIABABGEAgVyhlMA8=&rs=AOn4CLDF9ny4Vekzaz_cCKPcc_3z1aI69A)
Unüberwachtes Lernen | Die Welt der KI entdecken 07
![](https://i.ytimg.com/vi/f0CcWMx1_ns/hq720.jpg)
Molare Masse und molares Volumen I musstewissen Chemie
![](https://i.ytimg.com/vi/3ElouEwenBE/hq720.jpg)
Bildanalyse mit Hilfe von Kompositions-Skizzen
5.0 / 5 (0 votes)