Backpropagation (Retropropagación)

Irving Vasquez
22 Mar 202439:20

Summary

TLDRLa transcripción ofrece una sesión educativa sobre la retropropagación, un método fundamental en el entrenamiento de redes neuronales profundas. Se destaca su importancia desde su invención en los años 70 hasta su adopción por Joffrey Hinton en 1986 para redes con múltiples capas. La sesión abarca la aplicación del método de descenso por gradiente, la utilización de la regla de la cadena para calcular derivadas y el proceso de actualización de pesos en una red neuronal. Además, se profundiza en el cálculo del término de error y la regla de Delta, ilustrando cómo estos conceptos se aplican en capas sucesivas de una red. La discusión también contempla la generalización del proceso para múltiples neuronas y la implementación del algoritmo de retropropagación en un entorno de aprendizaje supervisado. Finalmente, se subraya la relevancia de comprender estos conceptos para no depender exclusivamente de frameworks y poder innovar en el campo del aprendizaje automático.

Takeaways

  • 📚 La retropropagación es un método fundamental en las redes neuronales que permite entrenar redes profundas con miles a millones de parámetros.
  • 🔁 El método de retropropagación fue inventado en los 70s y su uso para entrenar redes neuronales de varias capas fue propuesto por Joffrey Hinton en 1986.
  • 🤖 La retropropagación utiliza el descenso por gradiente para ajustar los pesos de las redes, mejorando las predicciones a través de la minimización del error.
  • 📉 Se calcula un término de error, Delta, que indica cómo se deben ajustar los pesos para reducir el error en la capa de salida.
  • 🔄 El proceso de retropropagación implica calcular y reutilizar términos de error (Delta) para actualizar pesos en capas sucesivas de la red.
  • 🔢 La regla de la cadena se aplica para calcular derivadas de funciones compuestas, lo que es esencial para el cálculo de Delta en capas ocultas.
  • 📈 El learning rate es una tasa de aprendizaje que se multiplica por Delta y la entrada correspondiente para actualizar los pesos.
  • 🔽 El objetivo del método de descenso por gradiente es encontrar los pesos que minimizan el error, mejorando así las predicciones de la red.
  • 📋 La retropropagación se extiende desde la capa de salida hacia las capas ocultas, permitiendo actualizar todos los pesos de la red.
  • 💡 El conocimiento de la retropropagación es crucial para comprender cómo funcionan los algoritmos de aprendizaje automático y para poder implementarlos o mejorarlos.
  • 📋 Aprender retropropagación permite no depender únicamente de frameworks como Keras o PyTorch,增深理解 y potencialmente crear métodos más eficientes.

Q & A

  • ¿Qué es la retropropagación en las redes neuronales?

    -La retropropagación es un método fundamental en las redes neuronales que permite entrenar redes profundas. Se trata de un algoritmo que calcula las derivadas numéricas de la función de error con respecto a los parámetros de la red, permitiendo así actualizar los pesos para minimizar el error.

  • ¿Cómo surgió el método de retropropagación?

    -El método de retropropagación fue inventado en los años 70 por un científico cuyo nombre se menciona de manera imprecisa en el script, pero que podría ser Paul J. Werbos. Originalmente, el enfoque no estaba en la computación o en métodos de aprendizaje profundo, sino en obtener derivadas numéricas. Más tarde, en 1986, un equipo liderado por Geoffrey Hinton propuso su uso para entrenar redes neuronales de varias capas.

  • ¿Por qué es importante el método de retropropagación en el aprendizaje automático?

    -El método de retropropagación es crucial en el aprendizaje automático porque permite entrenar redes neuronales con muchas capas y millones de parámetros. Permite actualizar los pesos de la red de manera efectiva, lo que es esencial para que las redes aprendan de los datos y realicen predicciones precisas.

  • ¿Cómo funciona el método de descenso por gradiente en el contexto de las redes neuronales?

    -El método de descenso por gradiente se utiliza para encontrar los pesos que minimizan el error de predicción de una red neuronal. Consiste en calcular la tasa de cambio del error con respecto a los pesos y actualizar los pesos en la dirección opuesta al gradiente, con el objetivo de reducir el error. Se utiliza una tasa de aprendizaje para controlar el tamaño de los pasos en el espacio de pesos.

  • ¿Qué es el término de error en el contexto de la retropropagación?

    -El término de error, también conocido como el término delta, es una medida que indica cuánto está desviando la salida de la red neuronal de los valores objetivos. Se calcula como la derivada del error con respecto a la salida de la red y es esencial para actualizar los pesos de la red en el proceso de retropropagación.

  • ¿Cómo se calcula el término de error para una capa oculta en una red neuronal?

    -Para calcular el término de error para una capa oculta, se utiliza el término de error de la capa superior multiplicado por la conexión que se tiene hacia esa capa oculta y por la derivada de la función de activación de la capa oculta. Esto permite propagar el error hacia atrás a través de la red y actualizar los pesos de las capas ocultas.

  • ¿Por qué es importante comprender el proceso de retropropagación si existen frameworks como Keras o TensorFlow?

    -Comprender el proceso de retropropagación es importante porque permite a los estudiantes y profesionales entender cómo funcionan las redes neuronales a nivel fundamental. Esta comprensión es crucial para poder implementar sus propias soluciones, optimizar el rendimiento de las redes, o desarrollar nuevos métodos de aprendizaje automático. Aunque los frameworks facilitan el entrenamiento de redes neuronales, la comprensión detrás de ellos es esencial para el crecimiento profesional y la innovación en el campo.

  • ¿Cómo se realiza la actualización de los pesos en una red neuronal durante la retropropagación?

    -Durante la retropropagación, los pesos se actualizan calculando el incremento, que es proporcional al producto de la tasa de aprendizaje, el término de error correspondiente y la entrada de la neurona. Este incremento se sustracta de los pesos existentes para obtener los nuevos pesos que minimizan el error.

  • ¿Qué es la regla de la cadena en el contexto de la derivación en las redes neuronales?

    -La regla de la cadena es una técnica matemática utilizada para calcular la derivada de una función compuesta. En el contexto de las redes neuronales, se aplica para calcular las derivadas del error con respecto a los pesos a partir de las derivadas de las funciones de activación y las conexiones entre las neuronas.

  • ¿Cómo se generaliza el proceso de retropropagación para redes neuronales con múltiples capas?

    -El proceso de retropropagación se generaliza para redes con múltiples capas calculando el término de error para cada capa, empezando por la capa de salida y propagando el error hacia atrás a través de la red. Para cada capa oculta, se calcula un término de error que depende del término de error de la capa superior, las conexiones y las funciones de activación. Estos términos de error se utilizan para actualizar los pesos en cada capa.

  • ¿Cuál es el propósito del forward pass en el proceso de aprendizaje de una red neuronal?

    -El forward pass es el proceso por el cual los datos se propagan desde la capa de entrada hacia la capa de salida a través de las capas ocultas. Este proceso es esencial para generar una predicción o salida de la red neuronal. Una vez que se tiene la salida, se puede calcular el error utilizando una métrica de error y, posteriormente, utilizar esta información en el proceso de retropropagación para actualizar los pesos de la red.

Outlines

00:00

😀 Introducción a la retropropagación en redes neuronales

Se presenta la retropropagación como un método fundamental en el entrenamiento de redes neuronales profundas. Se destaca su importancia comparada con el método de descenso por gradiente, que es limitado a una sola capa. La retropropagación fue inventada en los 70s y se adoptó en 1986 por Joffrey Hinton para redes neuronales multicapas, permitiendo el entrenamiento de redes con miles a millones de parámetros.

05:01

🔍 Funcionamiento de la retropropagación y ajuste de pesos

Se describe el proceso de aprendizaje supervisado en redes neuronales, donde se busca ajustar los pesos para minimizar el error entre las predicciones y los valores objetivos. Se utiliza la métrica de error para medir el desempeño y el método de descenso por gradiente para actualizar los pesos. Se introduce el concepto de tasa de aprendizaje y se menciona la regla de delta para actualizar los pesos en capas ocultas y de salida.

10:02

🤖 Ejemplo de retropropagación en una red neuronal simple

Se ilustra cómo funciona la retropropagación en una red neuronal básica con una capa de entrada, una capa oculta y una capa de salida. Se detallan los elementos involucrados, como las conexiones, los pesos y la función de activación, y cómo se calculan las predicciones en cada capa. Se enfatiza la importancia de la función de activación y cómo se utiliza en el proceso de retropropagación.

15:04

📉 Cálculo del error y actualización de pesos en la capa de salida

Se aborda el cálculo del error en la capa de salida y cómo se utiliza para actualizar los pesos. Se describe el proceso de calcular la derivada del error con respecto a la predicción y la aplicación de la regla de la cadena para obtener la derivada del error con respecto a los pesos. Se menciona el uso del error cuadrático y la derivada de la función de activación en el proceso.

20:05

🔗 Aplicación de la regla de retropropagación en capas ocultas

Se explica cómo se calcula el término de error (delta) para las capas ocultas de la red neuronal. Se describe el proceso de calcular la derivada del error con respecto a las predicciones en la capa oculta y cómo se utiliza la regla de la cadena para obtener la derivada con respecto a los pesos. Se destaca la importancia de la función de activación y la conexión entre capas en el cálculo del delta.

25:08

🔁 Proceso de retropropagación y actualización de pesos

Se describe el proceso de retropropagación como una repetición de la regla delta para actualizar los pesos en capas superiores e inferiores. Se menciona el cálculo del delta output y delta hidden, y cómo estos se utilizan para actualizar los pesos en la capa de salida y las capas ocultas, respectivamente. Se destaca la generalización del método para redes neuronales con múltiples capas.

30:09

📚 Generalización del método de retropropagación

Se discute la generalización del método de retropropagación para redes neuronales con múltiples neuronas y salidas. Se presenta la idea de sumar los términos de error para cada salida y se refiere a la regla general de actualización de pesos en el contexto del descenso por gradiente. Se enfatiza la importancia de comprender el método de retropropagación para la implementación propia y la mejora de nuevos métodos.

35:09

👍 Importancia del aprendizaje de la retropropagación

Se destaca la relevancia del aprendizaje del método de retropropagación más allá del uso de frameworks como Keras o PyTorch. Se argumenta que la comprensión de la retropropagación permite no depender exclusivamente de estas herramientas y permite el desarrollo de implementaciones personalizadas y la generación de métodos más eficientes. Se menciona que en futuras sesiones se profundizará en la actualización numérica de pesos y la programación del algoritmo de retropropagación.

Mindmap

Keywords

💡Retropropagación

La retropropagación, o backpropagation en inglés, es un método fundamental en el entrenamiento de redes neuronales profundas. Permite calcular las derivadas numéricas de una función en una red neuronal, lo que es esencial para ajustar los pesos de las conexiones en la red. En el video, se destaca cómo este método fue adaptado para su uso en aprendizaje automático y cómo se implementa para actualizar los pesos en múltiples capas de una red.

💡Descenso por gradiente

El descenso por gradiente es un algoritmo de optimización utilizado para minimizar una función, en este caso, la función de error de una red neuronal. Se menciona en el video cómo este método se utiliza para encontrar los pesos que minimizan el error predicho por la red, y es la base sobre la cual se construye el método de retropropagación.

💡Redes neuronales

Las redes neuronales son modelos de aprendizaje inspirados en la estructura del cerebro humano. Consisten en capas de unidades de procesamiento, conocidas como neuronas, conectadas mediante pesos. El video se centra en cómo se entrenan estas redes mediante retropropagación, especialmente en redes profundas con múltiples capas.

💡Función de activación

Las funciones de activación son funciones matemáticas que determinan la salida de una neurona en una red neuronal basándose en su entrada. Se mencionan en el video como parte integral del cálculo del error y la actualización de pesos, donde su derivada es crucial para el proceso de retropropagación.

💡Pesos

Los pesos son los valores numéricos asociados con las conexiones entre las neuronas en una red neuronal. El objetivo del entrenamiento es encontrar el conjunto de pesos que minimiza el error de predicción. En el video, se discute cómo los pesos se actualizan mediante retropropagación y descenso por gradiente.

💡Error cuadrático

El error cuadrático, o error al cuadrado, es una métrica de error común en el aprendizaje supervisado que mide la diferencia entre la predicción de la red y el valor objetivo. Se utiliza en el video como ejemplo práctico para ilustrar cómo se calcula la derivada del error con respecto a las predicciones de la red.

💡Regla de la cadena

La regla de la cadena es una técnica matemática utilizada para calcular la derivada de una función compuesta. En el contexto del video, se aplica para encontrar la derivada del error con respecto a los pesos en una red neuronal, lo que es esencial para el cálculo del gradiente en el descenso por gradiente.

💡Capa oculta

Las capas ocultas son las capas intermedias en una red neuronal que no son de entrada ni de salida. Son donde ocurren las principales transformaciones de datos antes de que la información llegue a la capa de salida. El video aborda cómo se actualizan los pesos en las capas ocultas mediante retropropagación.

💡Tasa de aprendizaje

La tasa de aprendizaje es un parámetro en el algoritmo de aprendizaje que determina la magnitud del ajuste de los pesos en cada iteración. Se menciona en el video cómo se multiplica por el gradiente del error para actualizar los pesos, y es crucial para el rendimiento del entrenamiento.

💡Ejemplos

Los ejemplos son los datos de entrenamiento que la red neuronal utiliza para aprender. En el video, se indica que se realizan predicciones sobre cada ejemplo del conjunto de datos para calcular el error y, posteriormente, actualizar los pesos de la red mediante retropropagación.

💡Frameworks

Los frameworks, como Keras, PyTorch, TensorFlow, etc., son herramientas de programación que facilitan el desarrollo y el entrenamiento de modelos de redes neuronales. Aunque se menciona que no se quiere depender únicamente de ellos, son importantes para la implementación práctica del aprendizaje automático y se ven como parte integral del flujo de trabajo en el campo.

Highlights

La sesión trata sobre la retropropagación, un método fundamental en las redes neuronales.

La retropropagación permite entrenar redes neuronales profundas con miles a millones de parámetros.

El método de retropropagación fue inventado en los años 70 y se destaca por su capacidad para obtener derivadas numéricas.

En 1986, Joffrey Hinton y su equipo propusieron usar la retropropagación para entrenar redes neuronales de múltiples capas.

La retropropagación se utiliza para calcular derivadas numéricas y no estaba inicialmente diseñada para aprendizaje profundo.

Se aborda cómo funciona el método de retropropagación a través de un ejemplo sencillo.

Se discute la regla del delta y su importancia en el cálculo del error y la actualización de pesos en las redes.

La retropropagación utiliza el producto punto y las funciones de activación para calcular las predicciones en las capas ocultas.

Se describe el proceso de Forward pass y cómo se genera una salida en una red neuronal.

La métrica de error se utiliza para comparar la predicción con el valor objetivo y ajustar los pesos de la red.

El método de descenso por gradiente es fundamental para actualizar los pesos y minimizar el error.

Se explica cómo se calcula el término de error y su relación con la función de activación y las conexiones de la red.

La regla de la cadena se aplica para calcular las derivadas de funciones compuestas en el contexto de la retropropagación.

Se discute la importancia de entender la retropropagación para no depender exclusivamente de frameworks y poder hacer implementaciones propias.

Se destaca la necesidad de comprender los métodos existentes para generar nuevos enfoques más eficientes en el aprendizaje automático.

Se abordan herramientas simples como NumPy y Python para programar y entender la retropropagación.

Se enfatiza la importancia del aprendizaje de la retropropagación para la creación de algoritmos que puedan ajustarse a errores específicos.

Transcripts

play00:00

Hola estimadas y estimados estudiantes

play00:02

en esta sesión hablaremos acerca de un

play00:04

método fundamental en las redes

play00:06

neuronales actuales que es la

play00:09

retropropagación o en inglés p

play00:12

propagation este método nos permite

play00:14

entrenar redes neuronales que son muy

play00:17

profundas eh lo que hemos visto hasta

play00:20

ahora es que podemos utilizar el método

play00:22

de descenso por gradiente para entrenar

play00:25

una red simple que tiene una sola capa

play00:27

sin embargo las redes actuales van de

play00:30

miles a probablemente millones de

play00:33

parámetros todo esto en muchas capas Así

play00:36

que el problema que nos queda por

play00:38

resolver en nuestro curso es cómo vamos

play00:41

a entrenar todos estos parámetros que

play00:44

vamos a tener en estas redes muy

play00:46

profundas y existen en realidad muchos

play00:49

métodos de optimización que pueden hacer

play00:51

esta función sin embargo el método que

play00:54

se destaca es el de retropropagación

play00:56

este método fue inventado por ahí de los

play01:00

70s por este científico seiman o como

play01:04

quiera que se pronuncie verdad y digamos

play01:07

que su propuesta no estaba enfocada a

play01:10

computación o a métodos de aprendizaje

play01:12

profundo el método original de

play01:15

retropropagación está pensado para que

play01:17

se puedan obtener derivadas de forma

play01:19

numérica esto cuando tenemos pues

play01:23

e la regla de la cadena Okay entonces si

play01:26

utilizamos la regla de la cadena que nos

play01:28

permite hacer derivadas de funciones que

play01:32

están

play01:33

compuestas entonces probablemente este

play01:36

método de retropropagación también nos

play01:38

vaya a servir Entonces como les decía

play01:41

este método surge un tanto para calcular

play01:44

derivadas de forma numérica y no tanto

play01:46

pensando en la situación del aprendizaje

play01:50

automático o las redes neuronales sin

play01:52

embargo fue hasta

play01:55

1986 que este equipo dirigido por

play01:58

joffrey Hinton

play02:00

propone el uso de el método de

play02:03

retropropagación para entrenar estas

play02:05

redes neuronales de varias capas y es

play02:08

aquí pues donde cobra importancia

play02:10

realmente el método para su aplicación

play02:13

en el aprendizaje automático entonces a

play02:16

través de este método que

play02:18

existía ahora se pueden entrenar redes

play02:22

neuronales de muchísimas capas y

play02:25

entonces lo que vamos a hacer durante

play02:28

esta sesión que probable ente nos

play02:30

tardemos un poquito porque vamos a ir a

play02:32

los detalles es que primero vamos a ver

play02:36

cómo en un ejemplo sencillo está

play02:38

funcionando este método de

play02:40

retropropagación y después vamos a

play02:43

tratar de calcular esta regla del delta

play02:47

o del término de error una vez que

play02:50

nosotros pasemos de los conceptos

play02:52

generales a esta regla de Delta podemos

play02:56

aplicar la regla a redes que tiene

play02:59

tienen muchas capas entonces pues bueno

play03:02

pues vamos a la lección para que podamos

play03:04

ver los detalles de este muy utilizado

play03:09

algoritmo y bueno vamos a comenzar con

play03:13

una idea general de qué es lo que hace

play03:15

el método de retropropagación y primero

play03:17

veamos qué es lo que tenemos hasta

play03:20

ahorita bien sabemos que tenemos una red

play03:23

que tiene varias capas es decir en su

play03:25

capa de entrada tenemos esto x1 x dos X3

play03:32

Okay esa sería nuestra capa de entrada

play03:34

eso va a pasar a una capa oculta la capa

play03:37

oculta se compone de estas conexiones o

play03:42

pesos que vamos a tener aquí todos estos

play03:46

son pesos

play03:48

y para combinarlos

play03:52

utilizamos H que sería igual

play03:55

a w por el producto punto con

play04:01

x ahorita

play04:03

eh No vamos a utilizar el sesgo porque

play04:06

pues ya sabemos que el sesgo se puede

play04:08

comportar como una entrada más Entonces

play04:10

vamos a nombrarlo como que tenemos un H

play04:13

oculta o hidden y decíamos

play04:18

wx ese producto punto pasa por una

play04:22

función de activación F de H okay Y eso

play04:27

ya nos va a producir esta salida que

play04:30

tiene cada una de estas redes eh Son

play04:33

predicciones y podríamos decirle las

play04:35

predicciones en la capa oculta no pero

play04:38

ahorita para no utilizar tanta anotación

play04:40

voy a poner a como la salida aquí Bueno

play04:44

esta salida que tienen ahora estas redes

play04:48

es decir estaríamos como por acá esta

play04:50

capa que está produciendo estas salidas

play04:53

pues van a pasar a la siguiente capa a

play04:56

través de conectarse pues otros pesos

play04:58

que tenemos

play05:01

aquí entonces lo que obtendríamos ahora

play05:04

es un nuevo h en la capa de

play05:07

salida que pues se compone igual del

play05:10

producto punto D

play05:12

W output para separarlo el de abajo Lo

play05:15

vamos a llamar

play05:18

W hidden y el de arriba W output eso se

play05:23

multiplica por la a o sea las salidas

play05:25

que vienen de abajo

play05:27

y con esto ya vamos a tener nuestra

play05:30

predicción final a través de insertarlo

play05:33

a nuestra función de

play05:37

activación con eso ya obtenemos nuestra

play05:41

predicción hasta arriba verdad eso es lo

play05:44

que nosotros digamos tenemos hasta ahora

play05:47

y lo que deseamos es que pues nuestra

play05:51

red se ajuste a unos determinados

play05:54

valores bajo un esquema de aprendizaje

play05:56

supervisado es decir tenemos un valor

play05:59

objetivo y okay Y para saber qué tamb

play06:03

bien Nos está yendo en las predicciones

play06:04

pues utilizamos una métrica de error que

play06:08

va a comparar y y y circunfleja es decir

play06:11

el valor objetivo y la predicción y nos

play06:14

va a decir pues bueno si las

play06:16

predicciones son buenas o malas en el

play06:19

caso de que son malas las predicciones

play06:22

lo que queremos entonces es ajustar los

play06:25

pesos obtener unos nuevos valores aquí

play06:30

en los pesos tales que nos hagan mejores

play06:34

predicciones eso es lo que queremos

play06:36

hacer encontrar esos pesos que nos den

play06:38

mejores

play06:38

predicciones y pues encontramos que una

play06:42

forma de hacerlo es mediante el método

play06:44

de descenso por

play06:47

gradiente en lo que vimos es que si

play06:50

nosotros calculamos Cuál

play06:54

es la tasa de cambio del error con

play06:59

respecto

play07:01

de los pesos que tenemos aquí está la

play07:04

capa de salida los pesos que tenemos

play07:08

esto nos va a decir hacia donde crece el

play07:10

error y por tanto si nos vamos hacia el

play07:12

otro lado podemos disminuir ese error

play07:15

eso es básicamente lo que hace el método

play07:18

de descenso por gradiente y lo que vimos

play07:21

en el método también es que podíamos ya

play07:25

ajustarlo a tres pasos para que lo

play07:28

pudiéramos

play07:29

implementar no para que se pueda

play07:32

implementar y replicar ese método lo que

play07:35

vimos es que podemos calcular un término

play07:37

de error ya en términos prácticos era

play07:41

como la derivada del error que nos

play07:43

quedaba así por la derivada de la

play07:46

función de activación en output Okay eso

play07:50

era el término de error no si hasta

play07:52

ahorita que tienen dudas pues Les

play07:54

recomiendo que se chequen la lección de

play07:56

descenso por gradiente para que ya esto

play07:58

quede claro bueno Entonces teníamos ese

play08:00

término de error que nos dice Hacia

play08:02

dónde nos tenemos que mover y lo que

play08:04

hacíamos era calcular un incremento

play08:07

sale cómo vamos a modificar los pesos y

play08:10

decíamos pues bueno Ese incremento tiene

play08:12

que ver con una tasa de aprendizaje un

play08:16

valor que nosotros utilizamos para que

play08:18

se vaya pues cambiando el peso o vaya

play08:21

convergiendo más o menos lento entonces

play08:23

este es el learning rate o la tasa de

play08:25

aprendizaje que se multiplicaba por

play08:28

Delta

play08:29

Y eso por nuestra entrada que en este

play08:32

caso le estoy colocando aquí la

play08:35

a

play08:36

Okay con este incremento actualizamos

play08:40

los pesos y ya quedaba as W es igual a w

play08:46

más el

play08:47

incremento con esto actualizamos los

play08:51

pesos lo hacemos en una época y lo

play08:55

volvemos a repetir en la siguiente época

play08:56

y así estamos así disminuyendo el error

play09:01

Bueno pero esto que habíamos visto

play09:03

únicamente nos ayuda a actualizar los

play09:06

pesos De esta zona qué va a

play09:09

pasar y qué debemos hacer para

play09:12

actualizar los pesos que están abajo

play09:15

aquí la propuesta del método de

play09:17

retropropagación es utilicemos un

play09:19

esquema similar al que nosotros estamos

play09:21

utilizando en la capa final Okay yquem

play09:25

Ese esquema a las capas que están

play09:28

inferiores

play09:30

Okay idealmente

play09:32

y lo voy a colocar solo para que como

play09:35

tengamos idea de qué es lo que queremos

play09:37

hacer idealmente para ajustar los pesos

play09:40

que están aquí en las capas inferiores

play09:42

tendríamos que sacar algo así como la

play09:45

derivada del error con respecto de estos

play09:48

pesos inferiores no de la capa

play09:51

oculta Y eso nos diría Cómo lo

play09:54

ajustamos pero hacer eso para todos los

play09:57

pesos se vuelve un poquito

play09:59

entonces lo que propone este

play10:02

retropropagación

play10:04

es hagamos un esquema en el que vayamos

play10:07

reutilizando lo que tenemos en la capa

play10:10

inmediata superior para actualizar esta

play10:13

capa y así nos vamos lo que ahora

play10:15

actualiza esta capa nos ayuda a

play10:17

actualizar la que sigue Y así

play10:18

sucesivamente hasta que lleguemos a la

play10:20

capa

play10:22

más anterior no

play10:27

eh Y bueno lo que dice dices calculemos

play10:30

un término Delta aquí

play10:34

hidden dice tenemos un Delta que está

play10:37

hasta arriba calculemos un Delta que va

play10:39

a depender del que está arriba y si

play10:42

tuviéramos pesos más abajo pues

play10:43

tendríamos que calcular otro Delta que

play10:45

va a depender del Delta que está arriba

play10:47

y actualizamos y utilizamos la misma

play10:49

regla sale Y eso es básicamente el

play10:54

método de retropropagación okay Y a ver

play10:57

vamos a ver otro detalle

play11:00

lo que encontraron en el método es que

play11:04

si nosotros partimos de un término de

play11:06

error okay Este término de error va a

play11:09

actualizar estos pesos que tenemos por

play11:12

acá para actualizar los pesos que

play11:14

tenemos ahora en la capa que

play11:18

sigue pues podemos reutilizar el término

play11:21

de error entonces dice pues calculemos

play11:25

un término de error que va a actualizar

play11:28

ahora este este y este sale Y cómo

play11:32

calculamos ese término de error pues

play11:35

bueno primero es el

play11:37

original multiplicado por la conexión O

play11:41

sea que tan fuerte es esta conexión que

play11:43

tenemos aquí y la función de activación

play11:46

en la neurona inmediata que que me

play11:49

interesa entonces podemos ver

play11:53

que estos nuevos términos de error

play11:57

dependen del de arriba y las conexiones

play11:59

iones que tenemos Y eso simplifica mucho

play12:01

las cosas okay lo podemos replicar y lo

play12:05

podemos replicar a a a capas todavía más

play12:07

profundas porque vamos decir solo nos

play12:09

interesa el término de error que está en

play12:11

la de arriba lo demás ya no me interesa

play12:12

solo el término de error que está en la

play12:14

arriba y la conexión que tengo con eso

play12:16

ya me basta okay Y entonces esto es el

play12:18

método que se replica va pero si

play12:23

quisiéramos como una cosa nada más

play12:25

general de cómo funciona Pues bueno así

play12:27

es más o menos como funciona

play12:29

sin

play12:31

embargo pues no nos vamos a quedar aquí

play12:34

verdad lo que vamos a hacer es tratar de

play12:39

comprender de dónde vienen estas reglas

play12:41

Delta Y por qué es que tienen sentido y

play12:44

por qué es que funcionan va Entonces

play12:47

vamos a esa parte y vamos a

play12:51

entenderla y para eso pues vamos a poner

play12:54

como ejemplo una red muy básica en

play12:56

realidad en donde vamos a tener una

play13:01

entrada Okay aquí la voy a escribir como

play13:06

x eso va a pasar a una

play13:11

neurona y e la salida de esta neurona va

play13:15

a ir a otra neurona y eso ya me va a dar

play13:19

mi

play13:22

predicción Es simplemente esto que

play13:26

tenemos aquí tenemos una capa de entrada

play13:29

tenemos una capa oculta voy a poner como

play13:33

hidden Y tenemos una capa de

play13:36

salida Cuáles son los elementos que

play13:39

tenemos aquí Bueno pues tenemos x

play13:42

tenemos esta conexión

play13:45

verdad

play13:47

W que pertenece a la capa oculta Por eso

play13:50

la voy a poner como W hidden y luego

play13:54

tenemos esto que va a conformar la

play13:57

primera predicción Entonces vamos a

play14:00

poner aquí y circunfleja hiden que sería

play14:02

la predicción de esta neurona pues es

play14:07

básicamente el X que multiplica a w

play14:11

hiden + B Okay voy a obviar el B porque

play14:16

ya vimos en sesiones previas que se

play14:18

puede comportar Igual que una entrada x

play14:21

Entonces le voy a dejar así y esto pasa

play14:24

a la función de activación Okay después

play14:28

lo que ten es que esta predicción pues

play14:31

va a ser como la entrada a la siguiente

play14:34

capa

play14:35

Verdad Entonces para no estar utilizando

play14:38

esta anotación tan complicada le voy a

play14:40

nombrar a esto como

play14:41

a nuevamente

play14:44

tendríamos un peso de conexión aquí que

play14:47

sería en la capa de salida es decir la

play14:50

capa de salida tiene su W

play14:53

output y tendríamos una salida Okay y

play14:59

circunfleja output sería a la función de

play15:04

activación de la a multiplicada por el W

play15:09

output y eso me va a generar la salida

play15:13

Entonces ese digamos es el proceso del

play15:15

Forward pass o de la predicción frontal

play15:19

Esto me genera una salida y recordemos

play15:23

que lo que queremos hacer es un

play15:25

aprendizaje supervisado por lo tanto ya

play15:28

vamos a tener una etiqueta objetivo o un

play15:31

valor objetivo de la regresión entonces

play15:34

a este le vamos a denominar y y por

play15:38

tanto vamos a tener al

play15:41

final una métrica de error que nos va a

play15:44

comparar y con y

play15:48

circunfleja output aquí verdad Y ese

play15:52

digamos sería el proceso completo que

play15:54

estaríamos haciendo lo que queda a

play15:57

continuación es Pues bueno probablemente

play15:59

Esto se está equivocando y tenemos que

play16:02

actualizar tanto los pesos de la capa de

play16:05

salida como los pesos de la capa oculta

play16:09

Entonces primero Pues voy a tratar de

play16:12

resolverlo para el caso de la de los

play16:15

pesos de la capa oculta Okay y lo que

play16:19

nos dice el método de descenso por

play16:20

gradiente es encontremos el gradiente de

play16:23

la función de error para que sepamos

play16:26

Hacia dónde nos tenemos que mover

play16:29

entonces lo que tendríamos que hacer es

play16:33

calcular la

play16:36

derivada del error con respecto de ese W

play16:42

en output Okay eso me va a decir Hacia

play16:45

dónde tengo que moverme para que

play16:47

disminuya el error bueno el negativo

play16:50

verdad porque esto por definición es

play16:52

positivo Pero bueno eso ya lo hablamos

play16:54

en la sesión previa Okay de la parte de

play16:57

aquí de la izquierda podemos observar

play17:00

que tenemos una composición de funciones

play17:03

Okay y vamos a verlo tenemos esta

play17:06

función

play17:08

e que aquí depende de y circunfleja y

play17:12

esta y circunfleja viene de acá que pasa

play17:16

por la función F Okay y la función

play17:21

F lo que tiene pues es ya directamente

play17:25

el parámetro W aquí verdad y con eso ya

play17:29

llegamos a doble

play17:31

user Entonces cuando tenemos una función

play17:34

composición pues tenemos que usar la

play17:36

regla de la cadena verdad Entonces

play17:38

tendríamos que sacar la derivada del

play17:41

error con respecto de mi predicción que

play17:46

tengo y

play17:48

luego la derivada de la predicción que

play17:52

sería hay realmente F aquí podemos ver F

play17:56

con respecto de esto recordemos que

play17:59

hemos utilizado

play18:01

mucho estas notaciones previas en donde

play18:05

H de la salida básicamente sería a que

play18:10

multiplica a

play18:12

w0 Y entonces tendríamos F de h en

play18:16

output verdad esto para que vayamos

play18:19

viendo cómo es que se va haciendo el

play18:22

proceso

play18:25

claramente entonces podríamos escribir

play18:27

aquí que tendríamos pues entonces la

play18:30

derivada

play18:32

de de y Ok que en realidad pues lo

play18:36

podemos reemplazar por F con respecto de

play18:40

h y luego tendríamos Pues que sacar la

play18:44

derivada de h con respecto de

play18:49

w0 Okay entonces eso tendríamos que

play18:52

hacer

play18:54

en normalmente el descenso por

play18:57

gradiente esto Cómo se representa bueno

play19:02

primero va a depender de

play19:04

la función n métrica de error que

play19:07

nosotros estemos utilizando de

play19:10

acuerdo pero Digamos como estamos

play19:12

poniendo ya un ejemplo más práctico Si

play19:15

utilizáramos

play19:16

e

play19:18

como el error

play19:22

cuadrático la derivada de este error

play19:25

cuadrático con respecto de Jess

play19:29

circunfleja nos va a quedar como y- y

play19:33

circunfleja y luego tendríamos que sacar

play19:36

la derivada de la función de activación

play19:38

con respecto de H aquí Bueno pues va a

play19:42

depender de la función de activación que

play19:44

nosotros estemos utilizando Okay un

play19:47

tanto para generalizar esto de la

play19:51

función de activación simplemente voy a

play19:53

representar como F prima de H Okay

play19:58

entonces F prima de H estoy

play20:02

diciendo que es la derivada de la

play20:05

función de

play20:06

activación y luego tendríamos Esta

play20:09

última parte que es la derivada de h con

play20:12

respecto de

play20:13

w0 recordemos que H se

play20:17

calcula como en este caso muy básico

play20:21

como a multiplicado por

play20:25

w0 si sacamos la derivada de h con con

play20:28

respecto de

play20:30

w0 pues esto es a

play20:34

verdad es decir la entrada que nosotros

play20:38

tenemos y aquí le voy a representar con

play20:40

a Pero esto me refiero a la entrada que

play20:46

viene y esto es básicamente lo que

play20:50

tenemos en la regla Delta esto lo

play20:52

convertimos en delta como el término de

play20:56

error y ya luego lo multiplicamos por a

play20:59

para calcular el incremento Pero

play21:01

bueno Esto va a ser la regla Delta para

play21:05

el caso de una sola capa qué es lo que

play21:09

pasa en el descenso por gradiente cuando

play21:12

nosotros

play21:14

tenemos varias capas en realidad lo que

play21:18

tendríamos que hacer es cuál es el

play21:22

D Cuál es la derivada con respecto de El

play21:28

p en la capa

play21:31

oculta Y qué tendríamos que hacer

play21:34

nuevamente verdad tenemos que ver cuál

play21:36

es la función composición Okay dijimos

play21:39

que y que

play21:42

e pues tiene que ver con y circunfleja y

play21:46

circunfleja tiene que ver con h H tiene

play21:51

que venir de acá y luego aquí en lugar

play21:55

que nos fijemos con respecto de la O nos

play21:57

vamos a fijar con respecto De dónde

play21:59

viene eso no O sea como que la conexión

play22:01

Porque queremos llegar más abajo

play22:03

entonces nos vamos con respecto de a que

play22:05

es decir ya un fleja en la

play22:08

hidden Y entonces aquí pues tendríamos

play22:11

que ir ya ahora sí con f y con respecto

play22:15

de este peso que tenemos en hidden Okay

play22:18

ya ya vieron como todo el Caminito toda

play22:21

la culi desde el error hasta en donde

play22:25

tenemos ese peso Sale entonces eso

play22:28

básicamente va a ser nuestra regla de la

play22:30

cadena queé tendríamos que sacar pues

play22:34

esto sería igual a me parecido lo que

play22:36

tenemos acá a derivada de e primero con

play22:39

respecto de y circunfleja en la salida y

play22:44

eso por la función de activación con

play22:48

respecto del h y luego la derivada del h

play22:54

con respecto aquí de a verdad ya no va a

play22:57

ser con respecto de w0 si no va a ser

play22:59

con respecto de a o le podemos decir que

play23:02

es la predicción en

play23:04

H en

play23:06

hidden Y entonces ya que estamos en

play23:08

hidden tenemos que sacar la derivada de

play23:12

esa función de activación hidden puede

play23:15

ser diferente esta función de activación

play23:17

entonces puede ser F otra F Pero bueno

play23:20

ahorita le voy a simplificar y le voy a

play23:21

dejar aquí esta F y con respecto de H H

play23:27

G que estamos

play23:30

abajo aquí voy a completar output output

play23:34

para no

play23:35

confundirme Y eso la derivada de h hiden

play23:40

con respecto

play23:42

de Ya ahora así el peso en W

play23:48

hidden y ya llegamos nosotros hasta esa

play23:52

parte hasta hasta el peso que queremos

play23:54

actualizar va

play23:57

okay

play24:01

qué es lo que pasa podemos otra vez

play24:04

sacar todo el mismo

play24:05

proceso pero en realidad lo que

play24:09

encuentra este método de

play24:11

retropropagación Es que este Delta que

play24:15

nosotros calculamos aquí que es delta

play24:17

output Pues fíjense que es como esta

play24:21

parte

play24:22

okay esta parte que nosotros tenemos acá

play24:26

estos dos términos son este Delta

play24:31

output okay Y ahora

play24:36

analicemos esta cosa que tenemos

play24:40

aquí Bueno pues Esta cosa que nosotros

play24:42

tenemos Aquí voy a hacer esto ya más

play24:45

para arriba para que no nos esté

play24:47

turbando

play24:49

Okay analicemos Ese que sería la

play24:52

derivada parcial de h con respecto

play24:57

de y circunfleja en el

play25:01

hidden recordemos que

play25:05

H

play25:07

hidden Ah no perdón H

play25:12

output recordemos que H aquí es output

play25:15

para no confundir H output se calcula

play25:20

simplemente

play25:22

con

play25:25

w de output multiplicado por lo que

play25:30

viene antes no O sea la a o Pues también

play25:36

para conservar la misma variable en y

play25:38

hidden Okay si a esto le sacamos la

play25:42

derivada con respecto de y

play25:46

hiden pues esto nos va a quedar

play25:51

como

play25:53

W output okay Y qué cosa es eso vayamos

play25:57

a ver nuestro

play26:03

dibujito aquí se

play26:05

ve Pues resulta

play26:11

que esta cosa que acabamos de sacar es

play26:16

precisamente esta conexión que tenemos

play26:18

aquí okay esa conexión que tenemos ahí

play26:21

nos está diciendo que es el

play26:27

resultado

play26:30

entonces de

play26:33

esto podemos decir que esta parte es la

play26:37

conexión W output

play26:44

sale Y luego qué tenemos aquí en la

play26:48

siguiente Pues bueno

play26:50

tenemos la derivada parcial de F con

play26:55

respecto de H hiting no esta cosa está

play26:59

aquí dentro aquí estamos eh Ya estamos

play27:01

en esta cosa en F hidden con h

play27:06

hidden

play27:08

Igualmente para que podamos generalizar

play27:11

y utilizar cualquier función de

play27:12

activación Pues diremos que esto es la

play27:15

función la derivada de la función de

play27:18

activación sale Entonces tenemos esa

play27:22

función de activación que sería esta

play27:24

cosa

play27:26

va y finalmente

play27:29

tenemos nuestro último

play27:31

término si recordamos Cómo se calcula H

play27:39

hidden H

play27:41

hiden que se calculaba

play27:45

como la multiplicación

play27:47

de X por el W hidden y le sacamos a esto

play27:54

la derivada Ah pues muy parecido a la de

play27:56

arriba verdad con respecto a w hiden

play28:00

Pues nos va a quedar simplemente esto

play28:02

como

play28:06

x Okay esto sería

play28:10

x bien pues ya tenemos todo este

play28:13

chilaque aquí

play28:17

y lo que hay que notar ahora es

play28:20

precisamente estos términos Okay toda

play28:23

esta cosa que Nosotros acabamos de

play28:26

calcular y el método de de

play28:28

retropropagación dice Bueno calculemos

play28:31

esta regla Delta entonces simplemente

play28:35

decimos

play28:36

Delta

play28:37

hidden lo vamos a hacer o lo vamos a

play28:41

calcular a partir

play28:44

de el término de error que ya conocíamos

play28:47

de arriba multiplicado por la

play28:53

conexión que que se refiere a a la

play28:56

conexión que tenemos hacia Arriba ese

play28:59

peso y multiplicado por la función de

play29:03

activación H

play29:06

hiden Okay entonces Esto va a ser el

play29:10

nuevo término de error Okay para la capa

play29:15

que ahora tenemos aquí sale Entonces qué

play29:19

nos está diciendo Esto bueno que para

play29:24

actualizar la capa de salida utilizamos

play29:28

El delta output Okay para actualizar la

play29:33

capa oculta que está inmediatamente

play29:35

abajo pues utilizamos El delta hidden

play29:39

que se calcula o podemos decir es

play29:41

proporcional a la conexión que tenemos y

play29:45

al error que tenemos

play29:49

arriba y si tuviéramos todavía más capas

play29:52

hacia abajo pues tendríamos aquí otro

play29:56

Delta pues más abajo

play30:00

inferior que va a depender de esta

play30:05

conexión y va a depender del término de

play30:08

error que está inmediatamente

play30:11

arriba y así nos podemos ir

play30:14

sucesivamente Okay entonces ya podemos

play30:16

darnos cuenta que este método de

play30:18

retropropagación lo que está haciendo es

play30:23

definir estos términos de error o estas

play30:26

reglas Delta a partir de las reglas

play30:29

Delta que existen más arriba esto

play30:31

simplemente se está repite repite repite

play30:34

y con eso podemos actualizar nuestros

play30:37

pesos sale Bueno entonces

play30:41

Eh Esto es de forma general Cómo es que

play30:44

funciona el método de retropropagación

play30:47

em Pues ahorita lo

play30:50

simplifiquemos una neurona Okay

play30:54

e y pues después veremos Cómo es que

play30:57

esto se

play30:58

se digamos se extiende cuando tengamos

play31:02

varias neuronas Bueno pero

play31:04

lo pero lo que quería que ahorita

play31:06

viéramos era Cómo funcionaba no entonces

play31:08

en lo que sigue pues vamos a ver cómo

play31:10

podemos generalizar esto sale Pero bueno

play31:12

ya tenemos idea De dónde viene y por qué

play31:14

es que que que surge esto no no nada más

play31:18

lo apliquemos como como pues este como

play31:23

regla de la abuelita okay Bueno vamos a

play31:26

lo que sigue

play31:28

regresando a nuestra lección

play31:31

pues ya podemos entender un poquito

play31:34

mejor los conceptos y a qué nos estamos

play31:35

refiriendo verdad Entonces ya podemos

play31:38

decir que esto de retropropagación es

play31:41

como pues una extensión que utilizamos

play31:44

dentro del algoritmo de descenso por

play31:46

gradiente y pues esto nos va a ayudar a

play31:51

ajustar los pesos no de forma general

play31:54

qué es lo que buscamos pues

play31:56

buscamos Cuál es la contribución que

play32:00

tiene el peso a un error que estamos

play32:04

obteniendo okay Y eso pues lo sacamos

play32:07

con el gradiente ya sabemos aplicamos la

play32:10

regla de la cadena y esto básicamente

play32:14

nos va a decir pues que para la capa de

play32:17

salida vamos a calcular todo este

play32:20

gradiente y lo vamos a multiplicar por

play32:22

la entrada que tenemos No aquí está

play32:24

simplificado todas esas ecuaciones que

play32:26

puse hace rato

play32:28

y con esto podemos obtener una regla

play32:33

general Okay la regla general que

play32:36

ustedes van a encontrar en los libros y

play32:38

siempre está reportada es que el

play32:42

peso actualizado va a ser igual al peso

play32:46

anterior Okay sumado

play32:51

a este eta que ya lo vimos y que es la

play32:56

tasa de aprendizaje

play33:00

por la derivada del error con respecto

play33:05

de el peso anterior no eso que que

play33:09

dijimos no que nos va a dar el gradiente

play33:11

hay que multiplicarlo por -1 porque el

play33:14

gradiente por definición es positivo y

play33:16

lo que queremos es que vaya nuestro

play33:18

método hacia

play33:21

abajo este es digamos la regla general

play33:25

de cómo es que se actualiza los pesos

play33:27

pero lo que vamos a hacer nosotros es

play33:30

descomponer esta ecuación en unas

play33:34

reglitas que podamos implementar

play33:35

fácilmente Sale entonces supongamos que

play33:38

tenemos una una capa superior que le

play33:42

vamos a llamar capa o o capa

play33:47

output ya sabemos que podemos calcular

play33:51

nuestro término de error en la capa

play33:53

output sale con la derivada del error

play33:56

que ya la la hace

play33:59

rato Y entonces para una capa que está

play34:02

en la parte

play34:05

inferior vamos a

play34:07

utilizar el término de error que

play34:10

teníamos arriba multiplicado por la

play34:13

derivada de la función de activación

play34:16

esto por el peso que nos conecta verdad

play34:20

era lo que obtuvimos

play34:22

en lo que estuvimos haciendo hace un

play34:26

momento Qué puede pasar Ok yo lo hice

play34:29

muy sencillo cuando teníamos una sola

play34:31

salida Aquí les voy a poner otra vez lo

play34:34

que

play34:35

hicimos qué va a pasar si tenemos una

play34:37

sola salida Pues bueno Solo estamos

play34:40

contemplando esta conexión pero

play34:43

imagínense que tenemos un caso en donde

play34:47

de esta neurona no va a sola una salida

play34:49

sino va a más de una salida Okay puede

play34:54

ir a

play34:56

muchas Enton entonces lo que vamos a

play34:59

necesitar es contemplar los errores que

play35:02

está teniendo en todas esas salidas para

play35:05

eso lo que vamos a usar es una sumatoria

play35:08

Okay y donde vamos a ir sumando para

play35:11

cada una de esas salidas cada una de

play35:13

esas salidas tiene su propio término de

play35:15

error Y nuevamente utilizamos lo que ya

play35:19

conocemos del descenso por gradiente Y

play35:22

tenemos nuestra tasa de aprendizaje

play35:24

multiplicado por el término de error que

play35:26

ya calculamos y la entrada que

play35:29

corresponde a lo que viene de abajo con

play35:31

eso calculamos el incremento y este

play35:33

incremento se le suma al peso anterior

play35:36

vamos a finalizar a través de colocar ya

play35:39

un algoritmo que pues podamos

play35:41

implementar en la computadora y Okay

play35:44

Bueno pues aquí sería nuestro método de

play35:46

retropropagación Okay este para un caso

play35:50

especial no como como lo hemos visto

play35:52

Porque todavía se puede generalizar

play35:53

todavía más para muchos muchas cosas

play35:57

Enton entonces imaginemos que estamos en

play35:59

el proceso de descenso por gradiente

play36:02

Okay y simplemente lo que vamos a hacer

play36:04

es en una

play36:06

época actualizar todos los pesos desde

play36:10

la última capa hasta la capa inicial

play36:13

okay Para eso nos van a servir todos los

play36:16

ejemplos en el conjunto de

play36:19

datos entonces nuestro algoritmo nos va

play36:22

a decir bueno para cada uno de los

play36:23

ejemplos en el conjunto de datos hacemos

play36:26

una predicción

play36:28

esta predicción nos va a servir para

play36:31

calcular

play36:33

el error

play36:35

residual y con eso el término de error

play36:38

en la capa que está hasta arriba

play36:42

okay Este término de error ya lo podemos

play36:47

reutilizar lo vamos a reutilizar y lo

play36:49

vamos a hacer para calcular los términos

play36:52

de error en cada una de las capas

play36:54

inferiores ya eso ya vimos como lo

play36:57

podemos hacer ya una vez que propagamos

play37:00

esos errores hacia atrás lo que vamos a

play37:03

hacer es actualizar nuestros pesos

play37:07

actualizamos nuestros pesos

play37:09

eh A través de calcular Cuál es el

play37:12

incremento y finalmente ya este se

play37:17

actualiza bueno Y esto sería básicamente

play37:21

el algoritmo de retropropagación

play37:26

vale finalmente Por qué es importante

play37:28

aprender retropropagación

play37:30

si yo solo le pongo keras pun fit o

play37:36

model.fit y me va a actualizar la red

play37:39

Bueno pues es importante porque nosotros

play37:43

estamos estudiando las cosas desde el

play37:45

punto de vista de comprenderlas y de

play37:48

poder nosotros hacer nuestras propias

play37:50

implementaciones no no queremos depender

play37:52

todo el tiempo del keras o del P torch

play37:55

sale pero para eso necesitamos

play37:58

comprender y si quisiéramos nosotros

play38:00

avanzar en generar nuevos métodos que

play38:02

sean más eficientes Pues necesitamos

play38:04

comprender los que existe y por el otro

play38:06

lado si a lo mejor lo que nos interesa

play38:08

es simplemente pues usar las cosas como

play38:11

están pues bueno ya está implementado en

play38:14

muchos frameworks está en keras está en

play38:17

tensor Flow está en p tours está en

play38:19

todos los frameworks Por qué Porque pues

play38:22

es la parte primordial de cómo es que se

play38:24

entrenan las redes lo que vamos a hacer

play38:26

En las siguientes sesiones es primero un

play38:29

ejempl para ver cómo es que se van

play38:32

actualizando los pesos de forma numérica

play38:34

Ese nos va a tomar un poquito de tiempo

play38:36

porque pues si hay que ver cómo es que

play38:38

se están actualizando cada uno de esos

play38:40

pesos obviamente para una capa este

play38:42

oculta nada más y pues que tengamos ya

play38:46

el comprendimiento de cómo funciona

play38:48

retropropagación y también lo vamos a

play38:51

programar con

play38:53

herramientas simples como es npai y

play38:56

python y

play38:59

recuerden Pues si cometemos un error

play39:03

el algoritmo de retropropagación va a

play39:08

castigarnos en dependencia de cómo fue

play39:12

nuestro error y Bueno muchísimas gracias

play39:15

y nos vemos en la siguiente

play39:19

sesión

Rate This

5.0 / 5 (0 votes)

Related Tags
RetropropagaciónRedes NeuronalesAprendizaje AutomáticoMétodo Descenso por GradienteFunción de ActivaciónCapa OcultaError CuadráticoRegla de la CadenaOptimizaciónTasa de AprendizajeFrameworks de ML
Do you need a summary in English?