Funciones de activación en las redes profundas

Irving Vasquez
27 Jun 202213:53

Summary

TLDREn este video, se explora el rol crucial de las funciones de activación en las redes neuronales. Se destaca que, aunque las combinaciones lineales son fundamentales en la calculación de la salida de una neurona, el uso exclusivo de estas combinaciones restringiría el modelo a ser lineal. Por ello, las funciones de activación, como la sigmoide y la tangente hiperbólica, son esenciales para introducir no linealidad, permitiendo a la red representar funciones más complejas. Además, se discuten las ventajas y desventajas de estas funciones, incluyendo el problema del desvanecimiento del gradiente. Se presenta la función ReLU (Rectified Linear Unit) como una solución eficiente a este problema, destacando su capacidad para mejorar el entrenamiento de redes neuronales profundas en tareas como la visión computacional. Finalmente, se resalta que la elección de la función de activación depende del problema específico y que lo más recomendable es probar diferentes funciones para encontrar la más adecuada.

Takeaways

  • 🧠 La función de activación es necesaria en las redes neuronales para romper la linealidad de los productos punto y permitir la representación de funciones más complejas.
  • 📈 La función sigmoide es utilizada en la regresión logística y su dominio de salida es entre 0 y 1, lo que la hace adecuada para problemas de clasificación binaria.
  • 📉 La tangente hiperbólica amplía el rango de salida entre -1 y 1, lo que puede ser útil para problemas que requieren un rango más amplio de valores.
  • 🔍 El problema del desvanecimiento del gradiente ocurre cuando los gradientes se vuelven muy pequeños a medida que se retropropagan a través de las capas de la red, lo que dificulta el entrenamiento.
  • 🚀 La función de activación ReLU (Rectified Linear Unit) tiene propiedades que mitigan el problema del desvanecimiento del gradiente y es especialmente útil en redes con muchas capas.
  • ➡️ La elección de la función de activación depende del problema en particular y no hay una regla estricta sobre cuál es la mejor opción; es una decisión empírica.
  • 🤖 Las funciones de activación son fundamentales para el funcionamiento de las redes neuronales, ya que definen cómo las neuronas reaccionarán ante diferentes niveles de activación.
  • 📊 La gráfica de la función de activación muestra su comportamiento y cómo se desplaza el equilibrio para representar diferentes rangos de salida.
  • 🔢 La función sigmoide, aunque útil, tiene la limitación de limitar los valores de salida entre 0 y 1, lo que puede no ser ideal para todos los tipos de problemas.
  • 📌 La función ReLU es simple en su definición y se ha popularizado debido a su efectividad en la extracción de características en redes neuronales profundas.
  • 🔧 El ajuste de los pesos en las redes neuronales se ve afectado por el gradiente calculado, el cual es influenciado directamente por la elección de la función de activación.

Q & A

  • ¿Por qué son necesarias las funciones de activación en las redes neuronales?

    -Las funciones de activación son necesarias porque permiten romper la linealidad de las combinaciones lineales y darle a la red neuronal la capacidad de representar funciones más complejas.

  • ¿Qué sucede si solo se utilizan combinaciones lineales en una red neuronal?

    -Si solo se utilizan combinaciones lineales, incluso con múltiples capas, el resultado sigue siendo lineal y se podría representar como una sola capa, lo que limita la capacidad de la red para aprender funciones complejas.

  • ¿Cuál es la función de activación más utilizada en la regresión logística?

    -La función de activación más utilizada en la regresión logística es la función sigmoide.

  • ¿Cómo se define la función sigmoide y cuál es su rango de salida?

    -La función sigmoide se define como 1 / (1 + e^(-x)) y su rango de salida está entre 0 y 1.

  • ¿Qué función de activación se utiliza cuando se desea un rango de salida más amplio que el sigmoide?

    -Cuando se desea un rango de salida más amplio que el sigmoide, se utiliza la función tangente hiperbólica (tanh).

  • ¿Cómo se define la función de activación tangente hiperbólica y cuál es su rango de salida?

    -La función de activación tangente hiperbólica se define como (e^(x) - e^(-x)) / (e^(x) + e^(-x)) y su rango de salida está entre -1 y 1.

  • ¿Qué es el problema del desvanecimiento del gradiente y cómo afecta el entrenamiento de una red neuronal?

    -El problema del desvanecimiento del gradiente ocurre cuando los gradientes se van haciendo más pequeños a medida que se utiliza el algoritmo de retropropagación, lo que hace que el ajuste de los pesos sea muy lento y dificulte el entrenamiento, especialmente en capas profundas de la red.

  • ¿Cuál es una función de activación que ayuda a mitigar el problema del desvanecimiento del gradiente?

    -La función de activación ReLU (Rectified Linear Unit) ayuda a mitigar el problema del desvanecimiento del gradiente al mantener una pendiente constante de 1 para valores positivos.

  • ¿Cómo se define la función de activación ReLU y cuál es su ventaja principal?

    -La función de activación ReLU se define como max(0, x). Su ventaja principal es que para valores positivos, mantiene una pendiente de 1, lo que ayuda a evitar el desvanecimiento del gradiente y permite un entrenamiento más rápido.

  • ¿En qué tipo de problemas funciona mejor la función de activación ReLU?

    -La función de activación ReLU funciona mejor en problemas de visión computacional y en redes neuronales con muchas capas, como las redes neuronales convolucionales.

  • ¿Cómo se debe seleccionar la función de activación en una red neuronal?

    -La selección de la función de activación depende en gran medida de la experiencia empírica y del problema específico que se esté abordando. No existe una regla clara, pero en general, algunas funciones como la sigmoide, la tangente hiperbólica y la ReLU son comunes y han demostrado buen desempeño en diferentes situaciones.

Outlines

00:00

😀 Introducción a las funciones de activación en redes neuronales

Este primer párrafo introduce el propósito de las funciones de activación en las redes neuronales, explicando su importancia para evitar la limitación a operaciones lineales y cómo estas funciones rompen con la linealidad. Se menciona que, a pesar de tener múltiples capas, la ausencia de funciones de activación no lineales resultaría en una sola capa equivalente. Se explora la necesidad de estas funciones y se da un vistazo a su papel en la transformación de la salida de una neurona a través de una función de activación no lineal. Además, se presenta la función de activación sigmoide, destacando su utilidad en la regresión logística y su gráfica, que limita los valores de salida entre 0 y 1.

05:02

😉 Limitaciones de las funciones de activación y la tangente hiperbólica

El segundo párrafo aborda las limitaciones inherentes a las funciones de activación, como el problema del desvanecimiento del gradiente, que ocurre durante el proceso de retropropagación. Se describe cómo los gradientes se vuelven más pequeños a medida que se multiplican a través de las capas, lo que puede ralentizar el entrenamiento. Para superar esta limitación, se introduce la función de activación tangente hiperbólica, la cual tiene un rango de salida entre -1 y 1, lo que permite una mayor amplitud de valores y suelen funcionar mejor en problemas de visión computacional y redes neuronales recurrentes. Sin embargo, se deja en claro que no existe una regla estricta sobre cuál función de activación es mejor, ya que depende del problema específico.

10:05

😌 La función de activación ReLU y su impacto en el entrenamiento

El tercer párrafo examina la función de activación ReLU (Rectified Linear Unit), que ha demostrado ser eficaz en la reducción del problema del desvanecimiento del gradiente. Se define la función y se discute su gráfica, destacando que para valores negativos, la función tiene un gradiente de 0, y para valores positivos, mantiene una pendiente de 1. Esta característica permite un entrenamiento más rápido de la red, especialmente en problemas de visión computacional y en redes con muchas capas, como las redes neuronales convolucionales. Además, se menciona que la elección de la función de activación depende del problema en cuestión y que, en general, las funciones presentadas son las que mejor funcionan en la práctica.

Mindmap

Keywords

💡Funciones de activación

Las funciones de activación son elementos clave en las redes neuronales que permiten a las mismas modelar relaciones no lineales entre los datos. En el video, se discuten diferentes tipos de funciones de activación y su papel en la capacidad de las redes neuronales para representar funciones complejas.

💡Redes neuronales

Las redes neuronales son una forma de aprendizaje automático inspirado en el funcionamiento del cerebro humano. El video se enfoca en cómo las funciones de activación contribuyen a las capacidades de estas redes para procesar información y aprender de diferentes conjuntos de datos.

💡Linealidad

La linealidad se refiere a relaciones directas y predecibles entre variables, lo cual puede limitar la capacidad de las redes neuronales para representar relaciones complejas. Las funciones de activación son utilizadas para 'romper' esta linealidad y permitir que las redes neuronales manejen patrones más complejos.

💡Regresión logística

La regresión logística es un modelo estadístico utilizado en la función de activación sigmoide para transformar valores en una escala entre 0 y 1, lo que es útil para problemas de clasificación binaria. En el video, se menciona cómo la regresión logística se relaciona con la función de activación sigmoide.

💡Sigmoide

La función sigmoide es una de las funciones de activación más comunes que transforma una entrada en un valor entre 0 y 1. Se destaca en el video cómo esta función es útil para la regresión logística y cómo su forma permite una fácil interpretación de los resultados.

💡Tangente hiperbólica

La función de activación tangente hiperbólica es una alternativa a la sigmoide que produce valores entre -1 y 1, lo que permite un rango más amplio de salida. En el video, se discute cómo esta función puede ser más adecuada para ciertos problemas, como la visión computacional.

💡Desvanecimiento del gradiente

El desvanecimiento del gradiente es un problema en el aprendizaje profundo donde los valores del gradiente se vuelven muy pequeños a medida que se propagan hacia atrás a través de las capas de la red. Esto dificulta la actualización de los pesos. El video aborda cómo ciertas funciones de activación pueden mitigar este problema.

💡ReLU (Rectified Linear Unit)

La función de activación ReLU es una que ha demostrado ser efectiva en el entrenamiento de redes neuronales profundas. Su definición simple y su capacidad para evitar el desvanecimiento del gradiente la hacen popular en aplicaciones de aprendizaje profundo. El video destaca cómo la ReLU mejora la velocidad de entrenamiento en comparación con otras funciones.

💡Aprendizaje profundo

El aprendizaje profundo es una subárea del aprendizaje automático que utiliza redes neuronales profundas para modelar funciones complejas. En el video, se relaciona el aprendizaje profundo con el uso de funciones de activación que permiten a las redes neuronales capturar relaciones complejas en los datos.

💡Pesos

En las redes neuronales, los pesos son parámetros que se ajustan durante el entrenamiento para minimizar la diferencia entre la salida esperada y la salida real de la red. El video discute cómo las funciones de activación afectan la manera en que los pesos se ajustan a través del cálculo del gradiente.

💡Redes neuronales recurrentes

Las redes neuronales recurrentes son un tipo de red neuronal que procesan secuencias de datos y son capaces de mantener un estado interno. En el video, se menciona que la función de activación tangente hiperbólica suele funcionar mejor en estas redes para problemas de lenguaje y secuenciación.

Highlights

Sesión dedicada a entender el papel de las funciones de activación en las redes neuronales.

Funciones de activación son necesarias para romper con la linealidad y permitir la representación de funciones más complejas.

La combinación lineal de pesos y entradas más el sesgo en una neurona puede representarse como una sola capa si no hay otras operaciones.

La regresión logística utiliza la función sigmoide, que tiene un rango de salida entre 0 y 1.

La función sigmoide es útil en problemas de clasificación binaria y su gráfica muestra una curva suave que se acerca a 0 y 1.

La función tangente hiperbólica expande el rango de salida entre -1 y 1, lo que puede ser más adecuado para ciertos problemas.

La función de activación ReLU (Rectified Linear Unit) fue introducida por Nair y Hinton en 2010 y ayuda a disminuir el problema del desvanecimiento del gradiente.

La función ReLU es definida como el máximo entre 0 y x, y su gráfica muestra una pendiente de 1 para valores positivos de x.

Las funciones de activación como ReLU son especialmente útiles en redes neuronales profundas y para problemas de visión computacional.

El problema del desvanecimiento del gradiente ocurre cuando los gradientes se vuelven muy pequeños a medida que se retropropagan a través de las capas.

La elección de la función de activación depende del problema en cuestión y no hay una regla estricta para decidir cuál es la mejor.

Las funciones de activación son esenciales para la capacidad de las redes neuronales para modelar relaciones no lineales.

La función sigmoide es adecuada para la regresión logística debido a su rango de salida limitado entre 0 y 1.

La función tangente hiperbólica es más adecuada para problemas de visión computacional y redes neuronales recurrentes.

La función ReLU es simple y efectiva, y su implementación es común en modelos de redes neuronales modernas.

Las funciones de activación son un componente clave en el diseño y el rendimiento de las redes neuronales.

La sesión concluye con una revisión de las funciones de activación y su importancia en el aprendizaje profundo.

Transcripts

play00:00

hola estimados estudiantes en esta

play00:03

sesión lo que vamos a ver es como seguro

play00:05

ya lo vieron en el título las funciones

play00:07

de activación y lo que vamos a ver es

play00:09

qué rol es el que están fungiendo dentro

play00:13

de las redes neuronales

play00:14

también veremos algunos tipos de

play00:16

funciones de activación y pues algunos

play00:19

consejos de cuando aplicarlas así es que

play00:21

pues vamos al contenido

play00:23

y lo primero es que veamos por qué

play00:25

necesitamos estas funciones de

play00:27

activación vamos a recordar un poco qué

play00:29

es lo que está pasando dentro de una

play00:32

neurona de la red

play00:35

y entonces lo que podemos recordar es

play00:37

que el ojito se calcula como ya lo hemos

play00:41

visto en sesiones pasadas

play00:46

como una combinación lineal

play00:48

de los pesos con las entradas más el

play00:52

sesgo pues tenemos una combinación línea

play00:54

esto estaría representado dentro de una

play00:58

sola neurona pero podríamos tener

play01:01

múltiples neuronas

play01:03

y entonces cada uno de los resultados de

play01:07

estas neuronas pasarían

play01:09

a su vez por cada una de las capas así

play01:12

tengamos n capas y resulta que si

play01:16

nosotros aplicamos únicamente estas

play01:18

combinaciones lineales a pesar de que

play01:21

tengamos varias capas el resultado sigue

play01:24

siendo lineal la demostración no la

play01:25

vamos a poner aquí pero existe la

play01:27

demostración y por aquí voy a poner la

play01:29

referencia y entonces

play01:31

podríamos representar una serie de capas

play01:35

como una sola capa si es que no hacemos

play01:39

otras operaciones que no sean esta

play01:42

operación lineal básica que nosotros

play01:44

estamos especificando por lo tanto

play01:49

es necesario que tengamos ciertas

play01:51

funciones que rompan con la linealidad

play01:53

de esta representación o de este modelo

play01:56

y entonces pues es ahí donde entran las

play01:59

funciones de activación por lo tanto ya

play02:01

la salida de una neurona ya no es sólo

play02:05

el ojito sino tenemos una función de

play02:08

activación que recibe ese lógico

play02:10

entonces esta función efe que nosotros

play02:14

estamos especificando es la función de

play02:16

activación y debe ser no lineal dicho

play02:18

eso pues vamos a pasar a ver algunos

play02:21

ejemplos y el primero es el de la

play02:23

regresión logística entonces recordemos

play02:26

que la regresión la logística la

play02:28

resolvemos con la cig moi de pongamos

play02:31

por acá

play02:33

sigmoide

play02:35

y esta función se mueve

play02:40

tenemos como una función que que recibe

play02:43

x que se define como uno entre uno más a

play02:47

la menos x

play02:49

esta es la definición sigmoide y por lo

play02:52

tanto lo que tenemos como entrada es que

play02:54

recibe el valor x

play02:57

bueno podemos poner ahí h pero y te

play02:59

estamos colocando x

play03:02

entonces el lógico pasa por esta función

play03:04

no lineal y da la salida de ella bueno

play03:07

entonces estamos trasladando la equis

play03:10

hacia un nuevo dominio para graficar la

play03:14

pues vamos a traerla de algún lado y la

play03:17

vamos a pegar aquí en 321 y listo

play03:21

tenemos aquí nuestra gráfica de la

play03:23

función sigma

play03:25

entonces lo que podemos observar es que

play03:27

el valor de los hits pues puede estar

play03:30

aquí dentro de las artistas de esta

play03:33

gráfica entonces podemos tener pues todo

play03:36

el dominio completo de los números

play03:38

reales aquí para nuestro logic sin

play03:41

embargo ya lo que estamos limitando es

play03:43

el dominio de la función es decir cuál

play03:46

va a ser el resultado de pasar por esta

play03:49

función de activación y entonces podemos

play03:51

ver que pues ya las salidas de la

play03:53

función de activación sólo van a estar

play03:55

entre 0 y 1 y es por eso que se usa

play03:58

también dentro de la regresión logística

play04:00

porque ya nos está entregando valores de

play04:02

0 que serían o activado y uno que sería

play04:04

activado también lo que podemos observar

play04:06

es que tenemos un

play04:09

intervalo en el cual la función no es

play04:13

precisamente cercana a 1 cercana a hacer

play04:16

que y entonces esto es el intervalo que

play04:20

podemos tener aquí en donde va a pasar

play04:23

desde 0 hasta 1 podemos también analizar

play04:27

qué pues independencia de cuál sea el

play04:30

valor de lógico que resulta de la

play04:32

combinación lineal que viene de la

play04:35

neurona vamos a poner que estamos por

play04:37

aquí el ojito entonces podemos tener un

play04:40

valor en nuestra función de activación

play04:43

al momento que nosotros calculamos el

play04:46

gradiente

play04:47

vamos a tener algo así si lo que

play04:50

deseamos es que este valor se vaya a

play04:53

cero entonces sabemos que debemos de

play04:56

mover

play04:57

nuestros pesos para un lado si deseamos

play05:02

que entonces el valor de salida se vaya

play05:06

hacia uno juntos tenemos que mover los

play05:09

valores de los pesos hacia el otro lado

play05:12

entonces estos estos puntos

play05:15

nos van a servir para que el gradiente

play05:19

nos indique hacia dónde tenemos que

play05:22

ajustar los pesos para que podamos

play05:25

obtener la salida adecuada por pues esto

play05:28

pero bueno pues podemos ver también que

play05:30

tiene ciertas limitaciones y en algunos

play05:34

casos no queremos simplemente que

play05:36

nuestra función esté limitada entre 0 y

play05:39

1 sino tal vez nos conviene un rango un

play05:42

poco más amplio entonces para eso existe

play05:45

la función que se denomina tangente

play05:51

hiperbólica sólo la voy a representar

play05:53

con

play05:54

h no me la sé de memoria así es que pues

play05:58

utilicemos la documentación de pai torch

play06:03

entonces vamos a definir nuestra función

play06:07

efe de x como

play06:13

a la x - al menos x

play06:20

entre a la x más de al menos x

play06:27

y entonces esa es nuestra definición de

play06:29

nuestra función de activación tangente

play06:31

hiperbólica y tiene una particularidad

play06:34

lo vamos a ver a través de la gráfica

play06:38

y listo aquí tenemos nuestra gráfica

play06:40

vamos a pasarla

play06:45

ok lo que podemos observar de esta

play06:48

tangente y por bolt y acá es que ahora

play06:51

el co dominio de la función o podemos

play06:54

decir a dónde va el resultado de nuestra

play06:57

función

play06:58

está entre menos uno y uno entonces

play07:03

expandimos hacia dónde van los

play07:05

resultados de nuestra función de activa

play07:08

por lo tanto la salida de cada neurona

play07:12

que nosotros

play07:13

coloquemos con esta función de

play07:16

activación pues va a tener salidas entre

play07:18

menos uno y uno estamos ampliando un

play07:21

poco ese intervalo en el cual están

play07:24

funcionando nuestras redes neuronales

play07:28

y digamos que de forma empírica suele

play07:30

funcionar mejor esta función tangente

play07:33

hiperbólica para problemas de

play07:35

visión computacional este de redes

play07:39

neuronales recurrentes bueno pero si ya

play07:43

y éste no hay una regla dura que diga

play07:44

que va a funcionar mejor una u otra

play07:47

función de activación ahora un problema

play07:50

común para estas dos funciones de

play07:53

activación es el problema del

play07:56

desvanecimiento del gradiente y esto va

play07:59

a pasar cuando nosotros estamos

play08:00

utilizando el algoritmo de retro

play08:02

propagación en donde pues ya los

play08:06

gradientes como se van multiplicando en

play08:08

cada una de esas capas conforme vamos

play08:11

llegando hacia el inicio pues se van

play08:13

haciendo más pequeños porque estos

play08:15

valores son menores a cero y además

play08:18

también podemos ver

play08:20

y vamos a suponer que

play08:23

nosotros tenemos pues un valor de lógica

play08:26

por acá y el resultado de nuestra

play08:29

función de activación está por acá

play08:33

y lo que nosotros deseamos es que en

play08:35

realidad el resultado de esta función de

play08:37

activación esté

play08:38

aquí en -1 no ahorita no está dando un 1

play08:42

porque se está activando pero en

play08:44

realidad nosotros que decimos que no se

play08:45

active para este valor de entrada que es

play08:49

lo que estaría pasando es que pues se

play08:51

calcula aquí cuál es el gradiente pero

play08:55

ese gradiente está en una superficie que

play08:57

es casi plana por lo tanto el valor que

play09:01

estamos calculando del creyente va a ser

play09:03

cercano a 0 muy cercano a 0 y entonces

play09:06

el movimiento para ajustar nuestro peso

play09:09

pues va a ser muy pequeñito

play09:13

no tanto si estuviéramos por ejemplo por

play09:15

acá porque sabemos que si queremos irnos

play09:17

para el otro lado pues este gradiente es

play09:19

mayor recordemos que agredirte es como

play09:21

la pendiente entonces aquí nos vamos a

play09:23

ver rápido en estos puntos nos vamos a

play09:25

ver más lento

play09:27

entonces pues vamos a tener problemas

play09:30

para estar entrenando este tipo de revés

play09:32

cuando ya son muy grandes para eso pues

play09:36

vamos a ver una tercera función de

play09:38

activación que sería la reloj

play09:45

o rectifique dinero y unit en inglés

play09:49

este tipo de funciones de activación

play09:51

aparece en este paper de nair y hinton

play10:01

el 2010

play10:04

en 2010 en esta conferencia

play10:09

bueno pues resulta que

play10:11

tiene ciertas propiedades que disminuyen

play10:14

este

play10:15

desvanecimiento del gradiente y entonces

play10:19

bueno ahí está el paper para que le den

play10:21

una revisada después con más detalle

play10:26

de hecho estás este

play10:29

este tipo de funciones de activación ya

play10:31

se utilizaron en lo que fue álex net y

play10:35

que pues bueno ya sabemos que fue toda

play10:39

todo un evento de esta red de álex

play10:44

bueno

play10:46

podemos definir esta función de

play10:48

activación como

play10:51

efe de x es igual a el máximo en 30 y x

play10:59

entonces es una definición bastante

play11:01

sencilla

play11:04

y pues bueno vamos a poner su gráfica

play11:09

y listo vamos a vamos a verle para acá

play11:17

entonces tenemos

play11:19

esta función de activación reloj y si

play11:22

nosotros analizamos qué es lo que está

play11:24

pasando pues podemos ver que para esta

play11:27

parte del dominio de la función pues

play11:30

tenemos

play11:32

el valor de salida cómo hacer que

play11:35

entonces todo lo que esté de un lado lo

play11:39

que estamos haciendo es ponerlo a cero

play11:41

es decir no se está activando nuestra

play11:44

neurona

play11:45

por otro lado cuando el valor de entrada

play11:50

de la función es positivo pues lo que

play11:54

devolvemos en la función es ese mismo

play11:56

valor que entonces tenemos aquí una

play11:58

pendiente igual a 1 y esto éste se

play12:01

mantiene para todos los valores que

play12:02

podamos tener aquí hacia la derecha

play12:05

entonces podemos ver que a pesar de que

play12:08

nos encontremos lejos de este valor

play12:10

central de 0 pues podemos saber cuál es

play12:14

ese gradiente en todo momento y entonces

play12:17

esto va a hacer que podamos entrenar la

play12:19

red más rápido

play12:22

entonces bueno pues el resultado de esta

play12:25

tercera función de activación es que

play12:27

funciona muchísimo mejor para problemas

play12:29

de visión computacional y para los

play12:32

problemas donde tenemos bastantes capas

play12:34

porque sobre todo en la extracción de

play12:37

características funciona bastante bien y

play12:39

en las redes neuronales convolución al

play12:41

es para algunas redes

play12:44

recurrentes funcionan mejor que las

play12:47

otras funciones de activación previas ya

play12:49

sea para que tipper bolita o sigmoide

play12:52

bueno hasta aquí vamos a dejarle con la

play12:56

revisión de estas funciones de

play12:57

activación pero bueno lo que podemos

play13:00

tener como

play13:02

síntesis es que estas funciones de

play13:05

activación nos permiten romper con la

play13:07

linealidad que tienen los productos

play13:10

punto y entonces eso hace que podamos

play13:13

representar funciones más complejas que

play13:16

le damos capacidad a nuestra red

play13:18

neuronal de representar funciones no

play13:21

lineales la selección de ésta

play13:24

función de activación pues no hay una

play13:26

regla clara de cuál es la que debemos

play13:28

seleccionar es una cosa también empírica

play13:31

que depende mucho del problema que se

play13:33

esté atacando pero en general digamos

play13:35

que estas son las que éste funcionan

play13:37

mejor en la práctica así es que bueno

play13:40

pues aquí vamos a dejarle a esta sesión

play13:42

rápida y nos veríamos en otra sesión con

play13:47

estos temas de redes neuronales y

play13:50

aprendizaje profundo

Rate This

5.0 / 5 (0 votes)

Related Tags
Funciones de ActivaciónRedes NeuronalesAprendizaje ProfundoSigmoideTangente HiperbólicaReLULinealidadOptimizaciónGradienteRetropropagaciónVisión Computacional
Do you need a summary in English?