ML Lecture 7: Backpropagation

Hung-yi Lee

29 Oct 201631:26

Summary

TLDR视频讲解了神经网络训练中backpropagation算法的原理和过程。它通过链式规则把神经网络整个损失函数对网络参数的偏导数分解成每一步的偏导数的乘积,通过正向计算每一步的偏导数,然后反向把每一步的偏导数相乘就可以高效计算损失函数对参数的偏导数,从而更新网络参数实现训练。这样可以显著提高大规模神经网络训练的效率。

Takeaways

😊 講解了神經網絡的訓練過程中,如何通過反向傳播算法來有效計算Loss函數對網絡参数的梯度
😃反向傳播算法基於鏈式法則進行,包含正向傳播和反向傳播兩個過程
🧐正向傳播計算每個activation對input的偏微分,反向傳播計算cost對activation的偏微分
🤔反向傳播構建了一個反方向的神經網絡,激活函數為常數倍乘器
🥳反向傳播的計算量和正向傳播相當,但計算方向反過來更有效率
😎反向傳播等效於構建一個反向的神經網絡進行梯度計算
🤩正向傳播快速計算activation output,用於反向傳播中的激活函數常數
🧐鏈式法則是理解反向傳播算法的關鍵
😄反向傳播讓神經網絡的訓練變得更有效率
🥰Gradient Descent配合反向傳播可以訓練大規模的深度神經網絡

Q & A

什么是Backpropagation算法?
-Backpropagation算法是一种高效计算神经网络中误差相对于每个权重(weight)偏导数的方法。它基于链式法则,通过正向传播和反向传播计算每个节点的偏导数。
为什么要计算每个权重的偏导数?
-要基于梯度下降法更新网络中的权重参数,需要知道每个权重对总误差的偏导数,才能朝误差减小的方向更新权重。
正向传播和反向传播分别计算什么?
-正向传播计算每个节点输出对其输入的偏导数;反向传播计算每个节点的误差偏导数。
反向传播为何从输出层开始?
-从输出层开始计算误差偏导数,然后逐层向前传播,这样计算效率更高,与正向传播的计算量相当。
三角形节点和圆形节点有什么区别?
-三角形节点直接把输入乘以一个常数后输出,而圆形节点会把输入通过一个非线性函数转换后输出。
为什么要反向建立一个神经网络?
-反向传播就是反向建立一个与原网络结构相同的网络,来高效计算每个节点的误差偏导数。
正向传播如何计算偏导数?
-正向传播中,每个节点输出就是其前一连接权重相对于该节点输入的偏导数。
反向传播的激活函数从何而来?
-反向传播网络的每个三角形节点的放大系数,就是原网络中对应节点的激活函数的导数。
为什么反向传播计算量与正向传播相当?
-因为反向传播就是建立一个和原网络结构相同,方向相反的网络进行计算。
反向传播的目标是什么?
-反向传播的目标是高效计算原网络中每个权重对最终误差的偏导数。