Heroes of Deep Learning: Andrew Ng interviews Geoffrey Hinton

Preserve Knowledge

8 Aug 201739:45

Summary

TLDR在这段深入的访谈中，深度学习领域的先驱Jeff Hinton分享了他个人的故事以及对人工智能和机器学习的贡献。Hinton从高中时期对大脑如何存储记忆的好奇开始，经历了学习生理学、物理学、哲学和心理学的转变，最终在爱丁堡大学投身于人工智能研究。他坚持自己对神经网络的信念，即使在遭遇反对和职业挑战时也未曾放弃。Hinton详细讨论了他与David Rumelhart和Ron Williams共同开发反向传播算法的历史，以及他们如何克服困难在《自然》杂志上发表有关词向量和语义特征学习的论文。此外，Hinton还探讨了他对深度信念网络、变分方法和玻尔兹曼机的研究，以及他对深度学习未来的看法，包括对胶囊网络的当前研究，这是一种新的神经网络结构，旨在提高模型的泛化能力。他还提供了对有志于进入深度学习领域的人们的建议，强调了直觉的重要性和持续编程的必要性。

Takeaways

🧠 对深度学习的贡献：杰夫·辛顿（Geoff Hinton）被誉为深度学习之父，对深度学习领域做出了巨大贡献。
📚 个人故事：辛顿的学术兴趣始于高中时期，对大脑如何存储记忆的好奇心引导他进入了人工智能和机器学习领域。
🔄 学术转变：辛顿在剑桥大学学习生理学和物理学，后转向哲学，最终选择了心理学，但发现心理学理论无法充分解释大脑的工作方式，于是转向了人工智能。
🤝 合作与冲突：在爱丁堡大学与他人就神经网络和符号AI的研究方向有过争论，但他坚持自己对神经网络的信念。
📈 神经网络的复兴：在20世纪80年代，辛顿与David Rumelhart和Ron Williams共同开发了反向传播算法，尽管这一算法之前已有人发明，但他们的工作推动了社区对这一算法的接受。
🏆 重要成就：辛顿特别自豪的成就是与Tero Aila和Yoshua Bengio在玻尔兹曼机上的工作，以及受限玻尔兹曼机和深度置信网络的开发。
🔧 技术创新：辛顿对ReLU（Rectified Linear Unit）的工作表明，它几乎等同于一系列逻辑单元的堆叠，这一发现对ReLU的普及起到了推动作用。
🧐 大脑与学习算法：辛顿认为，如果反向传播是一个优秀的学习算法，那么进化过程中很可能已经实现了它的某种形式，尽管可能不是完全相同。
📉 多时间尺度处理：辛顿讨论了他在深度学习中处理多时间尺度问题的想法，包括他在1973年提出的“快速权重”概念。
⚙️ 胶囊网络：辛顿正在推动胶囊网络的概念，这是一种新的深度学习网络结构，旨在更好地处理多维实体和提高模型的泛化能力。
📚 研究建议：辛顿建议新研究者阅读适量的文献以形成直觉，然后信任并追随这些直觉，即使它们可能与主流观点相悖。

Q & A

杰夫·辛顿（Geoff Hinton）在高中时期是如何对人工智能和神经网络产生兴趣的？
-在高中时，杰夫·辛顿的一个同学向他介绍了全息图的概念，以及大脑可能使用全息图方式存储记忆的理论。这激发了他对大脑如何存储记忆的好奇，从而对人工智能和神经网络产生了兴趣。
辛顿在剑桥大学最初学习了哪些科目？
-辛顿在剑桥大学最初学习了生理学和物理学，他是当时唯一一个同时修这两个学科的本科生。
在辛顿的研究生涯中，他是如何从心理学转向人工智能领域的？
-辛顿最初对心理学感兴趣，但后来觉得心理学的理论过于简单，无法充分解释大脑的工作机制。之后他尝试了哲学，但发现哲学缺乏辨别真伪的方法。最终，他决定转向人工智能领域，并前往爱丁堡大学学习。
辛顿在加州的研究环境与英国有何不同？
-在英国，神经网络被视为过时的东西，而在加州，人们如唐纳德·诺曼（Don Norman）和大卫·鲁梅尔哈特（David Rumelhart）对神经网络的想法非常开放，这使得辛顿能够更自由地探索和研究。
辛顿和大卫·鲁梅尔哈特是如何发展出反向传播算法的？
-辛顿、鲁梅尔哈特和罗恩·威廉姆斯（Ron Williams）共同发展了反向传播算法，尽管后来发现其他研究者也独立发明了这一算法，但辛顿他们的工作帮助社区广泛接受了这一算法。
反向传播算法为何在1986年的论文中得到了广泛接受？
-辛顿和同事们在1986年的论文中展示了反向传播算法能够学习词汇的表示，并且通过这些表示可以理解单词的语义特征。这篇论文被《自然》杂志接受，标志着反向传播算法被广泛接受的转折点。
辛顿认为他在神经网络和深度学习领域中哪项工作最美丽？
-辛顿认为他与特里·西诺西（Teresi Hinton）在玻尔兹曼机上的工作最美丽。他们发现了一个简单的学习算法，适用于大型密集连接网络，并且每个突触只需要知道与之直接相连的两个神经元的行为。
受限玻尔兹曼机（Restricted Boltzmann Machines, RBMs）在实际应用中有哪些成功案例？
-受限玻尔兹曼机在Netflix的比赛中被用作获胜算法的一部分。此外，从2007年开始，受限玻尔兹曼机和深度受限玻尔兹曼机的工作对神经网络和深度学习的复兴起到了重要作用。
辛顿与布拉德福德·尼尔（Bradford Neal）在变分方法上做了哪些工作？
-辛顿和尼尔在变分方法上的工作表明，不需要进行完美的期望最大化（EM）算法，可以通过进行近似的EM来大幅提高算法的效果。他们还在1993年发表了第一篇变分贝叶斯方法的论文，展示了如何通过高斯分布来近似真实的后验，并在神经网络中实现这一过程。
辛顿对ReLU（Rectified Linear Unit）激活函数的看法是什么？
-辛顿认为ReLU激活函数与一系列逻辑单元（logistic units）几乎等效，这有助于ReLU的普及。他还提到了在Google的一次演讲中，他展示了如何使用ReLU和单位矩阵初始化来训练具有300个隐藏层的网络，并且能够非常高效地进行训练。
辛顿如何看待胶囊（capsules）的概念，以及它在深度学习中的作用？
-辛顿认为胶囊是一种新的表示方法，它能够表示具有多个属性的特征实例。胶囊通过“通过协议的路由”（routing by agreement）来实现特征的组合，这可能对提高神经网络的泛化能力、处理视角变化和图像分割等方面非常有帮助。