Why Computers Can't Count Sometimes

Tom Scott

12 Nov 201808:44

Summary

TLDR视频解释了大规模系统计数不准确的原因,即竞争条件、缓存和最终一致性。当请求大量涌入时,系统面临着读写冲突,导致计数错误。此外,缓存机制使不同服务器的数据略有不同。所以计数数字会上下波动,但最终会趋于一致。

Takeaways

😀 计算看起来简单的事物,比如视频观看次数,实际上可能非常复杂
😊 现代大规模系统需要处理大量输入和输出,这使得准确计数变得困难
😞 数据冲突会导致计数错误,这称为竞争条件
🤔 队列和串行处理可以避免冲突,但不适合大规模系统
😏 最终一致性通过批量更新和缓存提高了规模,但计数不实时
😉 YouTube和Twitter使用事件最终一致性机制来扩展
🤨 缓存有助于减轻数据库负载,但会导致不同的计数
😕 当负载激增时,可以通过添加更多缓存服务器来扩展
😣 由于缓存和最终一致性,数值会上下波动
🙂 随着时间的推移,冲突会得到解决,数值会稳定

Q & A

为什么Twitter和YouTube上的数字有时会上下波动而不是稳定增长？
-这是因为存在称为“竞态条件”的问题，以及为了处理大规模数据而采用的“最终一致性”策略和缓存机制，导致数据更新并不是实时的，从而造成数字的上下波动。
什么是单线程编程，为什么它对于现代复杂系统来说不够用？
-单线程编程意味着计算机按照顺序执行一系列指令，一次只做一件事。对于简单任务来说足够了，但对于需要同时处理多个请求的现代复杂系统来说，单线程编程无法满足需求。
什么是竞态条件，它如何影响数据的准确性？
-竞态条件是指当代码尝试同时做两件或更多事情时，结果会根据这些操作发生的顺序而改变，而这个顺序是无法控制的。这可能导致数据不准确，比如在计数视图时出现遗漏。
什么是最终一致性，它是如何在YouTube和Twitter等平台上使用的？
-最终一致性是一种数据一致性模型，允许系统在短时间内存在不一致，但保证最终数据将变得一致。YouTube和Twitter通过在世界各地部署多个服务器，将数据更新集中在较少的时间点上，从而提高效率。
为什么数据库在处理大量请求时会遇到问题？
-单个数据库处理能力有限，接收请求、理解请求、做出更改并发送响应都需要时间，因此每秒能处理的请求数量有限。同时处理多个请求时，还可能出现数据覆盖等问题。
缓存是如何帮助减轻中央数据库的负担的？
-缓存通过存储数据副本来减少对中央数据库的直接请求。这意味着大量的读取请求可以由缓存而不是数据库本身快速处理，从而大大提高系统的效率。
为什么即使计算机在本质上是计算器，计数仍然会出现问题？
-尽管计算机擅长执行数学计算，但当涉及到大规模、复杂的系统时，数据的同步、更新和缓存等问题会导致计数不准确或延迟。
为什么有时你在YouTube或Twitter上看到的数据会随着设备的不同而改变？
-这可能是因为数据缓存和最终一致性的处理方式不同，不同的设备可能会连接到不同的服务器或缓存，导致显示的数据有所不同。
为什么对于某些操作，如购买演唱会门票，系统会采用排队机制而不是最终一致性？
-对于需要绝对数据一致性的操作，如确保不会重复销售相同座位的门票，系统会采用排队机制来逐一处理请求，确保数据的准确性。
YouTube如何确保即使在数据更新中存在延迟，也能保证广告收入和金钱的准确计算？
-尽管YouTube使用最终一致性来处理视图和其他统计数据，但对于需要准确计算的数据，如广告收入，它采取特殊措施确保数据的准确性，可能包括实时处理或优先级更高的数据更新策略。