How does storage work across Google data centers?

Google Cloud Tech

21 Jul 202104:30

Summary

TLDREn este video, se explora cómo Google maneja el almacenamiento a gran escala, separando el almacenamiento de los sistemas de producción y conectándolos a través de una red global de fibra óptica. Se destaca la importancia de la separación entre almacenamiento y cálculo, permitiendo una escalabilidad independiente y eficiencia en el procesamiento de solicitudes. Además, se menciona la arquitectura de almacenamiento distribuido, la replicación de datos y la seguridad a través del cifrado. Finalmente, se habla de las opciones de almacenamiento en Google Cloud, incluyendo SSD locales, discos persistentes zonales y regionales, y la importancia de la red de alta velocidad para garantizar un rendimiento óptimo.

Takeaways

💾 Google separa el almacenamiento de los sistemas de producción y los sistemas de computación, lo que permite una escalabilidad independiente y una mayor eficiencia en el procesamiento de solicitudes.
🌐 Los datos necesarios para una máquina no están necesariamente en la misma ubicación física, gracias a la robusta red global de fibra óptica de Google.
🔐 La seguridad es inherente en los sistemas de almacenamiento de Google, con todo dato cifrado antes de ser escrito en el disco.
🔄 Google organiza racks de almacenamiento y computación en filas, grupos y clústeres dentro de centros de datos, cada uno con su propia infraestructura de energía, enfriamiento y red.
🏭 Google ha construido su propia máquina a escala de almacén utilizando cientos de miles de máquinas relativamente económicas.
🔒 Los datos se distribuyen a través de múltiples máquinas y se comparten entre diferentes cargas de trabajo, lo que mejora la utilización de la capacidad de las máquinas y proporciona una mayor confiabilidad y rendimiento.
🗂️ Se utilizan sistemas como 'D' y 'Colossus' para exponer y administrar el acceso a las unidades de disco duro y SSD en los clústeres, asegurando la máxima utilización de la capacidad.
📚 El sistema de archivos Colossus, construido sobre 'D', es la base para servicios como Cloud Storage y Bigtable, y permite la replicación de datos a través de máquinas para una rápida recuperación y tolerancia a fallos.
🌐 Los usuarios de Google Cloud tienen la opción de almacenar datos en diferentes tipos de discos SSD, como discos persistentes locales, zonales o regionales, lo que ofrece diferentes niveles de rendimiento y disponibilidad.
🌐 La distribución de datos a través de diferentes clústeres y regiones protege los datos de fallos a nivel de zona y regional, asegurando la alta disponibilidad y resistencia.

Q & A

¿Cómo se conectan las unidades de disco duro y las unidades de estado sólido en los sistemas de producción de Google?
-Las unidades de disco duro (HDD) y las unidades de estado sólido (SSD) se despliegan por separado de las aplicaciones y se pueden almacenar en un soporte de almacenamiento dedicado, como un estante.
¿Qué ventaja tiene separar el almacenamiento de la computación en Google?
-La separación del almacenamiento de la computación permite escalar ambos recursos de manera independiente según la demanda, lo que mejora la eficiencia en el procesamiento de solicitudes.
¿Cómo organizan Google los racks de almacenamiento y computación?
-Google organiza los racks de almacenamiento y computación en filas de envoltura física, agrupando grupos de envoltura en clústeres y colocando múltiples clústeres en un solo centro de datos.
¿Qué es una máquina de escala de almacén y cómo se construye Google la suya?
-Una máquina de escala de almacén es una infraestructura de computación de gran escala. Google construye la suya a partir de cientos de miles de máquinas relativamente económicas.
¿Cómo se comparte el almacenamiento en los centros de datos de Google?
-En los centros de datos de Google, es raro dedicar un dispositivo de almacenamiento entero solo para los datos de un producto o servicio. En su lugar, se distribuye el trabajo de datos a través de múltiples máquinas y los trabajos comparten el acceso de red a ese almacenamiento.
¿Qué rol juega el cifrado en los sistemas de almacenamiento de Google?
-El cifrado es inherente en los sistemas de almacenamiento de Google, y todos los datos se cifran antes de ser escritos en el disco.
¿Cómo garantiza Google la durabilidad de los datos a pesar de los fallos periódicos de máquinas, racks o edificios enteros?
-Google construye software para hacer que los datos almacenados sean duraderos, de modo que en caso de fallo, no se pierda información.
¿Qué es el sistema 'D' y cómo funciona en el nivel de máquina?
-El sistema 'D' es un sistema que expone las unidades de disco duro y SSD conectadas a máquinas individuales a otros servicios en el clúster, gestionando el acceso a la capacidad del disco de cada máquina para maximizar la utilización.
¿Qué es el sistema de archivos Colossus y cómo se relaciona con el sistema 'D'?
-Colossus es un sistema de archivos construido por Google sobre el sistema 'D', que es la base para muchos servicios como Cloud Storage y Bigtable. Los archivos en Colossus se descomponen en un conjunto de trozos que se pueden almacenar en diferentes máquinas en el clúster.
¿Cómo se asegura la seguridad y eficiencia en el almacenamiento de datos en Google Cloud Services?
-La seguridad se asegura mediante el cifrado de cada trozo de datos, cada uno con una clave de cifrado única. La eficiencia se logra a través de la distribución de datos que mejora la utilización de la capacidad de las máquinas y proporciona una alta confiabilidad y rendimiento en los servicios de Google Cloud.
¿Qué opciones de almacenamiento ofrece Google Cloud a sus usuarios?
-Los usuarios de Google Cloud pueden almacenar datos en unidades de estado sólido locales, discos persistentes zonales que se asignan a clústeres en la misma región, discos persistentes regionales a través de regiones de nube, o incluso en buckets de almacenamiento.