Intro to Supported Workloads on the Databricks Lakehouse Platform

Databricks
23 Nov 202220:57

Summary

TLDRDas Databricks Lakehouse-Plattform ist eine innovative Lösung, die Datenanalyse, -transformation und -orchestrierung vereint. Sie unterstützt SQL-Analysen, BI-Aufgaben und bietet in Echtzeit Geschäftsinsights. Durch automatisierte ETL-Pipelines, Delta Live Tables und Databricks-Workflows ermöglicht die Plattform effiziente Dateningestion, -transformation und -orchestrierung. Datenanalysten und -ingenieure können auf einer Plattform zusammenarbeiten, was zu schnellen und zuverlässigen Analysen führt. Die Plattform reduziert Infrastrukturkosten und bietet eine einheitliche Governance, um Datenqualität und -sicherheit zu gewährleisten.

Takeaways

  • 🌟 Databricks Lakehouse-Plattform unterstützt Data Warehousing-Workloads mit Databricks SQL und serverlosen SQL-Diensten.
  • 🚀 Traditionelle Data Warehouses können den Anforderungen der modernen Geschäftswelt nicht mehr gerecht werden, während Databricks Lakehouse innovative Lösungen bietet.
  • 💡 Databricks Lakehouse-Plattform reduziert Infrastrukturkosten im Schnitt um 20 bis 40 Prozent durch Cloud-Datenbanken mit größerer Skalierung und Elastizität.
  • 🧩 Die Plattform vereint Analyse- und BI-Tools, um eine vereinfachte Architektur zu ermöglichen und eine einheitliche Analyse zu unterstützen.
  • 🛠️ Dateningenieure können mit Databricks Lakehouse-Plattform Daten einfach einlesen, transformieren, verarbeiten, planen und liefern, um die Komplexität von ETL-Workflows zu automatisieren.
  • 🔍 Databricks Lakehouse bietet Delta Live Tables (DLT) an, eine ETL-Framework, das eine einfache deklarative Methode für zuverlässige Datenpipelines verwendet.
  • 📊 Databricks-Workflows ermöglichen es Datenteams, zuverlässige Datenanalyse- und Machine Learning-Workflows in jeder Cloud zu erstellen, ohne komplexe Infrastruktur verwalten zu müssen.
  • 📈 Echtzeit-Streaming-Daten sind für Unternehmen von großer Bedeutung und Databricks Lakehouse-Plattform unterstützt Streaming-Workloads für Echtzeit-Analysen, maschinelles Lernen und Anwendungen.
  • 🤖 Databricks Lakehouse-Plattform vereint Datenwissenschaft, maschinelles Lernen und Entwicklung, um Datenwissenschaftlern und ML-Ingenieuren ein umfassendes Werkzeugset zur Verfügung zu stellen.
  • 🔗 MLflow, eine Open-Source-Machine-Learning-Plattform von Databricks, ermöglicht es, Modelle zu verfolgen, zu verpacken, wiederzuverwenden und zu versionieren.
  • 🔐 Die Plattform bietet eine erstklassliche Erfahrung für Modellversionierung, Überwachung und Bedienung, wodurch die Einhaltung von Compliance- und Sicherheitsanforderungen erleichtert wird.

Q & A

  • Was ist das Databricks Lakehouse-Plattform und wie unterstützt es Data Warehouse-Workloads?

    -Die Databricks Lakehouse-Plattform ist eine umfassende Lösung, die Data Warehouse-Workloads unterstützt, indem sie Databricks SQL und serverlose SQL-Funktionen verwendet. Sie ermöglicht es Datenanalysten, ihre Analysetests an einem Ort durchzuführen und Echtzeit-Geschäftsinformationen zu liefern. Die Plattform vereint Analyse- und Architektur, reduziert Infrastrukturkosten und bietet eine einheitliche Verwaltung und Kontrolle über Delta Lake.

  • Welche Vorteile bietet die Databricks Lakehouse-Plattform für Unternehmen?

    -Die Databricks Lakehouse-Plattform bietet eine Reihe von Vorteilen, darunter die beste Leistung zu einem kostengünstigen Preis, Cloud-Datenbanken mit größerer Skalierung und Elastizität, um mit dem schnellen Anstieg neuer Daten umzugehen, sowie eine sofortige elastische SQL-Serverlos-Berechnung, die die Gesamtinfrastrukturkosten im Schnitt um 20 bis 40 Prozent senken kann.

  • Wie unterstützt die Databricks Lakehouse-Plattform die Datengovernance?

    -Die Databricks Lakehouse-Plattform unterstützt die Datengovernance durch Delta Lake, was es ermöglicht, eine einzige Kopie aller Daten in vorhandenen Datenseen nahtlos mit einem einheitlichen Katalog zu integrieren. Dies ermöglicht die Erkennbarkeit, Sicherheit und Verwaltung aller Daten mit fine-grained Governance, Datenabstammung und standardisiertem SQL.

  • Welche BI-Tools kann man auf der Databricks Lakehouse-Plattform verwenden?

    -Die Databricks Lakehouse-Plattform ermöglicht die Verwendung bevorzugter Tools wie DBT, 5tran, Power BI oder Tableau. Dadurch können Teams schnell auf Organisationsebene zusammenarbeiten, ohne Daten verschieben oder transferieren zu müssen, was zu einem Abbau von Silos führt.

  • Wie unterstützt die Databricks Lakehouse-Plattform die Datentechnik-Arbeit?

    -Die Databricks Lakehouse-Plattform bietet eine vollständige End-to-End-Datenwarehousing-Lösung, die Datenteam und Geschäftsbenutzer durch Bereitstellung von Werkzeugen stärkt, um schnell und unkompliziert mit Daten in einer einzigen Plattform zu arbeiten.

  • Was sind die Herausforderungen im Bereich der Datentechnik?

    -Datentechnik-Teams haben die Herausforderung, Datenanalysten mit der Geschwindigkeit zu versorgen, die das Unternehmen erfordert. Daten müssen eingezogen, verarbeitet und rechtzeitig für BI vorbereitet werden, bevor sie für die Analyse genutzt werden können. Dies erfordert eine komplexe Dateningestion, Unterstützung von Datentechnik-Prinzipien wie agile Entwicklung, CI/CD und Versionskontrolle, sowie die Fähigkeit, Pipelines und Architekturen zu optimieren.

  • Wie automatisiert die Databricks Lakehouse-Plattform den ETL-Prozess?

    -Die Databricks Lakehouse-Plattform automatisiert den ETL-Prozess durch die Verwendung von Delta Live Tables (DLT), einem ETL-Framework, das einen einfachen deklarativen Ansatz für die Erstellung zuverlässiger Datenpipelines verwendet. DLT skaliert die Infrastruktur automatisch an und reduziert die Entwicklungszeit, sodass Data Analysten und Ingenieure sich auf die Wertschöpfung aus ihren Daten konzentrieren können.

  • Was ist Delta Live Tables (DLT) und wie unterstützt es die Datentransformation?

    -Delta Live Tables (DLT) ist das erste ETL-Framework, das einen einfachen deklarativen Ansatz für die Erstellung zuverlässiger Datenpipelines verwendet. DLT automatisiert die Infrastruktur, sodass Data Analysten und Ingenieure weniger Zeit mit Tooling verbringen und sich auf die Datenqualität konzentrieren können. DLT unterstützt sowohl Python als auch SQL und ist für Batch- und Streaming-Arbeitslasten geeignet.

  • Wie erleichtert die Databricks Lakehouse-Plattform die Orchestrierung von Datenworkflows?

    -Databricks Workflows ist der erste vollständig verwaltete Orchestrierungsdienst, der in der Databricks Lakehouse-Plattform eingebettet ist. Er ermöglicht es Datenteams, zuverlässige Datenanalyse- und ML-Workflows in jeder Cloud zu erstellen, ohne eine komplexe Infrastruktur verwalten zu müssen. Databricks Workflows reduziert die Betriebsüberhead für Dateningenieure und bietet eine einfache, punktuelle Erstellungserfahrung.

  • Was ist Data Streaming und wie wird dieser Workload auf der Databricks Lakehouse-Plattform unterstützt?

    -Data Streaming ist der Prozess, Echtzeit-Daten zu generieren, die von jedem Einzelnen, jedem Gerät und jeder Organisation auf der Welt stetig erzeugt werden. Die Databricks Lakehouse-Plattform ermöglicht es, Echtzeit-Analysen durch Bereitstellung von Echtzeit-Daten für Data Warehouses und BI-Tools durchzuführen, um sofortige Einblicke und schnelle Entscheidungen zu ermöglichen.

  • Welche drei Hauptgründe gibt es, die Databricks Lakehouse-Plattform für Data Streaming zu verwenden?

    -Die drei Hauptgründe für die Verwendung der Databricks Lakehouse-Plattform für Data Streaming sind die Fähigkeit, Streaming-Pipelines und -Anwendungen schnell zu erstellen, vereinfachte Betriebsabläufe durch automatisiertes Tooling und die einheitliche Verwaltung für Echtzeit- und historische Daten.

  • Wie unterstützt die Databricks Lakehouse-Plattform maschinelles Lernen und AI-Arbeiten?

    -Die Databricks Lakehouse-Plattform bietet einen Raum für Data Scientisten, ML-Ingenieure und Entwickler, um Daten zu verwenden und innovative Erkenntnisse zu gewinnen, starke Vorhersagemodelle in der Machine Learning- und AI-Umgebung zu erstellen, mit Daten an einem Ort. Sie unterstützt dabei die gesamte ML-Laufzeitumgebung, bietet Tools wie MLflow für das Tracken von Modelltrainingssitzungen und die Verwendung von AutoML für die Automatisierung des Modelltrainings und -tuning.

Outlines

00:00

📊 Data Warehouse-Workloads und Vorteile der Databricks Lakehouse-Plattform

Dieser Abschnitt des Skripts beschreibt, wie die Databricks Lakehouse-Plattform Datenwarehouse-Workloads unterstützt, insbesondere mit Databricks SQL. Es werden die Vorteile der Verwendung dieser Plattform im Kontext von Data Warehousing und Business Intelligence (BI) diskutiert, darunter die Möglichkeit, Daten in Echtzeit zu analysieren und Geschäftsentscheidungen zu treffen. Es wird auch auf die Herausforderungen eingegangen, die Unternehmen bei der Verwendung traditioneller Datenwarehouse und komplexer Architekturen für BI und Data Lakes stoßen. Die Databricks Lakehouse-Plattform bietet eine einheitliche Analyse und Vereinfachung der Architektur, um den Anforderungen des heutigen Geschäftsumfelds gerecht zu werden.

05:02

🔧 Datentechnik-Workloads und Unterstützung durch die Databricks Lakehouse-Plattform

In diesem Abschnitt wird erklärt, wie die Databricks Lakehouse-Plattform Datentechnik-Workloads unterstützt, insbesondere durch die Verwendung von Delta Live Tables und Databricks-Workflows. Es wird die Wichtigkeit von Datenqualität in der Datentechnik betont, sowie die Herausforderungen, vor denen Datentechnik-Teams bei der Bereitstellung von Datenanalysten und -wissenschaftlern stehen. Die Plattform bietet eine umfassende Lösung für die Verarbeitung von Daten, von der Einrichtung bis zur Bereitstellung, und reduziert die Komplexität der ETL-Arbeit. Es werden auch die Vorteile von Delta Live Tables und Databricks-Workflows in Bezug auf die Automatisierung und Verwaltung von Datenpipelines diskutiert.

10:02

🚀 Streaming-Daten-Workloads und ihre Unterstützung in der Databricks Lakehouse-Plattform

Der dritte Abschnitt konzentriert sich auf die Streaming-Daten-Workloads und wie sie von der Databricks Lakehouse-Plattform unterstützt werden. Es wird die Bedeutung von Echtzeit-Streaming-Daten und deren Auswirkungen auf traditionelle Datenverarbeitungsplattformen diskutiert. Die Plattform ermöglicht es, Echtzeit-Analysen, maschinelles Lernen in Echtzeit und Echtzeit-Anwendungen zu erstellen, was Unternehmen dabei unterstützt, schnelle und informierte Entscheidungen zu treffen. Es werden auch die verschiedenen Use-Cases für Echtzeit-Daten in verschiedenen Branchen wie Einzelhandel, Industrie, Gesundheitswesen und Finanzen vorgestellt.

15:04

🤖 Unterstützung von KI- und ML-Workloads durch die Databricks Lakehouse-Plattform

In diesem Abschnitt wird erläutert, wie die Databricks Lakehouse-Plattform KI- und ML-Workloads unterstützt. Es werden die Herausforderungen, die Unternehmen bei der Umsetzung von KI- und ML-Projekten antreffen, diskutiert, wie z.B. die Verwendung vieler Werkzeuge in verschiedenen Phasen des ML-Lifecycles und die Schwierigkeiten beim Deployen von Modellen in der Produktion. Die Plattform bietet eine umfassende Lösung, die Datenwissenschaftlern, ML-Ingenieuren und Entwicklern ermöglicht, Daten zu nutzen, um innovative Erkenntnisse zu gewinnen, prädiktive Modelle zu erstellen und sie in der Produktion zu serven. Es werden Tools wie MLflow und AutoML vorgestellt, die das Experimentieren, Modellieren und Serven von Modellen vereinfachen und automatisieren.

20:05

🛠️ Datentechnik-Workloads und die Rolle der Databricks Lakehouse-Plattform

Dieser Abschnitt beschreibt die Rolle der Databricks Lakehouse-Plattform bei der Unterstützung von Datentechnik-Workloads. Es wird auf die Herausforderungen eingegangen, die Datentechnik-Teams bei der Verarbeitung und Orchestrierung von Daten für BI und ML-Taske haben. Die Plattform bietet Tools wie Databricks-Workflows an, um die Orchestrierung von Datenflüssen zu erleichtern und die Komplexität zu reduzieren. Es wird auch die Unterstützung von Delta Live Tables und SQL für die Datentransformation und -orchestrierung diskutiert.

Mindmap

Keywords

💡Datenhausplattform

Die Datenhausplattform (Lakehouse Platform) ist eine fortschrittliche Datenmanagementlösung, die die Funktionen von Datenseen (Data Lakes) und Datenbanken (Data Warehouses) in einer einzigen Architektur kombiniert. Dies ermöglicht es Organisationen, sowohl strukturierte als auch unstrukturierte Daten zu speichern, zu verarbeiten und zu analysieren. Im Video wird beschrieben, wie die Databricks Lakehouse Plattform Datenlageraufgaben unterstützt und Echtzeit-Geschäftseinblicke liefert, was zeigt, dass sie speziell darauf ausgerichtet ist, die Analytik und BI-Aufgaben effizient zu handhaben.

💡Databricks SQL

Databricks SQL ist ein Werkzeug innerhalb der Databricks Lakehouse Plattform, das für SQL-Analysen und Business Intelligence (BI) Aufgaben entwickelt wurde. Es ermöglicht Datenpraktikern, ihre Datenanalyseaufgaben an einem Ort mit den SQL- und BI-Tools ihrer Wahl durchzuführen. Dies unterstützt den schnellen Zugriff auf Daten und die Erstellung von Dashboards, was im Video hervorgehoben wird, um die Leistungsfähigkeit von Databricks SQL bei der Unterstützung von Datenlagerarbeitslasten zu demonstrieren.

💡Delta Lake

Delta Lake ist eine Open-Source-Speicherschicht, die ACID-Transaktionen auf Big Data unterstützt. Im Kontext der Databricks Lakehouse Plattform ermöglicht Delta Lake eine einheitliche Datenverwaltung, indem es eine einzige Kopie aller Daten in vorhandenen Datenlakes hält. Dies wird im Video als wesentlich für die Einhaltung von Governance, Datenlinienführung und die Verwendung von Standard-SQL hervorgehoben.

💡Datenpipelines

Datenpipelines sind systematische Prozesse, die für die Extraktion, Transformation und das Laden (ETL) von Daten von einer Quelle zu einem Ziel verwendet werden. Im Video wird beschrieben, wie die Databricks Lakehouse Plattform das Erstellen und Verwalten von Datenpipelines automatisiert, um Dateningenieuren die Konzentration auf Qualität und Zuverlässigkeit zu ermöglichen. Dies unterstreicht die Bedeutung von Datenpipelines für die Datenverarbeitung und -analyse.

💡Maschinelles Lernen

Maschinelles Lernen (ML) ist ein Bereich der künstlichen Intelligenz, der es Systemen ermöglicht, aus Daten zu lernen und sich zu verbessern. Die Databricks Lakehouse Plattform unterstützt ML-Aufgaben durch Bereitstellung von Tools wie MLflow und AutoML, was die Experimentierung, Modellierung und das Deployment vereinfacht. Dies wird im Video betont, um die Effizienz und Einfachheit der ML-Projektimplementierung auf der Plattform zu zeigen.

💡ETL

ETL steht für Extraktion, Transformation und Laden, den Prozess der Verschiebung von Daten von verschiedenen Quellen in eine zentrale Datenbank, Datenlager oder Datenlake. Im Video wird erläutert, wie die Databricks Lakehouse Plattform ETL-Aufgaben automatisiert, was Datenqualitätsprüfungen und die Anpassung von Datenpipelines vereinfacht, um eine zuverlässige Datennutzung zu gewährleisten.

💡Echtzeitanalytik

Echtzeitanalytik bezieht sich auf die Fähigkeit, Daten zu analysieren, wie sie generiert werden, ohne Verzögerung. Die Databricks Lakehouse Plattform unterstützt Echtzeitanalytik durch Datenstreaming-Funktionen, die sofortige Einblicke und schnellere Entscheidungsfindung ermöglichen. Im Video wird dies als Schlüsselmerkmal hervorgehoben, das Unternehmen hilft, mit der Geschwindigkeit ihrer Industrien Schritt zu halten.

💡Datenstreaming

Datenstreaming ist der kontinuierliche Fluss von Daten in Echtzeit von einer Quelle zu einem Ziel. Die Databricks Lakehouse Plattform nutzt Datenstreaming, um Anwendungen und Analysen mit aktuellen Daten zu versorgen. Dies ermöglicht es Unternehmen, sofort auf Veränderungen zu reagieren, was im Video als wesentlich für moderne Datenverarbeitung und Analysen beschrieben wird.

💡Governance

Governance in Bezug auf Daten umfasst Richtlinien, Verfahren und Technologien, die die effektive Verwaltung von Daten innerhalb einer Organisation gewährleisten. Die Databricks Lakehouse Plattform integriert Governance-Funktionen, die eine feingranulare Verwaltung und Sicherheit der Daten ermöglichen, wie im Video diskutiert. Dies ist entscheidend für die Einhaltung von Vorschriften und den Schutz von Daten.

💡Delta Live Tables (DLT)

Delta Live Tables (DLT) ist eine ETL-Framework, das eine deklarative Methode zur Erstellung zuverlässiger Datenpipelines auf der Databricks Lakehouse Plattform bietet. DLT vereinfacht das Datenpipeline-Management durch Automatisierung der Skalierung und Wartung der Infrastruktur. Im Video wird die Bedeutung von DLT für die Datenverarbeitung und -analyse, insbesondere für die Vereinfachung und Beschleunigung der Entwicklung und Bereitstellung von Datenpipelines, hervorgehoben.

Highlights

Databricks Lakehouse platform supports data warehousing workload with Databricks SQL.

Traditional data warehouses are no longer able to keep up with modern business needs.

Data lake houses provide a solution for data warehousing workloads with features and tools that support SQL analytics and BI tasks.

Databricks Lakehouse platform offers real-time business insights at the best price for performance.

Cloud data warehouses provide greater scale and elasticity needed for handling new data.

Databricks Lakehouse platform offers instant elastic SQL serverless compute to lower infrastructure costs by 20 to 40 percent.

Delta Lake supports built-in governance with data lineage and standard SQL.

The platform allows the use of preferred BI tools like DBT, 5tran, Power BI, or Tableau for seamless collaboration.

Data engineering teams can focus on quality and reliability with the end-to-end data warehousing solution provided by the platform.

Data quality is crucial for data engineering, and the platform supports data engineering workload with various features.

Databricks Lakehouse platform simplifies modern data engineering with a unified data platform and managed data ingestion.

The platform automates the complexity of building and managing ETL pipelines and running ETL workloads.

High data quality is a goal of modern data engineering, and the platform supports this through features like Delta Live Tables and Medallion architecture.

Databricks workflows support data orchestration and provide a fully managed orchestration service for reliable data analytics and ML workflows.

The platform supports data streaming workload with real-time analytics, machine learning, and applications.

Databricks Lakehouse platform is designed to overcome challenges in harnessing machine learning and AI endeavors.

MLflow, an open-source machine learning platform, is integrated into the Databricks Lakehouse platform for model tracking and serving.

AutoML in the platform allows for low to no code experimentation and provides transparency with glass box feature.

Transcripts

play00:00

supported workloads on the databricks

play00:02

lake house platform data warehousing

play00:05

in this video you'll learn how The

play00:07

databricks Lakehouse platform supports

play00:09

the data warehousing workload with

play00:11

databrick SQL and the benefits of data

play00:14

warehousing with the databricks lake

play00:15

house platform

play00:17

traditional data warehouses are no

play00:19

longer able to keep up with the needs

play00:21

businesses in today's world and although

play00:23

organizations have attempted using

play00:25

complicated and complex architectures

play00:27

with data warehouses for bi and data

play00:29

Lakes for AI and ml too many challenges

play00:32

have come to light with those structures

play00:34

to provide value from the data in a

play00:36

timely or cost effective manner

play00:39

with the Advent of the data lake house

play00:41

data warehousing workloads finally have

play00:44

a home and the databricks lake house

play00:45

platform provides several features and

play00:47

tools to support this workload

play00:49

especially with databrick SQL

play00:52

when we refer to the data warehousing

play00:53

workload we are referencing SQL

play00:55

analytics and bi tasks such as ingesting

play00:58

transforming and querying data building

play01:01

dashboards and delivering business

play01:02

insights The databricks Lakehouse

play01:04

platform supports these tasks with

play01:06

databrick SQL and databrick serverless

play01:08

SQL

play01:09

data practitioners can complete their

play01:12

data analysis tests all in one location

play01:14

using the SQL and bi tools of their

play01:16

choice and deliver real-time business

play01:19

insights at the best price for

play01:21

performance

play01:22

organizations can unify all their

play01:24

analytics and simplify their

play01:26

architecture by using databricks SQL

play01:30

some of the key benefits include

play01:32

the best price for performance cloud

play01:35

data warehouses provide greater scale

play01:37

and elasticity needed to handle the

play01:40

rapid influx of new data and the

play01:42

databricks lake house platform offers

play01:44

instant elastic SQL serverless compute

play01:46

that can lower overall infrastructure

play01:48

costs on average between 20 to 40

play01:51

percent this also reduces or removes the

play01:54

resource management overhead from the

play01:56

workload of the data and platform

play01:58

Administration teams

play02:00

built in governance

play02:02

supported by Delta Lake the databricks

play02:04

lake house platform allows you to keep a

play02:06

single copy of all your data in your

play02:08

existing data Lakes seamlessly

play02:10

integrated with unity catalog you can

play02:12

discover secure and manage all of your

play02:15

data with fine-grained governance data

play02:17

lineage and standard SQL

play02:20

a rich ecosystem

play02:22

tools for conducting bi on data Lakes

play02:24

are few and far between often requiring

play02:27

data analysts to use developer

play02:28

interfaces or tools designed for data

play02:30

scientists that require specific

play02:32

Knowledge and Skills

play02:34

The databricks Lakehouse platform allows

play02:36

you to work with your preferred tools

play02:38

such as DBT 5tran power bi or Tableau

play02:42

teams can quickly collaborate across the

play02:45

organization without having to move or

play02:47

transfer data

play02:50

thus leading to the breakdown of silos

play02:53

data engineering teams are challenged

play02:56

with needing to enable data analysts at

play02:58

the speed a business requires data needs

play03:01

to be ingested and processed ahead of

play03:03

time before it can be used for bi The

play03:06

databricks Lakehouse platform provides a

play03:08

complete end-to-end data warehousing

play03:10

solution empowering data teams and

play03:12

business users by providing them with

play03:13

the tools to quickly and effortlessly

play03:15

work with data all in one single

play03:18

platform

play03:19

data engineering

play03:22

in this video you'll learn why data

play03:24

quality is so important for data

play03:26

engineering how the databricks

play03:28

lighthouse platform supports the data

play03:29

engineering workload

play03:31

what Delta live tables are and how they

play03:34

support data transformation and how

play03:37

databricks workflows support data

play03:38

orchestration in the lake house

play03:43

data is a valuable asset to businesses

play03:46

and it can be collected and brought into

play03:48

the platform or ingested from hundreds

play03:50

of different sources cleaned in various

play03:52

different ways then shared and utilized

play03:54

by multiple different teams for their

play03:56

projects

play03:57

the data engineering workload focuses

play03:59

around ingesting that data transforming

play04:02

it and orchestrating it out to the

play04:04

different data teams that utilize it for

play04:06

day-to-day insights Innovation and tasks

play04:09

however while the data teams rely on

play04:12

getting the right data at the right time

play04:14

for their analytics data science and

play04:16

machine learning tasks data Engineers

play04:18

often face several challenges trying to

play04:20

meet these needs as data reaches New

play04:23

Heights in volume velocity and variety

play04:26

several of the challenges to the data

play04:28

engineering workload are complex data

play04:32

ingestion methods where data Engineers

play04:33

need to use an always running streaming

play04:36

platform or keep track of which files

play04:38

haven't been ingested yet or having to

play04:41

spend time hand coding error-prone

play04:43

repetitive data ingestion tasks

play04:46

data engineering principles need to be

play04:48

supported such as Agile development

play04:50

methods isolated development and

play04:52

production environments CI CD and

play04:55

Version Control transformations

play04:57

third-party tools for orchestration

play04:59

increases the operational overhead and

play05:02

decreases the reliability of the system

play05:04

Performance Tuning of pipelines and

play05:07

architectures requires knowledge of the

play05:08

underlying architecture and constantly

play05:11

observing throughput parameters and with

play05:13

platform inconsistencies between the

play05:15

various data warehouse and data Lake

play05:17

providers businesses struggle trying to

play05:19

get multiple products to work in their

play05:21

environments due to different

play05:23

limitations workloads development

play05:25

languages and governance models

play05:29

The databricks Lakehouse platform makes

play05:31

modern data engineering simple as there

play05:34

is no industry-wide definition of what

play05:36

this means databricks offers the

play05:39

following

play05:39

a unified data platform with managed

play05:42

data ingestion schema detection

play05:44

enforcement and evolution paired with

play05:47

declarative Auto scaling data flow

play05:49

integrated with a lighthouse native

play05:51

orchestrator that supports all kinds of

play05:53

workflows

play05:56

the databricks lighthouse platforms

play05:57

gives data Engineers an end-to-end

play05:59

engineering solution for ingesting

play06:01

transforming processing scheduling and

play06:03

delivering data

play06:04

the complexity of building and managing

play06:07

pipelines and running ETL workloads is

play06:09

automated directly on the data lake so

play06:11

data Engineers can focus on quality and

play06:13

reliability

play06:15

the key capabilities of data engineering

play06:17

on the lake house include easy data

play06:19

ingestion where petabytes of data can be

play06:21

automatically ingested quickly and

play06:23

reliably for analytics data science and

play06:26

machine learning automated ETL pipelines

play06:28

help reduce development time and effort

play06:31

so data Engineers can focus on

play06:33

implementing business logic and data

play06:35

quality checks in data Pipelines

play06:37

data quality checks can be defined and

play06:39

errors automatically addressed so data

play06:41

teams can confidently trust the

play06:43

information they're using batch and

play06:45

streaming data latency can be tuned with

play06:48

cost controls without data Engineers

play06:50

having to know complex stream processing

play06:52

details

play06:53

automatic recovery from common errors

play06:55

during a pipeline operation

play06:58

data pipeline observability allows data

play07:00

Engineers to monitor overall data

play07:02

pipeline status and visibly track

play07:04

pipeline health

play07:06

simplified operations for deploying data

play07:09

pipelines to production or for rolling

play07:11

back pipelines and minimizing downtime

play07:13

and lastly scheduling an orchestration

play07:16

is simple clear and reliable for data

play07:19

processing tasks with the ability to run

play07:21

non-interactive tasks as a directed

play07:24

acylic graph on a databricks compute

play07:26

cluster

play07:29

High data quality is the goal of modern

play07:31

data engineering within the lake house

play07:33

so a critical workload for data teams is

play07:36

to build ETL pipelines to ingest

play07:38

transform and orchestrate data for

play07:41

machine learning and Analytics

play07:43

databricks data engineering enables data

play07:46

teams to unify batch and streaming

play07:48

operations on a simplified architecture

play07:50

provide modern SW engineered data

play07:53

pipeline development and testing build

play07:55

reliable data analytics and AI workflows

play07:57

on any Cloud platform and meet

play07:59

regulatory requirements to maintain

play08:01

world-class governance the lake house

play08:03

provides an end-to-end data engineering

play08:06

and ETL platform that automates the

play08:08

complexity of building and maintaining

play08:10

pipelines and running ETL workloads so

play08:13

data engineers and analysts can focus on

play08:15

quality and reliability to drive

play08:17

valuable insights

play08:19

as data loads into the Delta lake lake

play08:21

house databricks automatically infers

play08:23

the schema and involves it as the data

play08:26

comes in The databricks Lakehouse

play08:28

platform also provides autoloader and an

play08:31

optimized data ingestion tool that

play08:33

processes new data files as they arrive

play08:35

in the lake house cloud storage

play08:37

it auto detects the schema and enforces

play08:39

it on your data guaranteeing data

play08:41

quality data ingestion for data analysts

play08:43

and analytics Engineers is easy with the

play08:46

copy into SQL command that follows the

play08:48

lake first approach and loads data from

play08:51

a folder into a Delta lake table

play08:53

when run only new files from The Source

play08:56

will be processed

play08:58

data transformation through the use of

play09:00

The Medallion architecture shown earlier

play09:02

is an established and reliable pattern

play09:05

for improving data quality however

play09:07

implementation is challenging for many

play09:09

data engineering teams

play09:11

attempts to hand code the architecture

play09:14

are hard for data engineers and data

play09:16

pipeline creation is simply impossible

play09:17

for data analysts not able to code with

play09:20

spark structure streaming in Scala or

play09:22

python so even in small scale

play09:25

implementations data engineering time is

play09:27

spent on tooling and managing

play09:29

infrastructure instead of

play09:30

transformations

play09:32

Delta live tables DLT is the first ETL

play09:36

framework that uses a simple declarative

play09:38

approach to building reliable data

play09:40

pipelines DLT automatically Auto scales

play09:44

the infrastructure so data analysts and

play09:46

Engineers spend less time on tooling and

play09:48

can focus on getting value from their

play09:50

data Engineers treat their data as code

play09:52

and apply software engineering best

play09:54

practices to deploy reliable pipelines

play09:57

at scale

play09:58

DLT fully supports both Python and SQL

play10:01

and is tailored to work with bull

play10:02

streaming and batch workloads

play10:04

by speeding up deployment and automating

play10:06

complex tasks DLT reduces implementation

play10:09

time software engineering principles are

play10:12

applied for data engineering to Foster

play10:15

the idea of treating your data as code

play10:17

and Beyond Transformations there are

play10:19

many things to include in the code that

play10:21

defines your data such as declaratively

play10:23

Express entire data flows in SQL or

play10:26

python and natively enable modern

play10:28

software engineering best practices such

play10:31

as separate production and development

play10:32

environments testing before deploying

play10:34

using parameterization to deploy and

play10:36

manage environments unit testing and

play10:38

documentation unlike other products DLT

play10:41

supports both batch and streaming

play10:43

workloads in a single API reducing the

play10:45

need for Advanced Data engineering

play10:47

skills orchestrating and managing

play10:49

end-to-end production workflows can be a

play10:52

challenge if a business relies on

play10:53

external or cloud-specific tools that

play10:56

are separate from the lake house

play10:57

platform the structure also reduced the

play10:59

overall reliability of production

play11:01

workloads limits of observability and

play11:03

increases the complexity in the

play11:05

environment for end users

play11:07

databricks workflows is the first fully

play11:10

managed orchestration service embedded

play11:12

in The databricks Lakehouse platform

play11:14

workflows allows data teams to build

play11:17

reliable data analytics and ML workflows

play11:20

on any Cloud without needing to manage a

play11:22

complex infrastructure

play11:24

databricks workflows allow you to

play11:26

orchestrate data flow pipelines written

play11:28

in DLT or DBT machine learning pipelines

play11:32

and other tasks such as notebooks or

play11:34

python Wheels as a fully managed feature

play11:36

databricks workflows eliminates

play11:38

operational overhead for data Engineers

play11:41

with an easy point-and-click authoring

play11:43

experience all data teams can utilize

play11:45

databricks workflows

play11:47

while you can create workflows with the

play11:49

UI you can use the databricks workflows

play11:51

API or external orchestrators such as

play11:53

Apache airflow even with an external

play11:56

orchestrator databricks workflows

play11:58

monitoring acts like a window that

play12:00

includes externally triggered workflows

play12:02

Delta live tables is one of the many

play12:04

task types for databricks workflows and

play12:07

is where the managed data flow pipelines

play12:09

with DLT join with the easy point-click

play12:11

authoring experience of databricks

play12:13

workflows this example illustrates an

play12:16

end-to-end workflow where data is

play12:17

streamed from Twitter according to

play12:19

search terms ingested with autoloader

play12:21

using automatic schema detection and

play12:24

then cleaned and transformed with Delta

play12:26

live tables pipelines written in SQL

play12:29

finally the data is run through a

play12:31

pre-trained Bert language model from

play12:33

hugging face for sentiment analysis of

play12:36

the tweets as you can see different

play12:38

tasks for ingestion cleansing and

play12:40

transforming the data and machine

play12:41

learning are all combined in a single

play12:43

workflow using workflows tasks can be

play12:46

scheduled to provide daily overviews of

play12:48

social media coverage and customer

play12:50

sentiment

play12:51

so needless to say you can orchestrate

play12:53

anything with databricks workflows

play12:56

data streaming

play12:59

in this video you'll learn what

play13:01

streaming data is and how the data

play13:03

streaming workload in the databricks

play13:05

lake house platform is supported

play13:08

in the last few years we have seen an

play13:10

explosion of real-time streaming data

play13:12

and it is overwhelming traditional data

play13:14

processing platforms that were never

play13:16

designed with streaming data in mind

play13:19

constantly generated by every individual

play13:22

every machine and every organization on

play13:24

the planet businesses require this data

play13:26

to make necessary decisions and keep

play13:28

Pace with their respective industries

play13:30

from transactions to operational systems

play13:33

to customer and employee interactions to

play13:36

third-party data services in the cloud

play13:38

and Internet of Things data from sensors

play13:41

and devices real-time data is everywhere

play13:44

all this real-time data creates new

play13:46

opportunities to build Innovative

play13:48

real-time applications to detect fraud

play13:51

provide personalized offerings to

play13:53

customers dynamically adjust pricing in

play13:56

real time and predict when a machine or

play13:59

part is going to fail and much more

play14:02

the databricks lake house platform

play14:03

empowers three primary categories of

play14:05

streaming use cases

play14:07

real-time analysis by supplying your

play14:10

data warehouses and bi tools and

play14:12

dashboards with real-time data for

play14:14

instant insights and faster decision

play14:15

making

play14:16

real-time machine learning first with

play14:19

training of machine learning models on

play14:21

real-time data as it's coming in and

play14:23

second with the application of those

play14:25

models to score new events leading to

play14:27

machine learning inference in real time

play14:30

and real-time applications

play14:32

applications can mean a lot of things so

play14:34

this might be an embedded application

play14:36

for real-time and analytics or machine

play14:38

learning but it also could be as simple

play14:41

as that if then business rules based on

play14:44

streaming data triggering actions in

play14:46

real time

play14:48

further different Industries with have

play14:50

different use cases for streaming data

play14:53

making it highly important for the

play14:55

future of data processing and Analytics

play14:57

for example in a retail environment

play14:59

real-time inventory helps support

play15:01

business activities pricing and supply

play15:03

chain demands

play15:05

in Industrial Automation streaming and

play15:07

predictive analysis help manufacturers

play15:09

improve production processes and product

play15:12

quality sending alerts and shutting down

play15:14

production automatically if there is an

play15:16

active dip in quality

play15:18

for healthcare streaming patient monitor

play15:20

data can help encourage appropriate

play15:22

medication and Care is provided when is

play15:24

needed without delay

play15:26

for financial institutions real-time

play15:28

analysis of transactions can detect

play15:30

fraud activity and send alerts and by

play15:33

using machine learning algorithms firms

play15:35

can gain Insight from fraud analytics to

play15:38

identify patterns and there are still

play15:40

many more use cases for the value of

play15:42

streaming data to businesses

play15:47

so the top three reasons for using the

play15:49

databricks lake house platform for

play15:51

streaming data are the ability to build

play15:53

streaming pipelines and applications

play15:55

faster simplified operations from

play15:58

automated tooling and unified governance

play16:00

for real-time and historical data

play16:03

one of the key takeaways is that the

play16:05

databricks lake house platform unlocks

play16:07

many different real-time use cases

play16:09

Beyond those already mentioned giving

play16:11

you the ability to solve really high

play16:13

value problems for your business

play16:16

the databricks lighthouse platform has

play16:17

the capability to support the data

play16:19

streaming workload to provide real-time

play16:21

analytics machine learning and

play16:23

applications all in one platform

play16:26

data streaming helps business teams to

play16:28

make quicker better decisions

play16:30

development teams to deliver real-time

play16:32

and differentiated experiences and

play16:34

operations teams to detect and react to

play16:37

operational issues in real time data

play16:39

streaming is one of the fastest growing

play16:41

workloads for the lake house

play16:42

architecture and is the future of all

play16:44

data processing data science and machine

play16:47

learning

play16:48

in this video you'll learn about the

play16:50

challenges businesses face in attempting

play16:52

to harness machine learning and AI

play16:54

Endeavors and how the databricks lake

play16:56

house platform supports the data science

play16:58

and machine learning workload for

play17:00

successful machine learning and AI

play17:01

projects

play17:03

businesses know machine learning and AI

play17:06

have a myriad of benefits but realizing

play17:08

these benefits proves challenging for

play17:10

businesses brave enough to attempt

play17:11

machine learning and AI

play17:13

several of the challenges businesses

play17:15

face include siled and disparate Data

play17:18

Systems complex experimentation

play17:20

environments and getting models served

play17:23

to a production setting

play17:24

additionally businesses have multiple

play17:26

concerns when it comes to using machine

play17:28

learning such as there are so many tools

play17:31

available covering each phase of the ml

play17:33

lifecycle but unlike traditional

play17:36

software development machine learning

play17:37

development benefits from trying

play17:39

multiple tools available to see if

play17:41

results improve

play17:42

experiments are hard to track as there

play17:45

are so many parameters tracking the

play17:47

parameters code and data that went into

play17:49

producing a model can be cumbersome

play17:52

reproducing results is difficult

play17:54

especially without detailed tracking and

play17:57

when you want to release your trained

play17:58

code for use in production or even debug

play18:01

a problem reproducing past steps of the

play18:03

ml workflow is key

play18:05

and it's hard to deploy ml especially

play18:08

when there are so many available tools

play18:10

for moving a model to production and as

play18:13

there is no standard way to move models

play18:15

there is always a new risk with each new

play18:18

deployment

play18:19

The databricks Lakehouse platform

play18:21

provides a space for data scientists ml

play18:24

engineers and developers to use data and

play18:27

derive Innovative insights build

play18:29

powerful predictive models all within

play18:31

the space of machine learning and AI

play18:33

with data all in one location data

play18:35

scientists can perform exploratory data

play18:37

analysis easily in the notebook style

play18:40

experience with support from multiple

play18:42

languages and built-in visualizations

play18:44

and dashboards

play18:45

code can be shared securely and

play18:47

confidently for co-authoring and

play18:49

commenting with automatic versioning git

play18:52

Integrations and role-based access

play18:53

controls

play18:55

from data ingestion to model training

play18:58

and tuning all the way through to

play18:59

production model serving and versioning

play19:02

the databricks like house platform

play19:04

brings the tools you need to simplify

play19:06

those tasks

play19:07

the databricks machine learning runtimes

play19:09

help you get started with experimenting

play19:12

and are optimized and pre-configured

play19:14

with the most popular libraries

play19:16

with GPU support for distributed

play19:18

training and Hardware acceleration you

play19:20

can scale as needed

play19:22

ml flow is an open source machine

play19:24

learning platform created by databricks

play19:27

and is managed service within the

play19:29

databricks Lakehouse platform

play19:31

with ML flow you can track model

play19:33

training sessions from within the

play19:35

runtimes and package and reuse models

play19:37

with ease a feature store is available

play19:40

allowing you to create new features and

play19:42

reuse existing ones for training and

play19:44

scoring machine learning models

play19:46

automl allows both beginner and

play19:49

experienced data scientists to get

play19:51

started with low to no code

play19:52

experimentation automl points to your

play19:55

data set automatically trains models and

play19:57

tunes hyper parameters to save you time

play20:00

in the machine learning process

play20:01

additionally automl reports back metrics

play20:05

related to the results as well as the

play20:07

code necessary to repeat the training

play20:09

customize to your data set this glass

play20:11

box feature means you don't need to feel

play20:13

trapped by vendor lock-in

play20:16

the databricks lake house platform

play20:18

provides a world-class experience for

play20:20

model versioning monitoring and serving

play20:23

within the same platform used to

play20:25

generate the models themselves lineage

play20:27

and governance is tracked throughout the

play20:29

entire ml lifecycle so Regulatory

play20:32

Compliance and security concerns can be

play20:34

reduced saving costs down the road

play20:37

with tools like mlflow and automl and

play20:40

built on top of Delta Lake the

play20:42

databricks lake house platform makes it

play20:44

easy for data scientists to experiment

play20:46

create models and serve them to

play20:49

production and monitor them all in one

play20:51

place

Rate This

5.0 / 5 (0 votes)

Ähnliche Tags
Data-WarehousingDatabricks-SQLServerlosBI-AnalysenCloud-SkalierungDatengovernanceDelta-LakeEchtzeit-AnalysenData-EngineeringML-Workflows