The Ultimate Big Data Engineering Roadmap: A Guide to Master Data Engineering in 2024

The Engineer Guy 2.0
30 May 202417:55

Summary

TLDRThe speaker, Kash, a Data Engineer at JP Morgan in the UK, shares his journey and insights on becoming a data engineer. He outlines essential learning paths, including programming languages like Python, Scala, or Java, and frameworks like Spark for big data processing. He also covers distributed systems, databases, and real-time data processing technologies. Kash emphasizes the importance of tools like Apache Airflow for workflow management, cloud services, and communication skills. His roadmap includes learning about data modeling, ETL pipelines, and system design, suggesting resources for each and highlighting the value of data analytics skills.

Takeaways

  • 😀 The speaker, Kash, is a Data Engineer at JP Morgan in the UK and has recently moved there.
  • 🎓 Kash has a background in a Triple Honours IT degree from Una and transitioned into the Data Engineering role after college.
  • 🛠️ For aspiring Data Engineers, learning a programming language is essential, with Python, Scala, or Java being in high demand in the IT industry.
  • 🔥 Data Engineers should focus on learning data processing frameworks, particularly Spark, which is widely used for big data environments.
  • 💾 Knowledge of Hadoop ecosystem components like HDFS (Hadoop Distributed File System) and YARN (Yet Another Resource Negotiator) is crucial for data engineers.
  • 📚 Understanding of storage systems, including relational databases like MySQL, PostgreSQL, and Oracle, as well as NoSQL databases like Cassandra, MongoDB, and others, is important.
  • 🏢 Data Warehousing concepts, such as data modeling and ETL (Extract, Transform, Load) pipelines, are key areas of focus for Data Engineers.
  • 🌐 With the shift towards cloud computing, familiarity with cloud services like AWS (Amazon Web Services), GCP (Google Cloud Platform), and Azure is increasingly important.
  • 🔍 Real-time data processing technologies are gaining traction, with tools like Apache Kafka, Apache Flink, and Apache Storm being used for analytics and insights.
  • 📈 Data Engineers should be adept at using workflow management tools like Airflow for orchestrating and managing data pipelines.
  • 💬 Strong communication skills are vital for Data Engineers, as they need to understand and respond effectively to technical inquiries during interviews and in the workplace.

Q & A

  • Who is the speaker in the video and what is their profession?

    -The speaker in the video is named Kailash, and they are a Data Engineer working at JP Morgan in the UK.

  • What is the main topic of the video?

    -The main topic of the video is to provide a roadmap for becoming a Data Engineer, including the skills and technologies one should learn.

  • What programming languages are recommended for someone aspiring to be a Data Engineer?

    -The recommended programming languages for aspiring Data Engineers are Python, Scala, and Java, with a focus on Python due to its high demand in the IT industry.

  • What is the significance of Spark in the context of Data Engineering?

    -Spark is significant in Data Engineering as it is widely used for processing large volumes of data due to its efficiency and is a key technology that data engineers should learn.

  • What are some of the big data technologies and frameworks that a Data Engineer should be familiar with?

    -A Data Engineer should be familiar with technologies and frameworks such as Hadoop Distributed File System (HDFS), YARN, and resource managers like Mesos, as well as data processing frameworks like Spark.

  • What is the importance of learning about storage systems for a Data Engineer?

    -Understanding storage systems is crucial for a Data Engineer as it involves knowledge of databases, both relational and non-relational, which are essential for managing and processing data efficiently.

  • What is Data Warehousing and why is it important for Data Engineers?

    -Data Warehousing is the concept of collecting and managing large amounts of data in a way that facilitates easy access and analysis. It is important for Data Engineers to understand as it is a key component in big data engineering.

  • What is the role of Apache Airflow in Data Engineering projects?

    -Apache Airflow is used for orchestrating and managing workflows in Data Engineering projects. It helps in scheduling and monitoring the data pipelines, ensuring the tasks are executed in the correct order and dependencies are managed.

  • What are some of the cloud services that a Data Engineer should have knowledge of?

    -A Data Engineer should have knowledge of at least one cloud service such as Amazon Web Services (AWS), Google Cloud Platform (GCP), or Microsoft Azure, as cloud computing is increasingly becoming a standard in the industry.

  • Why is learning about real-time data processing important for a Data Engineer?

    -Learning about real-time data processing is important as it allows Data Engineers to process and analyze data as it is generated, enabling faster insights and decision-making, which is valuable in many industries.

  • What is the role of communication skills in the context of a Data Engineer's job?

    -Communication skills are essential for a Data Engineer to effectively understand and respond to the needs of the team and stakeholders. It involves not only speaking fluently but also expressing complex technical concepts in simple terms.

Outlines

00:00

😀 Introduction to the Data Engineering Journey

The speaker, Kash, introduces himself as a Data Engineer at JP Morgan in the UK and discusses his journey of landing the job in the UK. He provides a link in the description and a button for viewers to watch his previous video detailing how he got the job. Kash then outlines the roadmap he followed to become a Data Engineer, including the skills and technologies he learned, and promises to share a comprehensive guide for aspiring Data Engineers in the video.

05:00

👨‍🏫 Essential Skills for Aspiring Data Engineers

Kash delves into the essential skills required for a Data Engineer role, emphasizing the importance of learning programming languages like Python, Scala, or Java. He mentions the significance of understanding data processing frameworks, big data environments, and technologies used in the field such as Spark, Hadoop Distributed File System (HDFS), YARN, and resource managers. Kash advises viewers to follow a particular roadmap that includes learning these technologies to enhance their employability as Data Engineers.

10:01

🔍 Exploring Data Storage Systems and Big Data Engineering

The speaker discusses the necessity of understanding various data storage systems and databases, including relational and non-relational databases like MySQL, MongoDB, Oracle, and others. He highlights the importance of data warehousing and technologies like Hive, which is part of the big data ecosystem. Kash also mentions cloud computing and the need to be familiar with cloud services, especially Amazon Web Services (AWS), as they are increasingly in demand for Data Engineers.

15:01

🚀 Advanced Topics for Data Engineers

Kash introduces advanced topics such as real-time data processing and the technologies involved, including Apache Kafka, Apache Flink, and others. He explains the importance of these technologies in providing insights and value to businesses through immediate data analysis. The speaker also touches on the concept of data pipelines and the orchestration of workflows using tools like Airflow, which is crucial for managing data workflows and dependencies.

📘 Broadening Knowledge in Data Engineering

The speaker emphasizes the importance of having a broad knowledge base in Data Engineering, including understanding data modeling, ETL pipelines, system design, and the use of tools like Apache Airflow for workflow management. He also mentions the need to learn about cloud computing and the significance of being familiar with at least one cloud service provider. Kash encourages viewers to focus on learning these technologies to increase their chances of landing a job in the field.

🌐 Additional Tools and Soft Skills for Data Engineers

Kash suggests that aspiring Data Engineers should also learn about additional tools and technologies such as Apache Airflow for data orchestration, as well as soft skills like communication. He explains that good communication skills are essential for understanding technical discussions and explaining complex concepts in simple terms. The speaker also advises on the importance of continuous learning and staying updated with the latest tools and technologies in the field.

Mindmap

Keywords

💡Data Engineer

A Data Engineer is a professional who specializes in the infrastructure that supports the collection, storage, and management of large volumes of data. In the video, the speaker discusses their journey and the skills required to become a Data Engineer, emphasizing the importance of this role in handling big data environments.

💡Data Processing Frameworks

Data Processing Frameworks refer to the tools and technologies used to process and analyze large datasets. The video mentions frameworks like Apache Spark, which is used for big data processing, and highlights the necessity for a Data Engineer to understand these frameworks to manipulate and derive insights from data.

💡Hadoop Ecosystem

The Hadoop Ecosystem encompasses a set of open-source tools and utilities designed to handle distributed storage and processing of big data. The script discusses components of the Hadoop ecosystem such as HDFS and YARN, which are critical for a Data Engineer to manage distributed computing and storage tasks.

💡Python Programming

Python is a high-level programming language widely used for general-purpose programming, and it is essential for Data Engineers due to its simplicity and the powerful libraries it offers for data manipulation. The video script suggests learning Python as one of the key steps in preparing for a Data Engineering role.

💡Data Modeling

Data Modeling is the process of creating a representation of data structures and their relationships in a database. The script touches on the importance of understanding data modeling for a Data Engineer, as it is crucial for designing and optimizing the way data is stored and retrieved.

💡ETL Pipeline

ETL stands for Extract, Transform, and Load, which is a process used to aggregate data from different sources, transform it into a suitable format, and load it into a database or a data warehouse. The video script explains the concept of ETL pipelines as a fundamental aspect of a Data Engineer's responsibilities.

💡Apache Airflow

Apache Airflow is an open-source tool used for orchestrating complex data workflows. The script mentions Airflow as a crucial tool for managing ETL pipelines, emphasizing its role in the workflow management for Data Engineers.

💡Cloud Computing

Cloud Computing refers to the delivery of computing services, including storage, processing power, and databases, over the internet. The video discusses the growing importance of cloud computing in the field of Data Engineering, as more companies are moving their infrastructure to cloud platforms.

💡Data Warehousing

Data Warehousing is the process of collecting, storing, and managing large amounts of data in a centralized repository. The script highlights the significance of understanding data warehousing concepts for a Data Engineer, especially in the context of big data and analytics.

💡Real-time Data Processing

Real-time Data Processing involves processing data as it is generated or received, without any significant delay. The video script discusses the importance of real-time data processing technologies like Apache Kafka and Apache Storm, which are used for immediate data analysis and decision-making.

💡Data Analytics

Data Analytics is the process of examining data sets to draw conclusions about the information they contain. The speaker in the video suggests that having a basic understanding of data analytics can be beneficial for a Data Engineer, as it complements their technical skills with analytical thinking.

Highlights

Introduction of the speaker, Kash, a Data Engineer at JP Morgan in the UK.

The speaker has recently moved to the UK and shares his job acquisition journey in a previous video.

The video discusses a roadmap for aspiring Data Engineers.

Emphasis on learning programming languages, specifically Python, Scala, or Java for Data Engineering roles.

Importance of understanding Data Processing Frameworks and Big Data Environments in the IT industry.

Discussion on Apache Spark as a prevalent tool for Data Processing.

Explanation of HDFS (Hadoop Distributed File System) as part of the Big Data ecosystem.

Introduction to YARN as a resource manager in the distributed computing environment.

The necessity of knowledge in storage systems and databases for Data Engineers.

Mention of relational databases like MySQL, PostgreSQL, and Oracle.

Highlighting the need to understand NoSQL databases such as Cassandra, MongoDB, and others.

Introduction of Data Warehousing and the concept of Data Lakes.

The significance of cloud computing and platforms like Snowflake in modern data engineering.

Real-time Data Processing as an emerging field in data engineering.

Apache Kafka and other technologies for real-time data streaming and processing.

The role of ETL (Extract, Transform, Load) pipelines in data engineering workflows.

Airflow as an open-source tool for orchestrating and managing data pipelines.

Importance of understanding Cloud Services such as AWS, GCP, and Azure for Data Engineers.

The necessity of overall knowledge in Data Modeling and System Design for Data Engineers.

Introduction of Scope as a technology for data import and export between different systems.

Emphasis on the importance of communication skills in the IT industry and interviews.

The video concludes with advice on continuous learning and preparation for technical interviews.

Transcripts

play00:00

दोस्तों मेरा नाम कैश है और मैं जेपी

play00:02

मॉर्गन में डाटा इंजीनियर की जॉब करता हूं

play00:05

यूके में आए हुए मुझे न महीने हो गए और एक

play00:08

वीडियो में मैंने बता रखा है कि मुझे यूके

play00:11

में जॉब कैसे मिली उसका लिंक आपको

play00:13

डिस्क्रिप्शन में और आई बटन में देखने को

play00:16

मिल जाएगा वहां पर क्लिक करके आप मेरी

play00:18

पिछली वीडियो देख सकते हो लेकिन दोस्तों

play00:21

आज की इस वीडियो में हम बात करने वाले हैं

play00:23

कि अगर आप डाटा इंजीनियर बनना चाहते हो या

play00:27

फिर मैं अपनी बात करूं तो मुझे डाटा

play00:29

इंजीनियर की जॉब लेनी थी तो मुझे

play00:32

क्या-क्या चीजें पढ़नी पड़ी कैसे मुझे

play00:35

इंटरव्यू के लिए खुद को प्रिपेयर करना

play00:36

पड़ा एक पर्टिकुलर रोड मैप जो मैंने फॉलो

play00:39

किया और सेम रोड मैप आप भी फॉलो कर सकते

play00:43

हो अगर आप डाटा इंजीनियर की जॉब पाना

play00:46

चाहते हो तो तो इस वीडियो में मैं

play00:48

पर्टिकुलर रोड मैप के बारे में बात करूंगा

play00:51

जो जो चीजें मैंने पढ़ी कैसे पढ़ी

play00:54

क्या-क्या चीजें पढ़ी सब कुछ आपको शुरू से

play00:56

लेकर आखिरी तक बताने वाला हूं तो अगर आप

play01:00

डाटा इंजीनियर एस्परेंस हो आप आईटी

play01:03

इंडस्ट्री में आना चाहते हो तो इस वीडियो

play01:05

को जरूर से देखना आपको बहुत सारी अच्छी

play01:08

इंफॉर्मेशन इस वीडियो में मिलने वाली है

play01:10

तो दोस्तों वीडियो स्टार्ट करने से पहले

play01:12

थोड़ा मैं आपको अपने बारे में बता देता

play01:14

हूं बैकग्राउंड के बारे में बता देता हूं

play01:16

तो मैंने ट्रिपल आईटी उना से बीटेक किया

play01:18

हुआ है 2021 का पास आउट हूं और मैंने

play01:22

कॉलेज कंप्लीट करके ऑफ कैंपस प्लेसमेंट

play01:25

लेके

play01:29

र उसके बाद मुझे जरूरत महसूस हुई कि मुझे

play01:32

जॉब स्विच करना चाहिए तो मैंने जॉब स्विच

play01:35

किया और अभी जेपी मॉर्गन यूके में एज अ

play01:39

डाटा इंजीनियर जॉब करता हूं तो दोस्तों

play01:41

मैं आप लोग को जो रोड मैप बताने वाला हूं

play01:43

बहुत बेसिक से शुरू करता हूं और हम बात

play01:45

करते हैं आईटी इंडस्ट्री के बारे में किसी

play01:48

भी जॉब रोल के लिए जब आप जाते हो तो आपको

play01:50

एक प्रोग्रामिंग लैंग्वेज सीखनी होती है

play01:53

तो अगर आप डेटा इंजीनियर बनना चाह रहे हो

play01:55

तो कौन सी प्रोग्रामिंग लैंग्वेज सीखनी

play01:56

चाहिए आपको कौन से प्रोग्रामिंग लैंग्वेज

play01:59

का ज्यादा डिमांड है आईटी इंडस्ट्री में

play02:01

अगर हम बात करें डाटा इंजीनियर रोल की तो

play02:04

तो आपको सीखना होगा पाइथन प्रोग्रामिंग

play02:06

लैंग्वेज या फिर स्काला या फिर जावा इन

play02:11

तीनों में से कोई एक प्रोग्रामिंग

play02:13

लैंग्वेज आप सीख सकते हो आप चाहो अगर आप

play02:16

चाहो तो पाइथन और स्काला साथ में सीख सकते

play02:19

हो क्योंकि बहुत सारी चीजें जो आप डाउन द

play02:21

लाइन पढ़ोगे जो मैं आपको बताने वाला हूं

play02:24

उनका सिंटेक्स और जो भी चीज आप करते हो

play02:27

सिमिलर होती हैं पाइथन और स्काला में तो

play02:29

आप लोग कोई एक प्रोग्रामिंग लैंग्वेज या

play02:32

फिर एक से अधिक प्रोग्रामिंग लैंग्वेज भी

play02:34

सीख सकते हो दोस्तों अब हम बात करते हैं

play02:36

सबसे इंपॉर्टेंट और सबसे जरूरी चीज जिसको

play02:40

आप स्किप करके डाटा इंजीनियर नहीं बन

play02:43

पाओगे उसको तो आपको पढ़ना ही पड़ेगा तो

play02:46

दोस्तों मैं बात करने वाला हूं डाटा प्री

play02:49

प्रोसेसिंग फ्रेमवर्क्स के बारे में यानी

play02:52

बिग डाटा एनवायरमेंट के बारे में यानी जो

play02:54

डाटा इंजीनियर्स होते हैं कौन सी

play02:56

टेक्नोलॉजीज को अपने डे टू डे लाइफ में

play02:59

यूज करते हैं हैं तो सबसे पहले जो यूज

play03:01

होता है दोस्तों वो है स्पार्क बहुत पहले

play03:05

मैप रिड्यूस यूज होता था लेकिन दोस्तों आज

play03:07

के टाइम में हर कंपनी में अगर वो डाटा

play03:10

इंजीनियर रोल की बात करें तो स्पार्क यूज

play03:12

किया जाता है टू प्री प्रोसेस द डाटा बहुत

play03:14

ज्यादा अगर डटा है तो उसको प्री प्रोसेस

play03:17

करना इसके साथ-साथ दोस्तों प्री

play03:18

प्रोसेसिंग में और भी चीजें हैं जो कि डप

play03:21

इको सिस्टम में आती हैं जैसे कि आपको

play03:23

एचडीएफएस के बारे में पढ़ना होगा एचडीएफएस

play03:26

यानी डिस्ट्रीब्यूटर फाइल स्टोरेज सिस्टम

play03:29

है जो डुप एनवायरमेंट का एक पार्ट है इसके

play03:32

साथ-साथ आपको यार्न के बारे में पढ़ना

play03:35

होगा मसोस के बारे में पढ़ना होगा जो

play03:37

रिसोर्स मैनेजर्स होते हैं यानी मैं अगर

play03:40

आपको सिंपल बताऊं तो आपको डुप इकोसिस्टम

play03:43

के बारे में पढ़ना है डुप इकोसिस्टम का

play03:45

मतलब उसमें फाइल स्टोरेज के लिए भी कुछ

play03:48

यूज़ होता है जिसे हम एचडीएफएस बोलते हैं

play03:50

स्पार्क यूज़ होता है जिसे हम प्री

play03:52

प्रोसेसिंग फ्रेमवर्क के तौर पे यूज़ करते

play03:54

हैं इसमें यार्न यूज़ होता है जो कि

play03:57

रिसोर्स मैनेजर होता है यानी

play03:59

डिस्ट्रीब्यूटर कंप्यूटिंग में डूब

play04:01

इकोसिस्टम में जोजो चीजें यूज़ होती हैं

play04:03

आपको वो पढ़ना पड़ेगा जिसमें सबसे

play04:05

इंपॉर्टेंट है स्पार्क पढ़ना यान के साथ

play04:09

जो रिसोर्स मैनेजर है उसके साथ कैसे

play04:12

स्पार्क यूज़ होता है यह पढ़ना और इसके

play04:14

साथ-साथ एचडीएफएस के बारे में पढ़ना

play04:17

एचडीएफएस के जो इंपॉर्टेंट कमांड्स हैं

play04:19

एचडीएफएस कैसे काम करता है इसके बारे में

play04:22

पढ़ना बहुत ज्यादा इंपॉर्टेंट है क्योंकि

play04:24

बहुत बेसिक चीजें हैं यही बिल्डिंग

play04:26

ब्लॉक्स हैं अगर आप डाटा इंजीनियर बनना

play04:28

चाहते हो तो दोस्तों तो अब हम बात करते

play04:30

हैं एक और डोमेन जो कि विद इन डाटा

play04:32

इंजीनियर है और वो बहुत ज्यादा इंपॉर्टेंट

play04:34

है वो है स्टोरेज सिस्टम के बारे में

play04:37

पढ़ना यानी आपको डेटा बेसस के बारे में

play04:39

पता होना चाहिए डेटा बेसिस के बारे में

play04:41

बात करें तो बहुत फस्ट टर्म है आपको बहुत

play04:44

सारी चीजें सीखनी होंगी लेकिन बहुत सिंपल

play04:46

तरीके से आपको समझाता हूं मैं देखो डेटा

play04:49

बेसेस आपने अभी तक पढ़ रखा होगा रिलेशनल

play04:51

डेटा बेसेस के बारे में जैसे आप लोग को

play04:53

माय स्कल के बारे में पता होगा पोस्टगिस

play04:55

के बारे में पता होगा ओरेकल के बारे में

play04:57

पता होगा तो दोस्तों यही चीजें चाहिए आपको

play05:00

कुछ अलग करने की जरूरत नहीं है लेकिन इसके

play05:02

साथ-साथ केवल रिलेशनल डेटा बेसेस नहीं

play05:05

आपको नो एसक्यूएल नॉन रिलेशनल डेटा बेसेस

play05:09

के बारे में भी पढ़ना रहेगा अगर नॉन

play05:12

रिलेशनल डेटा बेसेस के बारे में बात करें

play05:14

तो दोस्तों आपको कैसेंड्रा या फिर मोंग

play05:16

डीबी या फिर ए बेस या फिर नहीं इन सभी को

play05:20

आपको पढ़ना है क्योंकि कौन सी कंपनी किस

play05:23

डेटाबेस को यूज करती है यह आपको नहीं पता

play05:26

है और जितनी डेटा बेसेस के बारे में आपको

play05:28

नॉलेज रहेगा जना वाइड आपका स्पेक्ट्रम

play05:31

रहेगा उतनी ज्याद जॉब अपॉर्चुनिटी में आप

play05:33

एलिजिबल रहोगे अप्लाई कर पाओगे और दोस्तों

play05:36

जॉब मिलने में भी आप लोग को बहुत आसानी

play05:39

होगी दोस्तों अब हम बात करते हैं डेटा

play05:41

बेसेस के साथ एक और टर्म यूज होता है जो

play05:44

बिग डाटा इंजीनियरिंग में स्पेशली डेटा

play05:46

इंजीनियर्स यूज करते हैं उसका नाम है डेटा

play05:50

वेयर हाउसिंग डेटा वेयर हाउसिंग भी बहुत

play05:52

अच्छा कांसेप्ट है डेटा वेयर हाउसेस के

play05:54

बारे में आपको पढ़ना पड़ेगा और अगर मैं

play05:56

बात करूं कि कौन से डेटा वेयर हाउसेस आपको

play05:59

पढ़ने हैं है जो कि दोस्तों मैंने देखा है

play06:01

अक्सर कंपनीज यूज़ करती हैं यानी मेरा जो

play06:03

प्रीवियस एक्सपीरियंस रहा है जहां मैंने

play06:05

जॉब्स के लिए अप्लाई करा है उनकी बारे में

play06:07

बात करें तो मोस्टली कंपनीज यूज़ करती हैं

play06:10

हाइब हाइब डूब इकोसिस्टम का एक पार्ट है

play06:14

तो आपको हाइब जरूर से पढ़ना चाहिए इसके

play06:16

साथ-साथ अभी के टाइम पे जैसे-जैसे जो

play06:19

कंपनीज है क्लाउड की तरफ मूव कर रही हैं

play06:21

क्लाउड कंप्यूटिंग की तरफ मूव कर रही हैं

play06:23

तो बहुत सारी कंपनीज अभी के टाइम पे यूज़

play06:26

कर रही हैं स्नोफ्लेक तो स्नोफ्लेक बहुत

play06:28

अच्छी टेक्नोलॉजी है बहुत अच्छी चीज है

play06:31

अगर आप आज पढ़ लेते हो तो फ्यूचर प्रूफ हो

play06:34

आप क्योंकि बहुत सारी कंपनी इसको यूज नहीं

play06:36

करती थी वो भी इसको यूज कर रही हैं अपने

play06:39

जो ऑन प्रीमाइ जो भी उनका फ्रेमवर्क था जो

play06:42

भी उनके प्रोजेक्ट्स थे वो उनको क्लाउड पे

play06:45

ले जा रहे हैं और जैसे-जैसे चीजें क्लाउड

play06:48

पे जा रही हैं क्लाउड के जो टेक्नोलॉजीज

play06:50

हैं उनको इंप्लीमेंट किया जा रहा है जैसे

play06:52

कि स्नोफ्लेक तो आप लोग स्नोफ्लेक को भी

play06:54

जरूर से पढ़ लेना दोस्तों अब हम बात करते

play06:57

हैं एक बहुत ही इंपॉर्टेंट टर्म एक बहुत

play06:59

ही इंपॉर्टेंट टेक्नोलॉजी के बारे में

play07:02

हालांकि यह टेक्नोलॉजी हर कंपनी में यूज

play07:04

नहीं होती है लेकिन इसका फ्यूचर बहुत

play07:07

अच्छा है और बहुत सारी कंपनीज इसकी तरफ

play07:10

आगे मूव कर रही हैं क्यों कर रही हैं और

play07:12

कौन सी टेक्नोलॉजी है उसके बारे में जान

play07:14

लेते हैं तो मैं जिस टेक्नोलॉजी के बारे

play07:16

में बात कर रहा हूं उसको हम बोलते हैं

play07:18

रियल टाइम डटा प्री प्रोसेसिंग यानी

play07:21

जैसे-जैसे डटा आ रहा है उसको प्री प्रोसेस

play07:24

करके इनसाइट्स फाइंड करना या फिर मशीन

play07:26

लर्निंग मॉडल यूज करना जैसे कि बहुत सिंपल

play07:28

एग्जांपल आपको दे सकता हूं

play07:59

कर रहे हैं रिकमेंडेशन इंजंस बना रहे हैं

play08:02

जिससे कि आपको अच्छी वैल्युएबल प्रोडक्ट

play08:04

बेच सके और उनका बहुत अच्छा प्रॉफिट हो

play08:07

सके इसलिए यह जो टेक्नोलॉजी है लगभग हर

play08:11

कंपनी में यूज़ हो रहा है रियल टाइम डाटा

play08:14

प्री प्रोसेसिंग तो अगर आपको रियल टाइम

play08:16

डाटा प्री प्रोसेसिंग पढ़ना है तो आपको

play08:18

कौन सी टेक्नोलॉजीज को पढ़ना होगा कौन से

play08:20

टेक स्टेक्स हैं जिनको आपको पढ़ना पड़ेगा

play08:23

तो दोस्तों आज के समय के बारे में बात

play08:24

करूं तो अभी कंपनीज यूज़ करती हैं apache2

play08:29

आप रियल टाइम में डाटा को स्ट्रीम कर सकते

play08:31

हो साथ में ही प्री प्रोसेस कर सकते हो

play08:34

दोस्तों इसके साथ-साथ अ के और भी

play08:36

सॉफ्टवेयर्स हैं जैसे कि अची फंक अची स्टम

play08:41

ये जो टेक्नोलॉजीज हैं ये भी रियल टाइम

play08:43

डाटा प्री प्रोसेसिंग और एनालिटिक्स के

play08:45

लिए यूज की जाती हैं तो आप इन तीनों को

play08:48

जरूर से पढ़ लेना अगर आप रियल टाइम डाटा

play08:51

प्री प्रोसेसिंग की तरफ जाना चाहते हो

play08:53

क्योंकि मैं पिछली कंपनी में अची काफ का

play08:56

यूज करता था तो मेरे को इसके बारे में पता

play08:58

है टेक्नोलॉजी कैसी है है इसके बारे में

play09:00

पता है कई जगह मैंने अप्लाई किया और वहां

play09:02

पे देखा अची काफ का रिक्वायरमेंट था

play09:05

क्योंकि आप खुद समझो ना कि यह जो रियल

play09:08

टाइम डाटा प्री प्रोसेसिंग है वो कितना

play09:10

इंपॉर्टेंट है कंपनी तुरंत आपको

play09:13

रिकमेंडेशन कर सकती है अपने प्रोडक्ट्स को

play09:16

बेचने में उनके लिए बहुत आसानी है तो

play09:18

इसलिए आप इन चीजों को जरूर से पढ़ लेना

play09:21

दोस्तों अब हम बात करते हैं एक और

play09:23

इंपॉर्टेंट टॉपिक के बारे में जिसके बारे

play09:25

में आप लोगों ने हमेशा सुना होगा कि डाटा

play09:27

इंजीनियर्स ई पाइपलाइंस बनाते हैं यानी

play09:31

एक्सट्रैक्ट ट्रांसफॉर्म लोड यह पाइपलाइन

play09:35

बनाते हैं तो आखिर यह पाइपलाइन होती कैसी

play09:38

है और इनका ऑर्केस्ट्रेशन कैसे होता है

play09:41

यानी जो वर्कफ्लो है उनका मैनेजमेंट कैसा

play09:43

होता है कि एक्स्टेक्स्ट कब होगा

play09:46

ट्रांसफॉर्म कब होगा लोड कब होगा और इनकी

play09:49

जो डिपेंडेंसी है इंटर डिपेंडेंसी है वो

play09:52

कैसे मैनेज होगी यानी पहले पहला टास्क चले

play09:55

जब पहला टास्क कंप्लीट हो तो दूसरा चले

play09:58

दूसरा कंप्लीट हो तो तीसरा चले दूसरा फेल

play10:00

हो रहा है तो यूजर को नोटिफिकेशन जाए और

play10:02

तीसरा नहीं चले तो ऐसे डिपेंडेंसीज के साथ

play10:06

कैसे जो टास्क है एक दूसरे से इंटरलिंक्ड

play10:09

रहे और कैसे एक पाइपलाइन बने तो ईटीएल

play10:12

पाइपलाइन यही होता है या फिर सिंपल डाटा

play10:14

इंजीनियरिंग के टर्म में पाइपलाइन का मतलब

play10:17

ये होता है आपके पास पांच टास्क हैं और

play10:20

उनको आप अलाइन कर रहे हो एक दूसरे पे

play10:23

डिपेंडेंट होते हुए कि पहला टास्क दूसरे

play10:26

से कैसे डिपेंडेंट है कैसे लिंक्ड है

play10:28

दोनों और ऐसे कर करके आप एक पाइपलाइन

play10:30

बनाते हो जिसे हम सिंपल ईटीएल पाइपलाइन कह

play10:33

लो या फिर डाटा पाइपलाइन कहते हैं तो इन

play10:36

पाइपलाइन को ऑर्केस्ट्रेट करने के लिए

play10:38

इनके वर्कफ्लो को मैनेज करने के लिए यूज

play10:41

होता है एयरफ्लो दोस्तों ची फाउंडेशन का

play10:44

एक सॉफ्टवेयर है एयरफ्लो जो कि ओपन सोर्स

play10:46

सॉफ्टवेयर है और ऑलमोस्ट एवरी कंपनी यूज

play10:50

करती है एयरफ्लो को ऑर्केस्ट्रेशन के लिए

play10:52

वर्कफ्लो मैनेजमेंट के लिए तो आप लोग

play10:54

एयरफ्लो को जरूर से पढ़ लेना अभी तक आपने

play10:57

नहीं पढ़ा है एयरफ्लो तो अभी से पढ़ लो

play10:59

दोस्तों एयरफ्लो पढ़ने के लिए बहुत ज्यादा

play11:01

टाइम नहीं लगता है आप 10 से 15 दिन में

play11:04

एयरफ्लो बहुत अच्छी तरीके से सीख सकते हो

play11:06

और आप लोग कौन-कौन सी टेक्नोलॉजी सीखना

play11:09

चाहते हो मैंने जो भी इस वीडियो में बताया

play11:11

आप जरूर से कमेंट करके बताना मैं कोशिश

play11:14

करूंगा थोड़ा-थोड़ा करके उनके बारे में

play11:16

ट्यूटोरियल्स लेकर आ हूं इसी

play11:29

हैं उसमें मेनली तीन हैं amazonaws.com

play11:59

है तो मैं आपको रिकमेंड करूंगा एडब्ल्यू

play12:02

से शुरू करो एडब्ल्यूएम से मास्टर कर लेते

play12:04

हो उसके बाद बाकी जो क्लाउड सर्विसेस हैं

play12:07

उनको भी एक बार आप लोग देख लेना लेकिन

play12:10

आपको कम से कम एक क्लाउड सर्विस के बारे

play12:13

में जरूर से जानकारी होनी चाहिए क्योंकि

play12:15

जैसे-जैसे आप आगे बढ़ो ग सारी कंपनीज

play12:18

क्लाउड पे जा रही हैं और वो किसी ना किसी

play12:21

एक सर्विस से ही आगे बढ़ेंगी और दोस्तों

play12:23

एक और जरूरी और इंपॉर्टेंट चीज अगर आप जॉब

play12:26

डिस्क्रिप्शन देखने जाते हो सिंपल

play12:29

ऑलमोस्ट 10 में से हर सात जॉब ओपनिंग में

play12:33

क्लाउड कंप्यूटिंग इंपॉर्टेंट है डाटा

play12:35

इंजीनियर रोल के लिए आपको या तो एडब्ल्यू

play12:38

आना चाहिए या तो जीसीपी आना चाहिए या फिर

play12:40

आपको एजर आना चाहिए तो यह बहुत इंपॉर्टेंट

play12:42

है इसको आप लोग जरूर से पढ़ लेना दोस्तों

play12:44

अब हम बात करते हैं एक ओवरऑल नॉलेज के

play12:47

बारे में ओवरऑल नॉलेज में आपको डाटा

play12:49

मॉडलिंग के बारे में पता होना चाहिए ईटीएल

play12:52

पाइपलाइंस के बारे में पता होना चाहिए तो

play12:54

एक ओवरव्यू आप लोग जरूर से ले लेना कि

play12:56

डाटा मॉडलिंग क्या होता है ईटीएल पाइप

play12:59

लाइंस क्या होती हैं इसके साथ-साथ आप लोग

play13:01

सिस्टम डिजाइन भी पढ़ लेना क्योंकि

play13:04

ऑलमोस्ट सारी कंपनीज सिस्टम डिजाइन को

play13:07

बहुत अच्छे से फॉलो करती हैं जो उनके

play13:09

प्रोडक्ट्स होते हैं जिसे हम प्रोजेक्ट्स

play13:11

भी बोलते हैं उनमें सिस्टम डिजाइन को बहुत

play13:13

अच्छे से यूज किया जाता है ताकि वो जो

play13:16

प्रोडक्ट है या फिर प्रोजेक्ट है उसको

play13:18

स्केल किया जा सके जैसे-जैसे नंबर ऑफ

play13:21

यूजर्स बढ़े जैसे-जैसे वो प्रोडक्ट पॉपुलर

play13:23

हो जाए तो आप लोग सिस्टम डिजाइन भी जरूर

play13:26

से पढ़ लेना इंटरव्यूज में भी आपको सिस्टम

play13:28

डिजाइन से क्वेश्चन पूछे जाते हैं और अगर

play13:30

बात करूं जितनी भी टेक्नोलॉजीज के बारे

play13:32

में दोस्तों मैंने आपको बताया सभी

play13:34

टेक्नोलॉजी से आपको इंटरव्यू में क्वेश्चन

play13:37

पूछा जाएगा तो यह बहुत ज्यादा इंपॉर्टेंट

play13:39

है दोस्तों एक और चीज यहां पे मैं आपको

play13:41

बताना चाहता हूं जो कि बहुत आसान

play13:43

टेक्नोलॉजी है उसको सीखना बहुत आसान है

play13:45

जिसका नाम है स्कूप स्कूप एक टेक्नोलॉजी

play13:48

है जिससे हम डाटा को डुप इकोसिस्टम में

play13:52

इंपोर्ट करते हैं और एक्सपोर्ट करते हैं

play13:54

यानी मान लो आपका डाटा जो है वो रिलेशनल

play13:57

डेटाबेस मैनेजमेंट सिस्टम में है जैसे माय

play13:59

एसक्यूएल में है और उसको आप एचडीएफएस पे

play14:02

ले जाना चाहते हो तो कैसे ले जाओगे तो आप

play14:05

स्कूप इंपोर्ट से डाटा ले जा सकते हो और

play14:07

मान लो आपका डाटा एचडीएफएस पे है और उसको

play14:10

आप ओरेकल सिस्टम में जो रिलेशनल डेटाबेस

play14:12

मैनेजमेंट सिस्टम है उसमें ले जाना चाहते

play14:14

हो तो आप स्कूप से स्कूप एक्सपोर्ट करके

play14:17

ले जा सकते हो तो आप स्कूप भी जरूर से पढ़

play14:20

लेना क्योंकि कंपनीज हर तरह के डेटा बेसेस

play14:22

पे काम करती हैं हर तरह के स्टोरेज सिस्टम

play14:25

पे काम करती हैं तो दोस्तों उनको स्कूप

play14:27

कहीं ना कहीं यूज करना पड़ता है तो

play14:29

इंटरव्यू में भी इससे क्वेश्चंस पूछे जाते

play14:30

हैं कि आपको डाटा को यहां से वहां ले जाना

play14:33

है कैसे ले जाओगे कौन सी टेक्नोलॉजी का

play14:35

यूज करोगे आपको सिंटेक्स भी पूछ लिए जा

play14:38

सकते हैं तो आप लोग स्कूप के बारे में

play14:40

जरूर से पढ़ लेना तो दोस्तों ये रहे

play14:42

टेक्नोलॉजीज जिनके बारे में मैंने पढ़ा था

play14:45

बहुत अच्छे से पढ़ा था पूरे चार महीने तक

play14:47

मैंने इन टेक्नोलॉजीज के बारे में पढ़ा

play14:50

फिर जाके मुझे यूके में जेपी मॉर्गन में

play14:52

जॉब मिली तो यह जो टेक्नोलॉजीज मैंने

play14:54

बताया आप लोग को एक ओवरऑल स्पेक्ट्रम है

play14:57

आपको सभी टेक्नोलॉजीज के बारे में प पढ़ना

play14:59

होगा इंटरव्यूज के लिए प्रिपेयर करना होगा

play15:01

और एक और चीज एक प्लस पॉइंट की तरह मैं आप

play15:03

लोग को बता देना चाहता हूं अगर आप डाटा

play15:05

इंजीनियर बनने जा रहे हो डाटा इंजीनियर की

play15:07

पढ़ाई कर रहे हो तो थोड़ा बहुत आप लोग

play15:09

डेटा एनालिटिक्स साइड भी पढ़ लेना जैसे

play15:12

टबलू के बारे में पढ़ लेना पावर बी आई के

play15:14

बारे में पढ़ लेना python-levenshtein

play15:29

आप बहुत आसानी से पढ़ सकते हो लेकिन अगर

play15:31

आपने एक बार पढ़ लिया अपने रिज्यूमे में

play15:34

मेंशन कर दिया तो आपको एक प्लस पॉइंट

play15:36

मिलता है इंटरव्यूज में रिज्यूमे

play15:38

शॉर्टलिस्टिंग में आपको एज मिलता है तो आप

play15:41

लोग जरूर से इन टेक्नोलॉजीज को भी पढ़

play15:43

लेना और दोस्तों इसके साथ-साथ अपने

play15:45

कम्युनिकेशन स्किल्स पे भी आप लोग फोकस

play15:47

करना कम्युनिकेशन स्किल कहने का मतलब यह

play15:49

नहीं होता है कि अगर अगला बंदा बहुत

play15:51

फ्लूएंट बहुत फास्ट इंग्लिश बोल रहा है तो

play15:54

उसके कम्युनिकेशन स्किल को बहुत अच्छा

play15:56

बोला जाएगा कम्युनिकेशन स्किल का मतलब यह

play15:59

होता है सामने वाला बंदा जो हमें बोल रहा

play16:01

है हम उसको समझ पा रहे हैं कि नहीं और वह

play16:04

समझ के हम अच्छे से आंसर दे पा रहे हैं कि

play16:07

नहीं इसको हम बोलते हैं कम्युनिकेशन स्किल

play16:09

और आप अगर आईटी इंडस्ट्री में जा रहे हो

play16:12

तो कम्युनिकेशन स्किल का मतलब यह हुआ कि

play16:14

जो भी टेक्नोलॉजीज हैं जो भी टूल्स हैं

play16:17

अगर उनके बारे में आपको पता है और

play16:18

इंटरव्यूअर जो आपसे क्वेश्चन पूछ रहा है

play16:20

वो आप समझ पा रहे हो कि वो क्या पूछ रहा

play16:23

है और आप उसका बहुत सिंपल वर्ड्स में बहुत

play16:26

ऐसे बहुत बहुत ऐसे हाईफाई वर्ड्स यूज़

play16:28

करके के नहीं बहुत सिंपल वर्ड्स में भी आप

play16:30

आंसर दे पा रहे हो तो वही बहुत अच्छा

play16:33

कम्युनिकेशन स्किल माना जाएगा मेरी भी

play16:35

इंग्लिश बहुत अच्छी नहीं है आप लोग देख लो

play16:37

मैं हिंदी में ही वीडियो बनाता हूं तो ऐसा

play16:40

नहीं है आपको अंग्रेजी थोड़ी कम बोलने आती

play16:42

है तो आपको जॉब नहीं मिलेगा बेशक मिलेगा

play16:44

बेहिचक मिलेगा आप बस स्किल्स पे फोकस करो

play16:48

पढ़ाई करो इसके साथ-साथ जितनी भी

play16:50

टेक्नोलॉजीज आपको बताई जितने भी टूल्स

play16:52

मैंने बताया इसके साथ-साथ डाटा स्ट्रक्चर

play16:54

एल्गोरिथम और लीड कोड प्रैक्टिस करना नहीं

play16:57

भूलना है क्योंकि पहला राउंड टेक्निकल

play16:59

इंटरव्यू होता है जिसमें आपको लीड कोड

play17:02

यानी कंपीटेटिव प्रोग्रामिंग या फिर

play17:03

प्रॉब्लम सॉल्विंग के क्वेश्चन आपको मिलते

play17:05

हैं और आपको उन्हें सॉल्व करना होता है तो

play17:07

दोस्तों यह थी आज की वीडियो जिसमें मैंने

play17:09

आपको बताया डाटा इंजीनियरिंग रोड मैप के

play17:12

बारे में यानी इन अगर टूल्स टेक्नोलॉजीज

play17:15

को आप लोग पढ़ लेते हो तो आपको डाटा

play17:17

इंजीनियर की जॉब मिलने में बहुत आसानी हो

play17:19

जाएगी दोस्तों अगर वीडियो अच्छी लगी हो तो

play17:21

कमेंट करके जरूर से बताना इनमें से

play17:23

कौन-कौन सी टेक्नोलॉजीज आपको आती हैं और

play17:26

कौन-कौन सी टेक्नोलॉजीज आप लोग सीखने जा

play17:28

रहे हैं हो और आप लोग मुझसे अगर सीखना

play17:31

चाहते हो तो कमेंट करके जरूर से बताना मैं

play17:33

इन टूल्स और टेक्नोलॉजीज के ऊपर

play17:35

ट्यूटोरियल्स वीडियोस बहुत छोटा-छोटा बहुत

play17:38

कमकम करके इस

play17:52

youtube2 एंड कीप लर्निंग थैंक यू

Rate This

5.0 / 5 (0 votes)

Связанные теги
Data EngineeringCareer AdvicePythonSparkHadoopData ProcessingCloud ComputingBig DataInterview PrepTech Tutorials
Вам нужно краткое изложение на английском?