The Ultimate Big Data Engineering Roadmap: A Guide to Master Data Engineering in 2024
Summary
TLDRThe speaker, Kash, a Data Engineer at JP Morgan in the UK, shares his journey and insights on becoming a data engineer. He outlines essential learning paths, including programming languages like Python, Scala, or Java, and frameworks like Spark for big data processing. He also covers distributed systems, databases, and real-time data processing technologies. Kash emphasizes the importance of tools like Apache Airflow for workflow management, cloud services, and communication skills. His roadmap includes learning about data modeling, ETL pipelines, and system design, suggesting resources for each and highlighting the value of data analytics skills.
Takeaways
- 😀 The speaker, Kash, is a Data Engineer at JP Morgan in the UK and has recently moved there.
- 🎓 Kash has a background in a Triple Honours IT degree from Una and transitioned into the Data Engineering role after college.
- 🛠️ For aspiring Data Engineers, learning a programming language is essential, with Python, Scala, or Java being in high demand in the IT industry.
- 🔥 Data Engineers should focus on learning data processing frameworks, particularly Spark, which is widely used for big data environments.
- 💾 Knowledge of Hadoop ecosystem components like HDFS (Hadoop Distributed File System) and YARN (Yet Another Resource Negotiator) is crucial for data engineers.
- 📚 Understanding of storage systems, including relational databases like MySQL, PostgreSQL, and Oracle, as well as NoSQL databases like Cassandra, MongoDB, and others, is important.
- 🏢 Data Warehousing concepts, such as data modeling and ETL (Extract, Transform, Load) pipelines, are key areas of focus for Data Engineers.
- 🌐 With the shift towards cloud computing, familiarity with cloud services like AWS (Amazon Web Services), GCP (Google Cloud Platform), and Azure is increasingly important.
- 🔍 Real-time data processing technologies are gaining traction, with tools like Apache Kafka, Apache Flink, and Apache Storm being used for analytics and insights.
- 📈 Data Engineers should be adept at using workflow management tools like Airflow for orchestrating and managing data pipelines.
- 💬 Strong communication skills are vital for Data Engineers, as they need to understand and respond effectively to technical inquiries during interviews and in the workplace.
Q & A
Who is the speaker in the video and what is their profession?
-The speaker in the video is named Kailash, and they are a Data Engineer working at JP Morgan in the UK.
What is the main topic of the video?
-The main topic of the video is to provide a roadmap for becoming a Data Engineer, including the skills and technologies one should learn.
What programming languages are recommended for someone aspiring to be a Data Engineer?
-The recommended programming languages for aspiring Data Engineers are Python, Scala, and Java, with a focus on Python due to its high demand in the IT industry.
What is the significance of Spark in the context of Data Engineering?
-Spark is significant in Data Engineering as it is widely used for processing large volumes of data due to its efficiency and is a key technology that data engineers should learn.
What are some of the big data technologies and frameworks that a Data Engineer should be familiar with?
-A Data Engineer should be familiar with technologies and frameworks such as Hadoop Distributed File System (HDFS), YARN, and resource managers like Mesos, as well as data processing frameworks like Spark.
What is the importance of learning about storage systems for a Data Engineer?
-Understanding storage systems is crucial for a Data Engineer as it involves knowledge of databases, both relational and non-relational, which are essential for managing and processing data efficiently.
What is Data Warehousing and why is it important for Data Engineers?
-Data Warehousing is the concept of collecting and managing large amounts of data in a way that facilitates easy access and analysis. It is important for Data Engineers to understand as it is a key component in big data engineering.
What is the role of Apache Airflow in Data Engineering projects?
-Apache Airflow is used for orchestrating and managing workflows in Data Engineering projects. It helps in scheduling and monitoring the data pipelines, ensuring the tasks are executed in the correct order and dependencies are managed.
What are some of the cloud services that a Data Engineer should have knowledge of?
-A Data Engineer should have knowledge of at least one cloud service such as Amazon Web Services (AWS), Google Cloud Platform (GCP), or Microsoft Azure, as cloud computing is increasingly becoming a standard in the industry.
Why is learning about real-time data processing important for a Data Engineer?
-Learning about real-time data processing is important as it allows Data Engineers to process and analyze data as it is generated, enabling faster insights and decision-making, which is valuable in many industries.
What is the role of communication skills in the context of a Data Engineer's job?
-Communication skills are essential for a Data Engineer to effectively understand and respond to the needs of the team and stakeholders. It involves not only speaking fluently but also expressing complex technical concepts in simple terms.
Outlines
😀 Introduction to the Data Engineering Journey
The speaker, Kash, introduces himself as a Data Engineer at JP Morgan in the UK and discusses his journey of landing the job in the UK. He provides a link in the description and a button for viewers to watch his previous video detailing how he got the job. Kash then outlines the roadmap he followed to become a Data Engineer, including the skills and technologies he learned, and promises to share a comprehensive guide for aspiring Data Engineers in the video.
👨🏫 Essential Skills for Aspiring Data Engineers
Kash delves into the essential skills required for a Data Engineer role, emphasizing the importance of learning programming languages like Python, Scala, or Java. He mentions the significance of understanding data processing frameworks, big data environments, and technologies used in the field such as Spark, Hadoop Distributed File System (HDFS), YARN, and resource managers. Kash advises viewers to follow a particular roadmap that includes learning these technologies to enhance their employability as Data Engineers.
🔍 Exploring Data Storage Systems and Big Data Engineering
The speaker discusses the necessity of understanding various data storage systems and databases, including relational and non-relational databases like MySQL, MongoDB, Oracle, and others. He highlights the importance of data warehousing and technologies like Hive, which is part of the big data ecosystem. Kash also mentions cloud computing and the need to be familiar with cloud services, especially Amazon Web Services (AWS), as they are increasingly in demand for Data Engineers.
🚀 Advanced Topics for Data Engineers
Kash introduces advanced topics such as real-time data processing and the technologies involved, including Apache Kafka, Apache Flink, and others. He explains the importance of these technologies in providing insights and value to businesses through immediate data analysis. The speaker also touches on the concept of data pipelines and the orchestration of workflows using tools like Airflow, which is crucial for managing data workflows and dependencies.
📘 Broadening Knowledge in Data Engineering
The speaker emphasizes the importance of having a broad knowledge base in Data Engineering, including understanding data modeling, ETL pipelines, system design, and the use of tools like Apache Airflow for workflow management. He also mentions the need to learn about cloud computing and the significance of being familiar with at least one cloud service provider. Kash encourages viewers to focus on learning these technologies to increase their chances of landing a job in the field.
🌐 Additional Tools and Soft Skills for Data Engineers
Kash suggests that aspiring Data Engineers should also learn about additional tools and technologies such as Apache Airflow for data orchestration, as well as soft skills like communication. He explains that good communication skills are essential for understanding technical discussions and explaining complex concepts in simple terms. The speaker also advises on the importance of continuous learning and staying updated with the latest tools and technologies in the field.
Mindmap
Keywords
💡Data Engineer
💡Data Processing Frameworks
💡Hadoop Ecosystem
💡Python Programming
💡Data Modeling
💡ETL Pipeline
💡Apache Airflow
💡Cloud Computing
💡Data Warehousing
💡Real-time Data Processing
💡Data Analytics
Highlights
Introduction of the speaker, Kash, a Data Engineer at JP Morgan in the UK.
The speaker has recently moved to the UK and shares his job acquisition journey in a previous video.
The video discusses a roadmap for aspiring Data Engineers.
Emphasis on learning programming languages, specifically Python, Scala, or Java for Data Engineering roles.
Importance of understanding Data Processing Frameworks and Big Data Environments in the IT industry.
Discussion on Apache Spark as a prevalent tool for Data Processing.
Explanation of HDFS (Hadoop Distributed File System) as part of the Big Data ecosystem.
Introduction to YARN as a resource manager in the distributed computing environment.
The necessity of knowledge in storage systems and databases for Data Engineers.
Mention of relational databases like MySQL, PostgreSQL, and Oracle.
Highlighting the need to understand NoSQL databases such as Cassandra, MongoDB, and others.
Introduction of Data Warehousing and the concept of Data Lakes.
The significance of cloud computing and platforms like Snowflake in modern data engineering.
Real-time Data Processing as an emerging field in data engineering.
Apache Kafka and other technologies for real-time data streaming and processing.
The role of ETL (Extract, Transform, Load) pipelines in data engineering workflows.
Airflow as an open-source tool for orchestrating and managing data pipelines.
Importance of understanding Cloud Services such as AWS, GCP, and Azure for Data Engineers.
The necessity of overall knowledge in Data Modeling and System Design for Data Engineers.
Introduction of Scope as a technology for data import and export between different systems.
Emphasis on the importance of communication skills in the IT industry and interviews.
The video concludes with advice on continuous learning and preparation for technical interviews.
Transcripts
दोस्तों मेरा नाम कैश है और मैं जेपी
मॉर्गन में डाटा इंजीनियर की जॉब करता हूं
यूके में आए हुए मुझे न महीने हो गए और एक
वीडियो में मैंने बता रखा है कि मुझे यूके
में जॉब कैसे मिली उसका लिंक आपको
डिस्क्रिप्शन में और आई बटन में देखने को
मिल जाएगा वहां पर क्लिक करके आप मेरी
पिछली वीडियो देख सकते हो लेकिन दोस्तों
आज की इस वीडियो में हम बात करने वाले हैं
कि अगर आप डाटा इंजीनियर बनना चाहते हो या
फिर मैं अपनी बात करूं तो मुझे डाटा
इंजीनियर की जॉब लेनी थी तो मुझे
क्या-क्या चीजें पढ़नी पड़ी कैसे मुझे
इंटरव्यू के लिए खुद को प्रिपेयर करना
पड़ा एक पर्टिकुलर रोड मैप जो मैंने फॉलो
किया और सेम रोड मैप आप भी फॉलो कर सकते
हो अगर आप डाटा इंजीनियर की जॉब पाना
चाहते हो तो तो इस वीडियो में मैं
पर्टिकुलर रोड मैप के बारे में बात करूंगा
जो जो चीजें मैंने पढ़ी कैसे पढ़ी
क्या-क्या चीजें पढ़ी सब कुछ आपको शुरू से
लेकर आखिरी तक बताने वाला हूं तो अगर आप
डाटा इंजीनियर एस्परेंस हो आप आईटी
इंडस्ट्री में आना चाहते हो तो इस वीडियो
को जरूर से देखना आपको बहुत सारी अच्छी
इंफॉर्मेशन इस वीडियो में मिलने वाली है
तो दोस्तों वीडियो स्टार्ट करने से पहले
थोड़ा मैं आपको अपने बारे में बता देता
हूं बैकग्राउंड के बारे में बता देता हूं
तो मैंने ट्रिपल आईटी उना से बीटेक किया
हुआ है 2021 का पास आउट हूं और मैंने
कॉलेज कंप्लीट करके ऑफ कैंपस प्लेसमेंट
लेके
र उसके बाद मुझे जरूरत महसूस हुई कि मुझे
जॉब स्विच करना चाहिए तो मैंने जॉब स्विच
किया और अभी जेपी मॉर्गन यूके में एज अ
डाटा इंजीनियर जॉब करता हूं तो दोस्तों
मैं आप लोग को जो रोड मैप बताने वाला हूं
बहुत बेसिक से शुरू करता हूं और हम बात
करते हैं आईटी इंडस्ट्री के बारे में किसी
भी जॉब रोल के लिए जब आप जाते हो तो आपको
एक प्रोग्रामिंग लैंग्वेज सीखनी होती है
तो अगर आप डेटा इंजीनियर बनना चाह रहे हो
तो कौन सी प्रोग्रामिंग लैंग्वेज सीखनी
चाहिए आपको कौन से प्रोग्रामिंग लैंग्वेज
का ज्यादा डिमांड है आईटी इंडस्ट्री में
अगर हम बात करें डाटा इंजीनियर रोल की तो
तो आपको सीखना होगा पाइथन प्रोग्रामिंग
लैंग्वेज या फिर स्काला या फिर जावा इन
तीनों में से कोई एक प्रोग्रामिंग
लैंग्वेज आप सीख सकते हो आप चाहो अगर आप
चाहो तो पाइथन और स्काला साथ में सीख सकते
हो क्योंकि बहुत सारी चीजें जो आप डाउन द
लाइन पढ़ोगे जो मैं आपको बताने वाला हूं
उनका सिंटेक्स और जो भी चीज आप करते हो
सिमिलर होती हैं पाइथन और स्काला में तो
आप लोग कोई एक प्रोग्रामिंग लैंग्वेज या
फिर एक से अधिक प्रोग्रामिंग लैंग्वेज भी
सीख सकते हो दोस्तों अब हम बात करते हैं
सबसे इंपॉर्टेंट और सबसे जरूरी चीज जिसको
आप स्किप करके डाटा इंजीनियर नहीं बन
पाओगे उसको तो आपको पढ़ना ही पड़ेगा तो
दोस्तों मैं बात करने वाला हूं डाटा प्री
प्रोसेसिंग फ्रेमवर्क्स के बारे में यानी
बिग डाटा एनवायरमेंट के बारे में यानी जो
डाटा इंजीनियर्स होते हैं कौन सी
टेक्नोलॉजीज को अपने डे टू डे लाइफ में
यूज करते हैं हैं तो सबसे पहले जो यूज
होता है दोस्तों वो है स्पार्क बहुत पहले
मैप रिड्यूस यूज होता था लेकिन दोस्तों आज
के टाइम में हर कंपनी में अगर वो डाटा
इंजीनियर रोल की बात करें तो स्पार्क यूज
किया जाता है टू प्री प्रोसेस द डाटा बहुत
ज्यादा अगर डटा है तो उसको प्री प्रोसेस
करना इसके साथ-साथ दोस्तों प्री
प्रोसेसिंग में और भी चीजें हैं जो कि डप
इको सिस्टम में आती हैं जैसे कि आपको
एचडीएफएस के बारे में पढ़ना होगा एचडीएफएस
यानी डिस्ट्रीब्यूटर फाइल स्टोरेज सिस्टम
है जो डुप एनवायरमेंट का एक पार्ट है इसके
साथ-साथ आपको यार्न के बारे में पढ़ना
होगा मसोस के बारे में पढ़ना होगा जो
रिसोर्स मैनेजर्स होते हैं यानी मैं अगर
आपको सिंपल बताऊं तो आपको डुप इकोसिस्टम
के बारे में पढ़ना है डुप इकोसिस्टम का
मतलब उसमें फाइल स्टोरेज के लिए भी कुछ
यूज़ होता है जिसे हम एचडीएफएस बोलते हैं
स्पार्क यूज़ होता है जिसे हम प्री
प्रोसेसिंग फ्रेमवर्क के तौर पे यूज़ करते
हैं इसमें यार्न यूज़ होता है जो कि
रिसोर्स मैनेजर होता है यानी
डिस्ट्रीब्यूटर कंप्यूटिंग में डूब
इकोसिस्टम में जोजो चीजें यूज़ होती हैं
आपको वो पढ़ना पड़ेगा जिसमें सबसे
इंपॉर्टेंट है स्पार्क पढ़ना यान के साथ
जो रिसोर्स मैनेजर है उसके साथ कैसे
स्पार्क यूज़ होता है यह पढ़ना और इसके
साथ-साथ एचडीएफएस के बारे में पढ़ना
एचडीएफएस के जो इंपॉर्टेंट कमांड्स हैं
एचडीएफएस कैसे काम करता है इसके बारे में
पढ़ना बहुत ज्यादा इंपॉर्टेंट है क्योंकि
बहुत बेसिक चीजें हैं यही बिल्डिंग
ब्लॉक्स हैं अगर आप डाटा इंजीनियर बनना
चाहते हो तो दोस्तों तो अब हम बात करते
हैं एक और डोमेन जो कि विद इन डाटा
इंजीनियर है और वो बहुत ज्यादा इंपॉर्टेंट
है वो है स्टोरेज सिस्टम के बारे में
पढ़ना यानी आपको डेटा बेसस के बारे में
पता होना चाहिए डेटा बेसिस के बारे में
बात करें तो बहुत फस्ट टर्म है आपको बहुत
सारी चीजें सीखनी होंगी लेकिन बहुत सिंपल
तरीके से आपको समझाता हूं मैं देखो डेटा
बेसेस आपने अभी तक पढ़ रखा होगा रिलेशनल
डेटा बेसेस के बारे में जैसे आप लोग को
माय स्कल के बारे में पता होगा पोस्टगिस
के बारे में पता होगा ओरेकल के बारे में
पता होगा तो दोस्तों यही चीजें चाहिए आपको
कुछ अलग करने की जरूरत नहीं है लेकिन इसके
साथ-साथ केवल रिलेशनल डेटा बेसेस नहीं
आपको नो एसक्यूएल नॉन रिलेशनल डेटा बेसेस
के बारे में भी पढ़ना रहेगा अगर नॉन
रिलेशनल डेटा बेसेस के बारे में बात करें
तो दोस्तों आपको कैसेंड्रा या फिर मोंग
डीबी या फिर ए बेस या फिर नहीं इन सभी को
आपको पढ़ना है क्योंकि कौन सी कंपनी किस
डेटाबेस को यूज करती है यह आपको नहीं पता
है और जितनी डेटा बेसेस के बारे में आपको
नॉलेज रहेगा जना वाइड आपका स्पेक्ट्रम
रहेगा उतनी ज्याद जॉब अपॉर्चुनिटी में आप
एलिजिबल रहोगे अप्लाई कर पाओगे और दोस्तों
जॉब मिलने में भी आप लोग को बहुत आसानी
होगी दोस्तों अब हम बात करते हैं डेटा
बेसेस के साथ एक और टर्म यूज होता है जो
बिग डाटा इंजीनियरिंग में स्पेशली डेटा
इंजीनियर्स यूज करते हैं उसका नाम है डेटा
वेयर हाउसिंग डेटा वेयर हाउसिंग भी बहुत
अच्छा कांसेप्ट है डेटा वेयर हाउसेस के
बारे में आपको पढ़ना पड़ेगा और अगर मैं
बात करूं कि कौन से डेटा वेयर हाउसेस आपको
पढ़ने हैं है जो कि दोस्तों मैंने देखा है
अक्सर कंपनीज यूज़ करती हैं यानी मेरा जो
प्रीवियस एक्सपीरियंस रहा है जहां मैंने
जॉब्स के लिए अप्लाई करा है उनकी बारे में
बात करें तो मोस्टली कंपनीज यूज़ करती हैं
हाइब हाइब डूब इकोसिस्टम का एक पार्ट है
तो आपको हाइब जरूर से पढ़ना चाहिए इसके
साथ-साथ अभी के टाइम पे जैसे-जैसे जो
कंपनीज है क्लाउड की तरफ मूव कर रही हैं
क्लाउड कंप्यूटिंग की तरफ मूव कर रही हैं
तो बहुत सारी कंपनीज अभी के टाइम पे यूज़
कर रही हैं स्नोफ्लेक तो स्नोफ्लेक बहुत
अच्छी टेक्नोलॉजी है बहुत अच्छी चीज है
अगर आप आज पढ़ लेते हो तो फ्यूचर प्रूफ हो
आप क्योंकि बहुत सारी कंपनी इसको यूज नहीं
करती थी वो भी इसको यूज कर रही हैं अपने
जो ऑन प्रीमाइ जो भी उनका फ्रेमवर्क था जो
भी उनके प्रोजेक्ट्स थे वो उनको क्लाउड पे
ले जा रहे हैं और जैसे-जैसे चीजें क्लाउड
पे जा रही हैं क्लाउड के जो टेक्नोलॉजीज
हैं उनको इंप्लीमेंट किया जा रहा है जैसे
कि स्नोफ्लेक तो आप लोग स्नोफ्लेक को भी
जरूर से पढ़ लेना दोस्तों अब हम बात करते
हैं एक बहुत ही इंपॉर्टेंट टर्म एक बहुत
ही इंपॉर्टेंट टेक्नोलॉजी के बारे में
हालांकि यह टेक्नोलॉजी हर कंपनी में यूज
नहीं होती है लेकिन इसका फ्यूचर बहुत
अच्छा है और बहुत सारी कंपनीज इसकी तरफ
आगे मूव कर रही हैं क्यों कर रही हैं और
कौन सी टेक्नोलॉजी है उसके बारे में जान
लेते हैं तो मैं जिस टेक्नोलॉजी के बारे
में बात कर रहा हूं उसको हम बोलते हैं
रियल टाइम डटा प्री प्रोसेसिंग यानी
जैसे-जैसे डटा आ रहा है उसको प्री प्रोसेस
करके इनसाइट्स फाइंड करना या फिर मशीन
लर्निंग मॉडल यूज करना जैसे कि बहुत सिंपल
एग्जांपल आपको दे सकता हूं
कर रहे हैं रिकमेंडेशन इंजंस बना रहे हैं
जिससे कि आपको अच्छी वैल्युएबल प्रोडक्ट
बेच सके और उनका बहुत अच्छा प्रॉफिट हो
सके इसलिए यह जो टेक्नोलॉजी है लगभग हर
कंपनी में यूज़ हो रहा है रियल टाइम डाटा
प्री प्रोसेसिंग तो अगर आपको रियल टाइम
डाटा प्री प्रोसेसिंग पढ़ना है तो आपको
कौन सी टेक्नोलॉजीज को पढ़ना होगा कौन से
टेक स्टेक्स हैं जिनको आपको पढ़ना पड़ेगा
तो दोस्तों आज के समय के बारे में बात
करूं तो अभी कंपनीज यूज़ करती हैं apache2
आप रियल टाइम में डाटा को स्ट्रीम कर सकते
हो साथ में ही प्री प्रोसेस कर सकते हो
दोस्तों इसके साथ-साथ अ के और भी
सॉफ्टवेयर्स हैं जैसे कि अची फंक अची स्टम
ये जो टेक्नोलॉजीज हैं ये भी रियल टाइम
डाटा प्री प्रोसेसिंग और एनालिटिक्स के
लिए यूज की जाती हैं तो आप इन तीनों को
जरूर से पढ़ लेना अगर आप रियल टाइम डाटा
प्री प्रोसेसिंग की तरफ जाना चाहते हो
क्योंकि मैं पिछली कंपनी में अची काफ का
यूज करता था तो मेरे को इसके बारे में पता
है टेक्नोलॉजी कैसी है है इसके बारे में
पता है कई जगह मैंने अप्लाई किया और वहां
पे देखा अची काफ का रिक्वायरमेंट था
क्योंकि आप खुद समझो ना कि यह जो रियल
टाइम डाटा प्री प्रोसेसिंग है वो कितना
इंपॉर्टेंट है कंपनी तुरंत आपको
रिकमेंडेशन कर सकती है अपने प्रोडक्ट्स को
बेचने में उनके लिए बहुत आसानी है तो
इसलिए आप इन चीजों को जरूर से पढ़ लेना
दोस्तों अब हम बात करते हैं एक और
इंपॉर्टेंट टॉपिक के बारे में जिसके बारे
में आप लोगों ने हमेशा सुना होगा कि डाटा
इंजीनियर्स ई पाइपलाइंस बनाते हैं यानी
एक्सट्रैक्ट ट्रांसफॉर्म लोड यह पाइपलाइन
बनाते हैं तो आखिर यह पाइपलाइन होती कैसी
है और इनका ऑर्केस्ट्रेशन कैसे होता है
यानी जो वर्कफ्लो है उनका मैनेजमेंट कैसा
होता है कि एक्स्टेक्स्ट कब होगा
ट्रांसफॉर्म कब होगा लोड कब होगा और इनकी
जो डिपेंडेंसी है इंटर डिपेंडेंसी है वो
कैसे मैनेज होगी यानी पहले पहला टास्क चले
जब पहला टास्क कंप्लीट हो तो दूसरा चले
दूसरा कंप्लीट हो तो तीसरा चले दूसरा फेल
हो रहा है तो यूजर को नोटिफिकेशन जाए और
तीसरा नहीं चले तो ऐसे डिपेंडेंसीज के साथ
कैसे जो टास्क है एक दूसरे से इंटरलिंक्ड
रहे और कैसे एक पाइपलाइन बने तो ईटीएल
पाइपलाइन यही होता है या फिर सिंपल डाटा
इंजीनियरिंग के टर्म में पाइपलाइन का मतलब
ये होता है आपके पास पांच टास्क हैं और
उनको आप अलाइन कर रहे हो एक दूसरे पे
डिपेंडेंट होते हुए कि पहला टास्क दूसरे
से कैसे डिपेंडेंट है कैसे लिंक्ड है
दोनों और ऐसे कर करके आप एक पाइपलाइन
बनाते हो जिसे हम सिंपल ईटीएल पाइपलाइन कह
लो या फिर डाटा पाइपलाइन कहते हैं तो इन
पाइपलाइन को ऑर्केस्ट्रेट करने के लिए
इनके वर्कफ्लो को मैनेज करने के लिए यूज
होता है एयरफ्लो दोस्तों ची फाउंडेशन का
एक सॉफ्टवेयर है एयरफ्लो जो कि ओपन सोर्स
सॉफ्टवेयर है और ऑलमोस्ट एवरी कंपनी यूज
करती है एयरफ्लो को ऑर्केस्ट्रेशन के लिए
वर्कफ्लो मैनेजमेंट के लिए तो आप लोग
एयरफ्लो को जरूर से पढ़ लेना अभी तक आपने
नहीं पढ़ा है एयरफ्लो तो अभी से पढ़ लो
दोस्तों एयरफ्लो पढ़ने के लिए बहुत ज्यादा
टाइम नहीं लगता है आप 10 से 15 दिन में
एयरफ्लो बहुत अच्छी तरीके से सीख सकते हो
और आप लोग कौन-कौन सी टेक्नोलॉजी सीखना
चाहते हो मैंने जो भी इस वीडियो में बताया
आप जरूर से कमेंट करके बताना मैं कोशिश
करूंगा थोड़ा-थोड़ा करके उनके बारे में
ट्यूटोरियल्स लेकर आ हूं इसी
हैं उसमें मेनली तीन हैं amazonaws.com
है तो मैं आपको रिकमेंड करूंगा एडब्ल्यू
से शुरू करो एडब्ल्यूएम से मास्टर कर लेते
हो उसके बाद बाकी जो क्लाउड सर्विसेस हैं
उनको भी एक बार आप लोग देख लेना लेकिन
आपको कम से कम एक क्लाउड सर्विस के बारे
में जरूर से जानकारी होनी चाहिए क्योंकि
जैसे-जैसे आप आगे बढ़ो ग सारी कंपनीज
क्लाउड पे जा रही हैं और वो किसी ना किसी
एक सर्विस से ही आगे बढ़ेंगी और दोस्तों
एक और जरूरी और इंपॉर्टेंट चीज अगर आप जॉब
डिस्क्रिप्शन देखने जाते हो सिंपल
ऑलमोस्ट 10 में से हर सात जॉब ओपनिंग में
क्लाउड कंप्यूटिंग इंपॉर्टेंट है डाटा
इंजीनियर रोल के लिए आपको या तो एडब्ल्यू
आना चाहिए या तो जीसीपी आना चाहिए या फिर
आपको एजर आना चाहिए तो यह बहुत इंपॉर्टेंट
है इसको आप लोग जरूर से पढ़ लेना दोस्तों
अब हम बात करते हैं एक ओवरऑल नॉलेज के
बारे में ओवरऑल नॉलेज में आपको डाटा
मॉडलिंग के बारे में पता होना चाहिए ईटीएल
पाइपलाइंस के बारे में पता होना चाहिए तो
एक ओवरव्यू आप लोग जरूर से ले लेना कि
डाटा मॉडलिंग क्या होता है ईटीएल पाइप
लाइंस क्या होती हैं इसके साथ-साथ आप लोग
सिस्टम डिजाइन भी पढ़ लेना क्योंकि
ऑलमोस्ट सारी कंपनीज सिस्टम डिजाइन को
बहुत अच्छे से फॉलो करती हैं जो उनके
प्रोडक्ट्स होते हैं जिसे हम प्रोजेक्ट्स
भी बोलते हैं उनमें सिस्टम डिजाइन को बहुत
अच्छे से यूज किया जाता है ताकि वो जो
प्रोडक्ट है या फिर प्रोजेक्ट है उसको
स्केल किया जा सके जैसे-जैसे नंबर ऑफ
यूजर्स बढ़े जैसे-जैसे वो प्रोडक्ट पॉपुलर
हो जाए तो आप लोग सिस्टम डिजाइन भी जरूर
से पढ़ लेना इंटरव्यूज में भी आपको सिस्टम
डिजाइन से क्वेश्चन पूछे जाते हैं और अगर
बात करूं जितनी भी टेक्नोलॉजीज के बारे
में दोस्तों मैंने आपको बताया सभी
टेक्नोलॉजी से आपको इंटरव्यू में क्वेश्चन
पूछा जाएगा तो यह बहुत ज्यादा इंपॉर्टेंट
है दोस्तों एक और चीज यहां पे मैं आपको
बताना चाहता हूं जो कि बहुत आसान
टेक्नोलॉजी है उसको सीखना बहुत आसान है
जिसका नाम है स्कूप स्कूप एक टेक्नोलॉजी
है जिससे हम डाटा को डुप इकोसिस्टम में
इंपोर्ट करते हैं और एक्सपोर्ट करते हैं
यानी मान लो आपका डाटा जो है वो रिलेशनल
डेटाबेस मैनेजमेंट सिस्टम में है जैसे माय
एसक्यूएल में है और उसको आप एचडीएफएस पे
ले जाना चाहते हो तो कैसे ले जाओगे तो आप
स्कूप इंपोर्ट से डाटा ले जा सकते हो और
मान लो आपका डाटा एचडीएफएस पे है और उसको
आप ओरेकल सिस्टम में जो रिलेशनल डेटाबेस
मैनेजमेंट सिस्टम है उसमें ले जाना चाहते
हो तो आप स्कूप से स्कूप एक्सपोर्ट करके
ले जा सकते हो तो आप स्कूप भी जरूर से पढ़
लेना क्योंकि कंपनीज हर तरह के डेटा बेसेस
पे काम करती हैं हर तरह के स्टोरेज सिस्टम
पे काम करती हैं तो दोस्तों उनको स्कूप
कहीं ना कहीं यूज करना पड़ता है तो
इंटरव्यू में भी इससे क्वेश्चंस पूछे जाते
हैं कि आपको डाटा को यहां से वहां ले जाना
है कैसे ले जाओगे कौन सी टेक्नोलॉजी का
यूज करोगे आपको सिंटेक्स भी पूछ लिए जा
सकते हैं तो आप लोग स्कूप के बारे में
जरूर से पढ़ लेना तो दोस्तों ये रहे
टेक्नोलॉजीज जिनके बारे में मैंने पढ़ा था
बहुत अच्छे से पढ़ा था पूरे चार महीने तक
मैंने इन टेक्नोलॉजीज के बारे में पढ़ा
फिर जाके मुझे यूके में जेपी मॉर्गन में
जॉब मिली तो यह जो टेक्नोलॉजीज मैंने
बताया आप लोग को एक ओवरऑल स्पेक्ट्रम है
आपको सभी टेक्नोलॉजीज के बारे में प पढ़ना
होगा इंटरव्यूज के लिए प्रिपेयर करना होगा
और एक और चीज एक प्लस पॉइंट की तरह मैं आप
लोग को बता देना चाहता हूं अगर आप डाटा
इंजीनियर बनने जा रहे हो डाटा इंजीनियर की
पढ़ाई कर रहे हो तो थोड़ा बहुत आप लोग
डेटा एनालिटिक्स साइड भी पढ़ लेना जैसे
टबलू के बारे में पढ़ लेना पावर बी आई के
बारे में पढ़ लेना python-levenshtein
आप बहुत आसानी से पढ़ सकते हो लेकिन अगर
आपने एक बार पढ़ लिया अपने रिज्यूमे में
मेंशन कर दिया तो आपको एक प्लस पॉइंट
मिलता है इंटरव्यूज में रिज्यूमे
शॉर्टलिस्टिंग में आपको एज मिलता है तो आप
लोग जरूर से इन टेक्नोलॉजीज को भी पढ़
लेना और दोस्तों इसके साथ-साथ अपने
कम्युनिकेशन स्किल्स पे भी आप लोग फोकस
करना कम्युनिकेशन स्किल कहने का मतलब यह
नहीं होता है कि अगर अगला बंदा बहुत
फ्लूएंट बहुत फास्ट इंग्लिश बोल रहा है तो
उसके कम्युनिकेशन स्किल को बहुत अच्छा
बोला जाएगा कम्युनिकेशन स्किल का मतलब यह
होता है सामने वाला बंदा जो हमें बोल रहा
है हम उसको समझ पा रहे हैं कि नहीं और वह
समझ के हम अच्छे से आंसर दे पा रहे हैं कि
नहीं इसको हम बोलते हैं कम्युनिकेशन स्किल
और आप अगर आईटी इंडस्ट्री में जा रहे हो
तो कम्युनिकेशन स्किल का मतलब यह हुआ कि
जो भी टेक्नोलॉजीज हैं जो भी टूल्स हैं
अगर उनके बारे में आपको पता है और
इंटरव्यूअर जो आपसे क्वेश्चन पूछ रहा है
वो आप समझ पा रहे हो कि वो क्या पूछ रहा
है और आप उसका बहुत सिंपल वर्ड्स में बहुत
ऐसे बहुत बहुत ऐसे हाईफाई वर्ड्स यूज़
करके के नहीं बहुत सिंपल वर्ड्स में भी आप
आंसर दे पा रहे हो तो वही बहुत अच्छा
कम्युनिकेशन स्किल माना जाएगा मेरी भी
इंग्लिश बहुत अच्छी नहीं है आप लोग देख लो
मैं हिंदी में ही वीडियो बनाता हूं तो ऐसा
नहीं है आपको अंग्रेजी थोड़ी कम बोलने आती
है तो आपको जॉब नहीं मिलेगा बेशक मिलेगा
बेहिचक मिलेगा आप बस स्किल्स पे फोकस करो
पढ़ाई करो इसके साथ-साथ जितनी भी
टेक्नोलॉजीज आपको बताई जितने भी टूल्स
मैंने बताया इसके साथ-साथ डाटा स्ट्रक्चर
एल्गोरिथम और लीड कोड प्रैक्टिस करना नहीं
भूलना है क्योंकि पहला राउंड टेक्निकल
इंटरव्यू होता है जिसमें आपको लीड कोड
यानी कंपीटेटिव प्रोग्रामिंग या फिर
प्रॉब्लम सॉल्विंग के क्वेश्चन आपको मिलते
हैं और आपको उन्हें सॉल्व करना होता है तो
दोस्तों यह थी आज की वीडियो जिसमें मैंने
आपको बताया डाटा इंजीनियरिंग रोड मैप के
बारे में यानी इन अगर टूल्स टेक्नोलॉजीज
को आप लोग पढ़ लेते हो तो आपको डाटा
इंजीनियर की जॉब मिलने में बहुत आसानी हो
जाएगी दोस्तों अगर वीडियो अच्छी लगी हो तो
कमेंट करके जरूर से बताना इनमें से
कौन-कौन सी टेक्नोलॉजीज आपको आती हैं और
कौन-कौन सी टेक्नोलॉजीज आप लोग सीखने जा
रहे हैं हो और आप लोग मुझसे अगर सीखना
चाहते हो तो कमेंट करके जरूर से बताना मैं
इन टूल्स और टेक्नोलॉजीज के ऊपर
ट्यूटोरियल्स वीडियोस बहुत छोटा-छोटा बहुत
कमकम करके इस
youtube2 एंड कीप लर्निंग थैंक यू
Voir Plus de Vidéos Connexes
How He Got $600,000 Data Engineer Job
What Tools Should Data Engineers Know In 2024 - 100 Days Of Data Engineering
Data Analyst Roadmap with Free Resources !!
Hadoop Ecosystem Explained | Hadoop Ecosystem Architecture And Components | Hadoop | Simplilearn
What is ETL Pipeline? | ETL Pipeline Tutorial | How to Build ETL Pipeline | Simplilearn
Books every software engineer should read in 2024.
5.0 / 5 (0 votes)