Lecture 4.2 - Association between two categorical variables - Introduction
Summary
TLDRThe script discusses the concept of association between variables, particularly focusing on the relationship between categorical and numerical variables. It explores how to understand and represent these associations through contingency tables, emphasizing the importance of order in ordinal variables. The example of smartphone ownership in relation to gender and income levels illustrates the process of summarizing data and creating cross-tabulations to analyze associations effectively.
Takeaways
- 📊 The script discusses the concept of association between variables, emphasizing that association does not imply causation.
- 🔍 It focuses on understanding associations between two numerical variables, particularly in the context of categorical and numerical variables.
- 📈 The module aims to teach how to interpret the association between two variables using plots and how to create a contingency table to analyze these associations.
- 👥 A market research example is used to explore whether there is an association between gender and smartphone ownership.
- 📝 Data is presented in a contingency table format, capturing gender and smartphone ownership among 100 college students.
- 👩🦳👦 Gender is captured as a nominal variable with two categories: male and female, while smartphone ownership is a binary categorical variable with 'yes' or 'no'.
- 🔢 The data summary reveals the count of male and female students, as well as the number who own smartphones and those who do not.
- 📉 The script explains how to create a pivot table in Google Sheets to analyze the association between gender and smartphone ownership.
- 📝 The importance of recording data accurately is highlighted, especially when dealing with categorical variables like gender and binary outcomes like smartphone ownership.
- 📚 The script also touches on ordinal variables, such as income levels categorized as low, medium, or high, and how they differ from nominal variables.
- 📋 The final takeaway is about the importance of maintaining the order in the contingency table when dealing with ordinal variables to accurately reflect the data's hierarchy.
Q & A
What is the main focus of the module discussed in the script?
-The main focus of the module is to understand the association between two categorical and numerical variables, specifically how to capture and analyze these associations.
What is the significance of understanding the association between variables?
-Understanding the association between variables is important for identifying patterns, making predictions, and drawing meaningful conclusions from data analysis.
What is the purpose of creating a contingency table in the context of this script?
-The purpose of creating a contingency table is to organize data in a way that makes it easier to analyze the relationship between two categorical variables, such as gender and smartphone ownership.
How is the data in the script collected and represented?
-The data is collected through a survey of 100 college students, capturing information about their gender and whether they own a smartphone, and is represented in a contingency table format.
What is the meaning of 'nominal variable' in the context of the script?
-In the script, a nominal variable refers to a categorical variable that can take on two or more values without any intrinsic order or ranking, such as gender.
How is the smartphone ownership variable captured in the script?
-Smartphone ownership is captured as a binary categorical variable with two values: 'yes' or 'no', indicating whether a student owns a smartphone.
What is the term used to describe a table that shows the relationship between two categorical variables?
-The term used to describe such a table is a 'contingency table', also commonly referred to as a 'cross-tabulation' or 'crosstab'.
What is the importance of considering the order in the contingency table when dealing with ordinal variables?
-When dealing with ordinal variables, considering the order is important because it reflects a ranking or sequence that can influence the analysis and interpretation of the data.
How does the script suggest to handle ordinal variables in a contingency table?
-The script suggests coding ordinal variables with numbers that represent their order, such as 1 for high income, 2 for medium income, and 3 for low income, to maintain the sequence in the contingency table.
What is the goal when analyzing the contingency table in the script?
-The goal is to determine whether there is an association between the categorical variables, such as whether gender is associated with smartphone ownership, and to understand the distribution of these associations across different categories.
How can one use the contingency table to explore the relationship between income and smartphone ownership?
-One can use the contingency table to explore the relationship by comparing the distribution of smartphone ownership across different income levels, thus analyzing if there is a correlation between income and the likelihood of owning a smartphone.
Outlines
📊 Introduction to Variables Association
This paragraph introduces the concept of understanding the association between two variables, rather than just focusing on a single variable. It emphasizes that association does not imply causation. The speaker discusses the importance of exploring these associations, particularly between categorical and numerical variables, and sets the stage for the module's focus on how to interpret these associations in a dataset.
🔍 Capturing Gender and Smartphone Ownership
The speaker explains how to capture and analyze data on two categorical variables: gender and smartphone ownership. The data is collected from a survey of 100 students, recording whether they own a smartphone and their gender. The paragraph details how to organize and interpret this data, highlighting the importance of considering both variables to understand potential associations.
📈 Understanding Categorical Variables
This paragraph delves into the specifics of categorical variables, such as gender and smartphone ownership, explaining that gender is a nominal variable with no inherent order, while smartphone ownership is an ordinal variable with a clear 'yes' or 'no' order. The speaker discusses the importance of recognizing the type of variable when analyzing data and how it affects the interpretation of associations.
📉 Summarizing Data with a Contingency Table
The speaker introduces the concept of a contingency table, used to summarize data on the association between gender and smartphone ownership. The paragraph explains how to construct and interpret this table, which shows the number of individuals in each category, such as the number of male and female students who own or do not own smartphones. It also discusses how to ensure the data adds up correctly across categories.
📝 Creating a Pivot Table for Data Analysis
The paragraph explains the process of creating a pivot table in Google Sheets to analyze the association between gender and smartphone ownership. It details the steps to select the variables, organize the data, and generate the pivot table, which provides a visual representation of the associations within the dataset. The speaker emphasizes the utility of pivot tables in quickly identifying patterns and relationships in the data.
🔄 Comparing Ordered and Nominal Variables
This paragraph discusses the analysis of ordinal and nominal variables, specifically income level and smartphone ownership. The speaker explains how to categorize income into high, medium, and low and contrasts this with the nominal variable of smartphone ownership. The paragraph highlights the importance of considering the order of variables when analyzing data and how to represent this order in a contingency table.
🗂 Organizing Data in a Pivot Table
The speaker concludes by demonstrating how to organize the data in a pivot table to reflect the associations between income level and smartphone ownership. The paragraph explains how to code income levels and how to ensure the pivot table accurately represents the distribution of smartphone ownership across different income brackets.
Mindmap
Keywords
💡Variable
💡Association
💡Categorical Variable
💡Numerical Variable
💡Ordinal Variable
💡Data Collection
💡Frequency Table
💡Cross-tabulation
💡Market Research
💡Google Sheets
💡Pivot Table
Highlights
The module focuses on understanding the association between two numerical variables.
The importance of recognizing the association between variables without implying causation is discussed.
The concept of nominal variables and their role in data analysis is introduced.
An example of market research is presented to illustrate the association between gender and smartphone ownership.
Data collection methods are explained, emphasizing the importance of capturing gender and smartphone ownership accurately.
The creation of a contingency table to understand the relationship between categorical variables is described.
The significance of relative frequency in analyzing the association between variables is highlighted.
A step-by-step guide on how to use Google Sheets to create a pivot table for data analysis is provided.
The process of categorizing data into nominal and ordinal variables is explained with examples.
The importance of maintaining the order of ordinal variables in the analysis is emphasized.
The concept of income as an ordinal variable and its categorization into high, medium, and low is introduced.
The analysis of the association between smartphone ownership and income level is discussed.
The use of coding to represent different income levels in the analysis is explained.
The final pivot table is presented, showing the distribution of smartphone ownership across different income levels.
The practical application of the analysis in understanding market trends and consumer behavior is discussed.
The importance of careful data interpretation and the potential impact of the findings on business strategies is highlighted.
Transcripts
आता पुढील गोष्ट काय आहे?
आतापर्यंत आपण फक्त एकाच व्हेरिएबलचा
सारांश समजून घेण्यावर लक्ष केंद्रित केले
आहे.
परंतु बहुतेक वेळा दोन व्हेरिएबल्स
एकमेकांशी असोसिएटेड आहेत की नाही हे समजून
घेण्यात आपल्याला रस असतो.
जेव्हा मी असोसिएशनबद्दल बोलतो तेव्हा मी
कार्यकारणभावाचा उल्लेख करत नाही.
असोसिएशन नेहमीच कार्यकारणभाव नसते.
आपण येथे कार्यकारणभावाबद्दल बोलत नाही, परंतु
तुम्ही फक्त व्हेरिएबल्स मधील असोसिएशनबद्दल
प्रश्न विचारत आहात.
तर, या मॉड्युलमध्ये बोलत आहोत.
या प्लॉटचे स्वरूप आणि आपण दोन नुमेरिकल
व्हेरिएबल्स मधील असोसिएशन कसे मोजतो.
जरी या मॉड्युलचा फोकस प्रामुख्याने
दोन कॅटेगरीकल आणि नुमेरिकल व्हेरिएबल्समधील
असोसिएशन समजून घेणे हा आहे, तरीही आपण
श्रेणी आणि नुमेरिकल व्हेरिएबल्स यांच्यातील
संबंध किंवा असोसिएशन याबद्दल कसे बोलाल
हे समजून घेण्यासाठी आपण थोडा वेळ घालवतो.
तर, ही या आठवड्याची शिकण्याची उद्दिष्टे
आहेत.
तर, आपण कॅटेगरीकल व्हेरिएबल्स मधील
असोसिएशनने सुरुवात करतो.
तर, या विभागाचा मुख्य उद्देश काय आहे?
तर, आपण ज्याला द्विमार्गी आकस्मिक टेबल म्हणतो
ते कसे तयार करायचे ते येथे समजून घेणार
आहोत.
आपण सापेक्ष फ्रिक्वेंसीची संकल्पना मांडू आणि
दोन कॅटेगरीकल व्हेरिएबल्समध्ये असोसिएशन आहे की
नाही हे निर्धारित करण्यासाठी तुम्ही
सापेक्ष फ्रिक्वेंसी ही संकल्पना कशी
वापरू शकता याचा वापर करू.
तर, आपण एका उदाहरणाने सुरुवात करूया.
आता तुम्ही हे उदाहरण पाहिल्यास माझ्याकडे
एक मार्केट रिसर्च फर्म असोसिएटेड आहे
की नाही हे शोधण्यात स्वारस्य आहे.
दुसऱ्या शब्दांत, कंपनीला हे जाणून
घेण्यात रस आहे की पुरुषांच्या तुलनेत
अधिक महिलांकडे स्मार्टफोन आहे की नाही किंवा
स्मार्टफोनची मालकी एखाद्या व्यक्तीच्या
जेंडर पेक्षा स्वतंत्र आहे का.
हा मुख्य प्रश्न आहे.
तर, आपण या प्रश्नाचे उत्तर कसे द्यायचे?
लगेच तुम्हाला दिसेल की जेव्हा मी याबद्दल
बोलतो तेव्हा मी प्रत्यक्षात दोन
व्हेरिएबल्सवर चर्चा केली आहे.
पहिला व्हेरिएबल जेंडर आहे आणि दुसरे
व्हेरिएबल स्मार्टफोनची मालकी आहे.
तर, आपण हे जेंडर कसे कॅप्चर गृहीत धरत
आहे.
ज्या प्रकारे मी स्मार्टफोनची मालकी
मिळवली आहे ती पुन्हा एका कॅटेगरीकल व्हेरिएबलद्वारे
आहे.
येथे, तुमच्या मालकीचा फोन असल्यास तुम्ही
होय म्हणाल, जर तुमच्याकडे फोन नसेल तर तुम्ही
नाही म्हणा.
तर, डेटा पाहू.
तर, जर तुम्ही डेटा पाहिला तर तुम्हाला
दिसेल की हा डेटा आहे.
डेटा म्हणजे काय?
माझ्याकडे गोळा केलेला डेटा आहे जिथे मी
ज्या व्हेरिएबल्सबद्दल बोलत आहे ते मूलत:
तुम्ही जेंडर पाहू शकता आणि त्यांच्याकडे
स्मार्टफोन आहे की नाही, हा डेटा गोळा
केला जातो आणि हा डेटा प्रत्यक्षात
100 विद्यापीठातील विद्यार्थ्यांसाठी
गोळा केला जातो.
तर, डेटा काय आहे?
गोळा केलेला डेटा हा 100 महाविद्यालयीन
मुलांचा गट आहे ज्यांच्याकडे स्मार्टफोन आहे की
नाही याबाबत सर्वेक्षण करण्यात आले.
त्यामुळे, गोळा केलेला डेटा प्रत्येक विद्यार्थ्यासाठी
काय कॅप्चर केले गेले, जेंडर आणि त्यांच्याकडे
फोन आहे की नाही.
म्हणून होय, नाही, आणि जेंडर पकडले
गेले.
म्हणून, उदाहरणार्थ, पहिली व्यक्ती, मी
जेंडर विचारतो तो पुरुष असू शकतो.
या व्यक्तीकडे सेल फोन असता तर तो होय
असता.
दुसरी व्यक्ती, पुरुषाकडे फोन नाही.
तिसरी व्यक्ती एक महिला असू शकते जिच्याकडे
फोन नाही.
चवथी व्यक्ती ही एक महिला असू शकते
जिच्याकडे फोन आहे, n व्यक्ती, आणि हा
डेटा आपण 100 विद्यार्थ्यांसाठी गोळा करतो.
तर, येथे दोन व्हेरिएबल जेंडर आहेत.
त्यांच्याकडे स्मार्टफोन आहे की नाही हे येथे
दुसरे व्हेरिएबल आहे.
होय, त्यांच्याकडे फोन असल्यास नंतर
त्यांच्याकडे फोन नसल्यास.
तर, हा आपण गोळा केलेला डेटा आहे.
एकूण निरीक्षणांची संख्या 100 आहे आणि
आपण अशा प्रकारे डेटा गोळा केला आहे.
तर, या उदाहरणातील कॅटेगरीकल व्हेरिएबल्स
काय आहेत?
प्रथम श्रेणीबद्ध व्हेरिएबल जेंडर
आहे.
त्या दोन श्रेणी आहेत आणि आपल्याला
माहित आहे की जेंडर हे नॉमिनल व्हेरिएबल
आहे.
मग पुढील कॅटेगरीकल व्हेरिएबल म्हणजे
तुमच्याकडे स्मार्टफोन आहे की नाही.
हे व्हेरिएबल जी मूल्ये घेते ती होय
आणि नाही आहेत.
स्त्री-पुरुष ही मूल्ये जेंडर घेतात.
पुन्हा माझ्याकडे दोन श्रेणी आहेत,
पुन्हा ते नाममात्र व्हेरिएबल आहे कारण
या व्हेरिएबलमध्ये कोणताही क्रम नाही.
यास्तव, तुम्ही पाहू शकता की मला माझ्या
व्हेरिएबलचा प्रकार काय आहे आणि मापनाचे
प्रमाण काय आहे हे माहित असणे आवश्यक
आहे.
येथे माझ्याकडे मोजमापाच्या नॉमिनल स्केलसह दोन्ही
कॅटेगरीकल व्हेरिएबल्स आहेत.
तर, आता तुमच्याकडे डेटा आल्यावर आपण
डेटा पाहू, हा डेटा आहे ज्याबद्दल मी
बोलत आहे.
तर, येथे तुमच्याकडे 100 विद्यार्थी आहेत
आणि या प्रत्येक निरीक्षणातून मी
त्यांचे जेंडर कॉपी करतो आणि त्यांच्याकडे
स्मार्टफोन आहे की नाही.
तर, माझ्या डेटावरून माझ्याकडे असलेली
सारांश आकडेवारी काय आहे?
माझ्या डेटावरून माझ्याकडे असलेली
सारांश आकडेवारी अशी आहे की माझ्याकडे
44 महिला विद्यार्थी आणि 56 पुरुष विद्यार्थी
आहेत.
लक्षात ठेवा आपण 100 विद्यार्थ्यांना
प्रश्न विचारत आहोत.
प्रत्येक विद्यार्थ्यासाठी आपण त्यांचे जेंडर
काय रेकॉर्ड करतो आणि त्यांच्याकडे
स्मार्टफोन आहे की नाही हे आपण रेकॉर्ड
करतो.
हे आपले सर्वेक्षण आहे.
पुढे, 76 विद्यार्थ्यांकडे स्मार्टफोन होता
आणि 24 विद्यार्थ्यांकडे नाही.
म्हणून, जर तुम्ही ते बघितले तर, आपण
मागील आठवड्यांमध्ये जी चर्चा केली होती
ती होती, प्रथम मी या जेंडर चा सारांश
कसा बनवायचा हे कॅटेगरीकल व्हेरिएबल म्हणून
जेंडरकडे पाहिले तर.
मला 44 स्त्रिया आणि 56 पुरुष माहित आहेत
आपण पाहिले की आपण बार चार्ट वापरून
त्याचा सारांश देऊ शकतो.
पुन्हा एक स्मार्टफोन आहे की नाही.
मालकी होय नाही, माझ्याकडे 76 होय आणि 24 नाही आहेत.
पुन्हा या मालकीची दोन मूल्ये आहेत,
होय आणि नाही आणि ती दोन्ही येथे 44
+ 56,ते 100 पर्यंत जोडतात. 76 + 24,ते 100 पर्यंत जोडतात.
आता मला या दोन व्हेरिएबल्समधील असोसिएशन जाणून घ्यायचे
आहे.
तर, माझ्याकडे आणखी एक डेटा आहे जो माझ्यासाठी
उपयुक्त आहे ज्यामध्ये असे म्हटले आहे की
34 विद्यार्थिनींकडे स्मार्टफोन होता
आणि 42 कडे स्मार्टफोन होता.
तर, हा डेटा आहे जो आपल्याला दिला जातो.
तर, आपण हा पहिला प्रश्न विचारतो की मी हा
डेटा कसा सारांशित करू.
तर, माझ्याकडे या टेबलच्या स्वरूपात
असलेला हा डेटा पाहता, प्रश्न असा आहे की
मी हा डेटा कसा सारांशित करू?
माझ्याकडे दोन व्हेरिएबल्स आहेत, पहिले व्हेरिएबल
जेंडर आहे.
आता या जेंडरला दोन मूल्ये आहेत.
मी स्त्री म्हणून लिहितो, मी पुरुष
म्हणून लिहितो.
तर हे माझे व्हेरिएबल आहे.
दुसरे व्हेरिएबल मालकी आहे.
आता हे होय आहे किंवा हे नाही आहे हे होय
आहे आणि माझ्याकडे एकूण बेरीज आहेत.
तर, माझ्याकडे ग्रँड रोव ची एकूण संख्या
असल्यास, माझ्याकडे ती येथे आहे, माझ्याकडे
येथे एक कॉलम आहे.
तर, तुम्ही बघू शकता की येथे दिलेले 44
स्त्रिया आहेत, 56 पुरुष आहेत जे येथे
दिले आहेत.
आता जेव्हा मी मालकीकडे आलो तेव्हा 24 ची मालकी
नव्हती, म्हणून माझी संख्या 24, 76 मालकीची
आहे.
तर, आपण पाहू शकतो की या एकूण 100 विद्यार्थ्यांची
भर पडते.
ही पहिली गोष्ट आहे.
मी आतील टेबल भरण्याकडे पाहत नाही, परंतु
या 44 स्त्रिया आहेत, माझ्या डेटासेटमध्ये
56 पुरुष आहेत, 24 मालकीचे नाहीत, 76 मालकीचे
आहेत.
आता पुढे तर हे मी टेबलबद्ध केले आहे.
तर, हे 34 आहे कारण 34 महिलांकडे स्मार्टफोन
होता.
त्याचप्रमाणे 42 पुरुषांकडे स्मार्टफोन होता.
आता किती जणांच्या मालकीचे नव्हते ते
सोपे आहे. 10 जे 44 - 34 आहे आणि येथे माझ्याकडे
14 आहे जे 56 - 42 आहे.
आपण 10 + 14 = 24, 34 + 42 = 76 पाहू शकतो आणि आपण हे देखील
तपासू शकतो की 10 + 34 = 44 आणि 14 + 42 = 56.
तर , या डेटाचा सारांश किंवा येथे दिलेला
डेटा दुतर्फा टेबल म्हणून संदर्भित
केला जातो ज्याला अधिक लोकप्रियपणे
आकस्मिक टेबल म्हणून संदर्भित केले जाते.
आपण आकस्मिक टेबल कसे तयार करू?
आकस्मिक टेबल तयार करण्यासाठी आपण पहिले
व्हेरिएबल पाहतो.
या पहिल्या व्हेरिएबलमधील पहिल्या व्हेरिएबलचे
स्तर हे जेंडर आहे आणि त्यात स्त्री
आणि पुरुष अशी दोन मूल्ये आहेत.
तर, समजा या व्हेरिएबलला 3 मूल्ये लागतात.
तर पहिल्या व्हेरिएबलची लेव्हल 1, लेव्हल 2,
लेव्हल 3 किंवा लेव्हल m माझ्या रोवमध्ये
जाते.
मी माझे दुसरे व्हेरिएबल पाहतो.
समजा दुसऱ्या व्हेरिएबलची n मूल्ये आहेत.
माझ्याकडे लेव्हल 1, लेव्हल 2, लेव्हल
n आहे, माझ्याकडे n कॉलम असतील.
आणि येथे i, jth कॉलममध्ये जे जाते ते ith व्हेरिएबल
आणि jth व्हेरिएबलच्या एकत्रित निरीक्षणांची
संख्या आहे.
उदाहरणार्थ 34 ही संख्या आहे ज्यांच्याकडे
फोन आहे.
तर, आकस्मिक टेबल काय आहे हे आपण अशा
प्रकारे तयार करतो.
आणि आपण पाहू शकता की अशा प्रकारे आपण
आकस्मिक टेबलचा सारांश दिला आहे.
आता या उदाहरणात, जेंडर आणि स्मार्ट
फोनची मालकी या दोन्ही गोष्टींना आपण नॉमिनल
व्हेरिएबल म्हणून संबोधले आहे.
या व्हेरिएबल मध्ये कोणताही क्रम नव्हता.
तर, जर मी माझा आकस्मिक टेबल खालील गोष्टींकडे
बघून तयार केला असता, ते पुरुष, महिला, नाही,
होय फरक पडला नसता कारण दिलेली माहिती
सारखीच आहे.
क्रमाने फरक पडला नाही, माझ्याकडे
स्त्री आणि पुरुष असो किंवा हो किंवा
नाही फरक पडला नसता.
त्यामुळे, आकस्मिक टेबलमध्ये तुम्ही
ज्या क्रमाने तुमची व्हेरिएबल्स नमूद
करत आहात त्या क्रमाने माझे दोन्ही व्हेरिएबल्स
नॉमिनल असतील तेव्हा फरक पडणार नाही.
आता आपण गूगल शीट्स करतो, आपल्याकडे
किती निरीक्षणे आहेत?
आपल्याकडे 100 निरीक्षणे आहेत, मी माझा डेटा
हायलाइट करतो म्हणून मी जाऊन कॉलम निवडतो.
मी आता असोसिएशन शोधत असलेले व्हेरिएबल
जेंडर आणि मालकी आहेत.
मी ते निवडतो मग मी डेटा टॅबवर करतो.
ते चरण 2 आहे, डेटावर जा आणि पिव्होट टेबल
पर्यायावर क्लिक करा.
आता पिव्होट टेबलमध्ये, पिव्होट टेबल तयार
करा.
हे विद्यमान शीटमधील मुख्य टेबल संपादक
उघडते.
मी विद्यमान शीटमधील पिव्होट टेबलवर क्लिक
करत असलेल्या डेटावर जाणार आहे.
मी फक्त माझ्या पिव्होट टेबलला एक स्थान
देणार आहे.
मी येथे दिलेले स्थान आणि आता मी क्रिएट
वर जातो.
रोवज टॅब अंतर्गत प्रथम श्रेणीबद्ध
व्हेरिएबल जोडा जे जेंडर आहे.
कॉलम्स टॅबच्या खाली, 3.2 स्टेप असलेल्या
स्मार्टफोनची मालकी असलेल्या दुसऱ्या
कॅटेगरीकल व्हेरिएबलवर क्लिक करा.
व्हॅल्यूज टॅबच्या खाली, म्हणून मी इथे
परत जातो, व्हॅल्यू टॅबच्या खाली मी
व्हेरिएबल्सपैकी एकावर क्लिक करतो.
म्हणून, मी येथे जेंडरवर क्लिक केले आहे आणि
मी त्याला A गणनेनुसार सारांशित करण्यास
सांगत आहे आणि तुम्ही पाहू शकता की मला
जे मिळाले ते माझ्याकडे आहे हे माझे तंतोतंत
कॅटॅगरीकल किंवा आकस्मिक टेबल आहे
जे आपण काही मिनिटांपूर्वी केले होते.
तर, तुम्ही पाहू शकता की 34 महिलांकडे फोन
आहे, 42 पुरुष आहेत ज्यांच्याकडे फोन
आहे, 10 महिलांकडे फोन नाही, 14 पुरुषांकडे
फोन नाही, माझ्या डेटासेटमध्ये 42 महिला
आणि 56 पुरुष आणि 24 लोकांकडे फोन नाही
तर 76 लोकांकडे फोन नाही.
हे मला माझ्या डेटासेटवरून मिळते.
तर, हे तुमच्या गूगल शीटमधील मुख्य टेबल
आहे जे तुम्हाला गूगल शीटमध्ये एक
आकस्मिक टेबल देते.
तर, जर तुम्ही आधीच्या उदाहरणात पाहिले
तर आपल्याकडे दोन नॉमिनल व्हेरिएबल्स
आहेत.
आता जर माझ्याकडे ऑर्डिनल व्हेरिएबल
असेल तर काय होईल?
आता इथे दुसरे उदाहरण पाहू.
आता आधीच्या गोष्टीत मी पाहिले की जेंडर
फोनच्या मालकीशी असोसिएटेड आहे की
नाही, मी ते आकस्मिक टेबल वापरून सारांशित
करतो.
आता मी हे पाहणार आहे की, उत्पन्न खरोखर
फोनच्या मालकीशी असोसिएटेड आहे का.
तर, पुन्हा आपल्याकडे तोच मार्केट रिसर्च
फोन आहे, जो फोनची मालकी पुन्हा स्मार्ट
फोनची मालकी आहे की नाही हे शोधण्यात
स्वारस्य आहे, येथे माझे व्हेरिएबल एखाद्या
व्यक्तीच्या उत्पन्नाशी असोसिएटेड आहे.
आता इनकम व्हेरिएबल पुन्हा आहे की आपण
हे इन्कम व्हेरिएबल कसे नोंदवायचे.
या उदाहरणात, आपल्याकडे एक मार्केट रिसर्च
फर्म आहे जी स्मार्टफोनची मालकी उत्पन्नाशी
असोसिएटेड आहे की नाही हे शोधण्यात
स्वारस्य आहे.
तर, येथे दोन व्हेरिएबल्स काय आहेत?
पहिला व्हेरिएबल मालकी आहे.
आपण आपल्या पूर्वीच्या उदाहरणात पुन्हा
हे व्हेरिएबल मानले होते, परंतु आता जेंडर
ऐवजी मी उत्पन्नाचा विचार करत आहे.
आता हे उत्पन्न कसे नोंदवले जाते?
हे उत्पन्न कसे नोंदवले जाते, उत्पन्न जास्त,
मध्यम किंवा कमी म्हणून नोंदवले जाते.
तर, आपण या उत्पन्नाचे 3 श्रेणींमध्ये वर्गीकरण
केले आहे आणि या उत्पन्नाच्या व्हेरिएबल्स ची मूल्ये
काय आहेत.
ते उच्च, मध्यम आणि निम्न आहे.
तर, हे एक कॅटॅगरीकल व्हेरिएबल आहे जिथे
मी प्रत्यक्षात गणना करत नाही किंवा मी
वास्तविक उत्पन्नाची नोंद केलेली नाही,
परंतु मी प्रत्यक्षात या 100 लोकांचे वर्गीकरण
केले आहे की ते उच्च उत्पन्न गटातील किंवा
मध्यम उत्पन्न गटातील किंवा कमी उत्पन्न
गटातील आहेत.
आणि या प्रत्येक व्यक्तीला आपण विचारत
आहोत की त्यांचे उत्पन्न जास्त उत्पन्न
आहे आणि त्यांच्याकडे स्मार्टफोन आहे की
नाही.
अशा प्रकारे मी माझा डेटा रेकॉर्ड केला
आहे.
तर, इथे जर तुम्ही आता या केसकडे पाहिले
तर माझे व्हेरिएबल्स काय आहेत?
पुन्हा कॅटेगरीकल व्हेरिएबल म्हणजे
उत्पन्न जे कमी, मध्यम आणि उच्च आहे आणि
दुसरे कॅटेगरीकल व्हेरिएबल म्हणजे
तुमच्याकडे स्मार्टफोन आहे की नाही.
या व्हेरिएबलमध्ये तुमची मालकी असो
वा नसो, दोन श्रेणी आहेत, होय श्रेणी
आणि नाही श्रेणी.
हे एक नॉमिनल व्हेरिएबल आहे तर उत्पन्न ज्यामध्ये
कमी, मध्यम आणि उच्च अशा तीन श्रेणी आहेत
ते एक ऑर्डिनल व्हेरिएबल आहे कारण कमी, मध्यम
आणि उच्च मध्ये ऑर्डर आहे कारण कमी उत्पन्न
हे मध्यम उत्पन्नापेक्षा कमी आहे जे उच्च उत्पन्नापेक्षा
कमी आहे.
म्हणून, जेव्हा तुम्ही दोन नॉमिनल व्हेरिएबल्सचा
सारांश देत आहात तेव्हा आठवा.
आपण सांगितले की ते टेबलमध्ये ज्या
क्रमाने दिसतात ते कोणतेही सुसंगत नाही.
तथापि, जेव्हा आपल्याकडे ऑर्डिनल व्हेरिएबल
असते तेव्हा ऑर्डर राखणे चांगले असते.
यातून आपल्याला काय म्हणायचे आहे?
समजा मी पुन्हा त्याच पद्धतीने पुढे चालू
ठेवतो.
मी उत्पन्न निवडतो आणि माझ्याकडे स्मार्टफोन
आहे.
मी ही 100 निरीक्षणे निवडतो, मी माझ्या
डेटावर जातो, मी माझ्या विद्यमान शीटमधील
मुख्य टेबलवर क्लिक करतो.
मी येथे माझे पिव्होट टेबल तयार करणार
आहे.
पुन्हा रोव खाली मी उत्पन्न जोडतो,
कॉलमखाली मी स्वतःचा स्मार्टफोन जोडतो
आणि मूल्यांखाली मी फक्त उत्पन्न
जोडणार आहे, तुम्ही पाहू शकता की हे माझे
आकस्मिक टेबल आहे जे माझ्याकडे येथे
आहे, परंतु या आकस्मिक टेबलमध्ये तुम्हाला
जे लक्षात आले ते प्रथम माझ्याकडे
एक उच्च आहे जे येथे हायलाइट केले आहे.
तर, आपण जाऊन फक्त आकस्मिक टेबल पाहू.
तर, तुम्ही आकस्मिक टेबलमध्ये पाहू शकता,
जर तुम्ही उत्पन्नाचा क्रम पाहत असाल, तर
तुमचे उत्पन्न जास्त आहे, उत्पन्न कमी
आहे आणि मध्यम उत्पन्न आहे.
तर वास्तविक क्रम एकतर उच्च, मध्यम,
निम्न किंवा निम्न मध्यम, उच्च आहे.
हा व्हेरिएबल ज्या क्रमाने दिसतो.
त्यामुळे, जेथे व्हेरिएबलचा क्रम असेल तेथे तुम्ही
व्हेरिएबलचा गोंधळलेला क्रम पाहू इच्छित
नाही.
यावर मात करण्याचा एक मार्ग म्हणजे
ऑर्डर असणे, उच्च, मध्यम आणि निम्न
व्हेरिएबल असणे.
मी नुकतेच हे व्हेरिएबल 1, 2, 3 असे कोड केले आहे
जेथे 1 उच्च उत्पन्नाचे प्रतिनिधित्व करते,
2 मध्यम उत्पन्नाचे प्रतिनिधित्व करते,
3 कमी उत्पन्नाचे प्रतिनिधित्व करते.
तर, आता जर मी या दोन व्हेरिएबल्समधील
आकस्मिक टेबल पाहत असेल तर मी मला आवश्यक
असलेली 100 निरीक्षणे निवडतो.
मी 100 निरीक्षणे निवडली.
मी पुन्हा विद्यमान शीटमधील डेटा, पिव्होट
टेबलवर जातो.
मी येथे जाऊन डेटा पिव्होट टेबल तयार
करणार आहे.
मी फक्त यावर क्लिक करेन.
मी ते तयार करणार आहे.
रोव मी पुन्हा उत्पन्न जोडतो, कॉलम जोडतो
की त्यात स्मार्टफोन आहे की नाही, मूल्ये
मी पुन्हा मोजणार आहे
तर, आता तुम्ही पाहू शकता आणि तुम्ही
या दोन टेबलची प्रत्यक्षात तुलना करू शकता, पहिल्या
टेबलमध्ये माझ्या उच्च, निम्न आणि मध्यममध्ये
ऑर्डर नाही, तर दुसऱ्या टेबलमध्ये, 1 उच्च
उत्पन्न गटाचे प्रतिनिधित्व करते, 2 मध्यम उत्पन्न
गटाचे प्रतिनिधित्व करते आणि 3 कमी उत्पन्न
गटाचे प्रतिनिधित्व करतो.
तर, तुम्ही पाहू शकता की ऑर्डर आकस्मिक
टेबलमध्ये जतन केलेली आहे.
म्हणून, जेव्हाही तुमच्याकडे ऑर्डिनल
व्हेरिएबल असेल तेव्हा शिफारस केली जाते
की ऑर्डर तुमच्या आकस्मिक टेबलमध्ये
जतन केली जाईल.
तर, शेवटी माझा आकस्मिक टेबल काय पाहतो.
माझ्याकडे हा डेटा आहे आणि हा डेटा वापरून
तुम्ही हे पाहू शकता की संबंधित टेबल,
या डेटाशी संबंधित आहे माझ्याकडे उच्च,
मध्यम, निम्न ऑर्डर आहे त्यांच्या मालकीचा
स्मार्टफोन असला किंवा नसला तरीही
उत्पन्नामध्ये जतन केले जाते.
माझ्याकडे जास्त उत्पन्न असलेले 20
लोक आहेत, 66 मध्यम आहेत, 14 लोक कमी उत्पन्न
आहेत.
यापैकी 162 लोकांकडे फोन आहे, तर 38 लोकांकडे
फोन नाही..
उच्च उत्पन्न असलेल्या 20 लोकांपैकी 18 लोकांकडे
फोन आहे, 2 लोकांकडे फोन नाही. 14 पैकी अल्प
उत्पन्न गट 9 कडे फोन नाही, 5 कडे फोन आहे.
66 पैकी माझ्याकडे 27 लोक आहेत ज्यांच्याकडे
फोन नाही आणि 39 ज्यांच्याकडे फोन आहे..
तर, या उपविभागाच्या शेवटी तुम्हाला बायव्हारिएट
कॅटेगरीकल डेटा आहे, ith पातळी आणि jth पातळी
किती व्हेरिएबल आहे आणि व्हेरिएबल 2 ची
व्हेरिएबल jth पातळी आहे, व्हेरिएबल 1,
ith पातळी आणि व्हेरिएबल 2, jth पातळी आहे.
तेथे या विशिष्ट सेलमध्ये आणि यालाच
आकस्मिक टेबल म्हणून संबोधले जाते.
सावधगिरीचा एक शब्द, जर डेटा ऑर्डिनल
असेल, तर टेबलमधील व्हेरिएबलचा क्रम
कायम ठेवा.
5.0 / 5 (0 votes)