Case Study on Regression Part I
Summary
TLDRThe video script discusses a case study on pre-owned car pricing, focusing on data analysis using Python. It covers data cleaning, handling missing values, and feature selection to develop an algorithm for price prediction. The script includes steps like importing necessary packages, data visualization, and setting parameters for features like registration year, price, and power PS. The goal is to refine the dataset for accurate car price estimations.
Takeaways
- 🚗 The case study focuses on pre-owned car pricing, aiming to develop an algorithm to predict car prices based on various features.
- 📈 Star Motors, an e-commerce company, acts as an intermediary for selling and buying used cars and has collected data from 2015 to 2016 for analysis.
- 📑 The dataset includes detailed information such as car specifications, conditions, seller details, registration information, web advertisement details, manufacturing and model information, and pricing.
- 🛠️ The analysis involves using Python and several packages like Pandas for data manipulation and cleaning, NumPy for numerical operations, and visualization with packages like Matplotlib and Seaborn.
- 📊 Descriptive statistics and visualizations are used to understand data distribution, missing values, and the relationship between different variables like price, registration year, and engine power.
- ❓ The script discusses handling missing values and outliers, which are crucial steps in data cleaning to ensure the accuracy of the predictive model.
- 📉 The distribution of car prices shows a right-skew, indicating a long tail with higher prices, and a large variance in the data which suggests the presence of outliers.
- 🔍 Filtering and feature selection are discussed to refine the dataset for the analysis, such as removing outliers and selecting relevant features that impact car pricing.
- 📋 Data transformation techniques like scaling and normalization are considered to prepare the data for modeling, as they can influence the performance of machine learning algorithms.
- 🚀 The script emphasizes the iterative nature of data analysis, where insights from initial findings guide further data cleaning and transformation to improve the model's accuracy.
Q & A
What is the main problem discussed in the case study?
-The main problem discussed in the case study is predicting the price of used cars, specifically focusing on pre-owned cars sold by Star Motors, an e-commerce platform acting as an intermediary between sellers and buyers.
What type of data does Star Motors collect about the cars?
-Star Motors collects data on specifications, car conditions, seller details, registration details, web advertisement details, manufacturing and model information, and prices.
What specific years of data does the case study cover?
-The case study covers data from the year 2015 to 2016.
What is the goal of Star Motors in terms of algorithm development?
-Star Motors aims to develop an algorithm that helps predict the price of pre-owned cars based on various car-related features.
Which programming language is used in the case study for data analysis?
-Python is used for data analysis in the case study.
What are the initial steps taken to prepare the data for analysis?
-The initial steps include importing necessary packages, performing some numerical operations, normalizing the data, and visualizing it to understand its distribution.
What does the speaker do with the 'Cars Underscore Score' CSV data?
-The speaker sets the working directory, reads the 'Cars Underscore Score' CSV data into a DataFrame, and then explores the data to understand its structure and contents.
How does the speaker handle missing values in the data?
-The speaker creates a copy of the data to work with and then uses various functions to identify and handle missing values in different columns of the dataset.
What is the approach taken to clean the data?
-The data cleaning approach includes identifying and removing irrelevant features, handling missing values, and focusing on a specific range of data that is relevant to the analysis.
What visualization techniques are used to understand the data distribution?
-The speaker uses histograms, box plots, and scatter plots to visualize the distribution of data and understand the relationships between different variables.
How does the speaker decide on the range of data to be used for the model?
-The speaker decides on the range of data to be used for the model by considering the distribution of the data, removing outliers, and focusing on a range that is representative of the majority of the data points.
Outlines
🚗 Introduction to the Car Pricing Prediction Case Study
The speaker introduces a case study focused on predicting the prices of used cars. They discuss the role of Star Motors, an e-commerce entity that acts as an intermediary for selling and buying used cars. The data collected by Star Motors from 2015 to 2016 includes detailed specifications, conditions, seller information, registration details, web advertisement information, manufacturing and model data, and price. The goal is to develop an algorithm to predict the price of cars based on various features associated with the car.
🔍 Data Preparation and Initial Exploration
The speaker begins the data preparation process by importing necessary packages and functions. They discuss the steps to read and explore the dataset, which includes 500,001 records and 19 features. The data is inspected for its structure, types, and missing values. A copy of the dataset is created to ensure that any changes made do not affect the original data. The speaker emphasizes the importance of understanding the dataset's structure and the types of data present in each column.
📊 Descriptive Analysis and Visualization
The speaker proceeds with a descriptive analysis of the data, using functions to summarize and visualize the data. They discuss the distribution of values across different features such as price, registration year, and power (in PS). Various visualizations are considered, including histograms and box plots, to understand the data's distribution and identify outliers. The analysis reveals insights such as the skewness of the price distribution and the presence of extreme values that may affect the predictive model's accuracy.
⚙️ Data Cleaning and Preprocessing
The speaker focuses on cleaning the data by identifying and handling missing values, outliers, and irrelevant features. They discuss the process of dropping columns that are not useful for the analysis and dealing with missing values in a systematic way. The goal is to prepare a clean dataset that can be used for building a robust predictive model. The speaker also discusses the importance of understanding the impact of each feature on the model's predictions.
📉 Addressing Data Skewness and Outliers
The speaker addresses the issue of data skewness and outliers, which can significantly impact the performance of predictive models. They discuss various techniques to transform the data, such as logging and scaling, to reduce skewness and normalize the distribution. The speaker also considers the impact of extreme values and decides on a strategy to handle them without losing valuable information. The discussion includes the use of box plots and other visualizations to identify and understand the presence of outliers.
🛠 Finalizing Data for Model Building
The speaker concludes the data preparation phase by finalizing the dataset for model building. They discuss the selection of an appropriate range for features like price and power to ensure that the data is neither too broad nor too narrow. The speaker also ensures that the data is clean and well-prepared for the next steps in the modeling process. The focus is on creating a dataset that will allow for the development of an accurate and reliable predictive model for car prices.
Mindmap
Keywords
💡Pre-owned cars
💡Data
💡Algorithm
💡Features
💡Python
💡Pandas
💡CSV
💡Data cleaning
💡Null values
💡Correlation
💡Outliers
Highlights
Case study on predicting car prices using pre-owned car data
Introduction to Storm Motors, an e-commerce platform acting as intermediaries for selling and buying pre-owned cars
Exploration of the data collected by Storm Motors from 2015 to 2016, including car specifications, seller details, and registration information
Description of the various parameters and buckets used by Storm Motors to categorize car data
Objective to develop an algorithm to predict car prices based on associated features
Utilization of Python for data analysis and model development in the case study
Importance of data preprocessing, including handling missing values and outliers
Use of statistical methods to understand data distribution and identify key variables affecting car prices
Application of data visualization techniques to explore relationships between car features and prices
Discussion on the impact of car registration year on its price and the need for data cleaning
Analysis of the distribution of car prices and the identification of price ranges for further study
Examination of the relationship between car power and price, highlighting the need for data normalization
Decision to limit the scope of the analysis to cars manufactured between 1950 and 2018 to ensure data relevance
Identification of optimal price ranges for cars to ensure the model's practical applicability
Conclusion on the importance of data cleaning and normalization for developing an accurate pricing model
Transcripts
రిగ్రెషన్ పై కేస్ స్టడీకి స్వాగతం
ఈ కేస్ స్టడీలో మనం ప్రీ-ఓన్డ్ కార్ల
ధరను అంచనా వేసే సమస్యను తీసుకోబోతున్నాం.
కాబట్టి, ముందుకు వెళ్లి సమస్య ప్రకటనను
పరిశీలిద్దాం. ఇప్పుడు, స్టార్మ్ మోటార్స్
వారు ఒక ఇ-కామర్స్ సంస్థ మరియు వారు
ముందుగా యాజమాన్యంలోని కార్లను విక్రయించడానికి
లేదా కొనుగోలు చేయడానికి ఆసక్తి ఉన్న పార్టీల
మధ్య మధ్యవర్తులుగా వ్యవహరిస్తారు. ఇప్పుడు,
ఇవి సెకండ్ హ్యాండ్ కార్లు మరియు స్టార్మ్
మోటార్స్ మధ్యవర్తులుగా పనిచేస్తాయి. ఇప్పుడు,
ప్రత్యేకంగా 2015 సంవస్తరం
నుండి 2016 వరకు స్టార్మ్ మోటార్స్ వారు విక్రేత
మరియు కారు వివరాల గురించి డేటాను నమోదు
చేశారు. ఇప్పుడు, ఈ వివరాల సమితిలో
స్పెసిఫికేషన్ వివరాలు, కారు పరిస్థితి,
విక్రేత వివరాలు, రిజిస్ట్రేషన్ వివరాలు,
వెబ్ ప్రకటన వివరాలు, తయారీ మరియు నమూనా
సమాచారం మరియు ధర ఉన్నాయి. ఇప్పుడు,
ఇవి అనేక బకెట్లు మరియు స్టార్మ్ మోటార్స్
సేకరించిన నిర్దిష్ట పారామితులు లేదా
చరరాశులు ఉన్నాయి మరియు ఈ చరరాశులలో
ప్రతి ఒక్కటి ఖచ్చితంగా ఈ బకెట్లలో ఏదైనా
ఒకదానికి కిందకి వస్తాయి.
ఇప్పుడు, స్టార్మ్ మోటార్స్ వారు చేయాలనుకుంటున్నది
ఏమిటంటే, వారు ముందుగా యాజమాన్యంలోని కార్ల
ధరను అంచనా వేయడానికి సహాయపడే అల్గోరిథంను
అభివృద్ధి చేయాలనుకుంటున్నారు మరియు ఇది కారుతో
అనుబంధించబడిన వివిధ లక్షణాలపై ఆధారపడి
ఉంటుంది. కాబట్టి, పైథాన్లో ఈ కేస్
స్టడీని ఎలా పరిష్కరించాలో చూద్దాం. కాబట్టి,
కొన్ని అవసరమైన ప్యాకేజీలను దిగుమతి చేసుకోవడం
ద్వారా ఇప్పుడు ప్రారంభిద్దాం. మొదట మనము CSP ఫార్మాట్
నుండి అన్ని ఫైళ్ళను చదవడానికి పాండాలను
దిగుమతి చేయబోతున్నాము, తరువాత నేను కొన్ని
సంఖ్యా ఆపరేషన్
చేయబోతున్నాను, అందువల్ల నేను నంపీని కూడా
దిగుమతి చేయబోతున్నాను మరియు నేను డేటాను
విజువలైజ్ చేయబోతున్నాను మరియు కొన్ని అంతర్దృష్టులను
పొందబోతున్నాను మరియు నేను దాని
కోసం C బాండ్ను దిగుమతి చేయబోతున్నాను. కాబట్టి,
నేను పాండాలను పి. డి. గా, నంపీని ఎన్.
పి. గా మరియు సి బాండ్ను ఎస్. ఎన్. ఎస్. గా దిగుమతి
చేస్తున్నాను. కాబట్టి, ఈ ప్యాకేజీలను దిగుమతి
చేసుకుందాం. కాబట్టి, ఈ ప్యాకేజీలు ఇప్పుడు
దిగుమతి చేయబడ్డాయి. ఇప్పుడు, నేను ఉత్పత్తి
చేయబోయే అన్ని ప్లాట్ల కొలతలను సెట్ చేస్తున్నాను.
నేను ఫంక్షన్ ఎస్ఎన్ఎస్ డాట్ సెట్ను ఉపయోగిస్తున్నాను,
సెట్
అనేది సి బాండ్ ప్యాకేజీ నుండి వచ్చిన ఫంక్షన్
మరియు కుండలీకరణంలో నేను ఫిగర్ పరిమాణాన్ని
ఇస్తున్నాను మరియు ఇది అందరికీ కొలతలను
సెట్ చేస్తుంది మరియు ఇది మన అన్ని ప్లాట్లకు
కొలతలను సెట్ చేస్తుంది. కాబట్టి, CSV ఫైలును
దిగుమతి చేయడం ద్వారా ప్రారంభిద్దాం. కాబట్టి,
మీకు కార్లు అండర్స్కోర్ శాంపిల్ డాట్ CSV అనే
డేటా ఇవ్వబడింది. ఇప్పుడు, నేను ఇప్పటికే
నా వర్కింగ్ డైరెక్టరీని సెట్ చేసాను మరియు
డేటా కూడా నా వర్కింగ్ డైరెక్టరీలో ఉంది.
కాబట్టి,
నేను pd డాట్ రీడ్ అండర్స్కోర్ csv ఫంక్షన్
ఉపయోగించి దానిని చదవబోతున్నాను. కాబట్టి,
డేటా చదవబడింది మరియు మీ వద్ద 500001 రికార్డులు
మరియు 19 నిలువు వరుసలు ఉన్నాయి. తెరచి, డేటా
ఏమి చెబుతుందో చూద్దాం కాబట్టి, మీకు 0 నుండి
500001 వరకు ఇండెక్స్ ఉంది, మీకు తేదీ క్రాల్
చేయబడింది, మీకు కారు పేరు ఉంది, విక్రేత
రకం, ఆఫర్ రకం, ధర, మీకు బి టెస్ట్ ఉంది,
తరువాత వాహనం రకం మరియు రిజిస్ట్రేషన్
సంవత్సరం మరియు ఇక్కడ కొన్ని
ఇతర వేరియబుల్స్ ఉన్నాయి. చరరాశుల
వివరణకు ముందే ఇవన్నీ మీకు వివరించబడ్డాయి.
కాబట్టి, ఇప్పుడు మనం చదివిన దాని
కాపీని సృష్టించుకుందాం. కాబట్టి, మీ డేటా
కాపీని ఎలా సృష్టించాలో మీరు ఇప్పటికే చూశారు.
కాబట్టి, మీరు లోతైన కాపీని చేయవచ్చు
మరియు మీరు కార్లకు చేసే ఏ మార్పు అయినా
కార్ల అండర్స్కోర్ డేటాలో తిరిగి ప్రతిబింబించదు.
కాబట్టి, నేను ఒక లోతైన కాపీని తయారు
చేసాను మరియు నేను దానిని కార్లుగా
సేవ్ చేసాను మరియు మేము తరువాత
ఇక్కడ పని చేయడానికి కార్లను ఉపయోగించబోతున్నాము.
కాబట్టి, డేటా యొక్క నిర్మాణాన్ని చూడటం
ద్వారా ప్రారంభిద్దాం. నేను కార్లు డాట్
ఇన్ఫర్మేషన్ను ఉపయోగిస్తున్నాను కాబట్టి, ఇది మీకు
డేటా యొక్క నిర్మాణాన్ని ఇస్తుంది ఇప్పుడు
ఇది డేటా ఫ్రేమ్లో 0 నుండి 50000 వరకు ఎంట్రీలు
ఉన్నాయని మరియు ఇక్కడ మొత్తం నిలువు వరుసల
సంఖ్య 19 అని నాకు చెబుతుంది. మీ వద్ద
ఉన్నవి అనేక నాన్-నల్ ఆబ్జెక్ట్స్ మరియు
ప్రతి కాలమ్ యొక్క డేటా రకం ఏమిటి కాబట్టి,
క్రాల్ చేసిన తేదీలో 500001 నాన్ నల్ ఆబ్జెక్ట్
ఉంటుంది,
ఇది ఒక ఆబ్జెక్ట్ డేటా రకం. అదేవిధంగా,
మీకు పేరు ఉంది, విక్రేత రకం, ఆఫర్ రకం, ధర
మరియు ఎ బి పరీక్ష కోసం ఇవన్నీ నిండి
ఉన్నాయి మరియు మీరు వాహనం రకం తీసుకుంటే
అది 44813 నాన్ నల్ ఎంట్రీలు. కాబట్టి, మీకు అక్కడ
కొన్ని తప్పిపోయిన విలువలు ఉన్నాయి
మరియు అదేవిధంగా గేర్బాక్స్, మోడల్
మరియు ఇంధన రకంలో కూడా ఉన్నాయి. ఇది
మీకు అన్ని నిలువు వరుసల పేర్ల సారాంశాన్ని
ఇస్తుంది మరియు ప్రతి నిలువు వరుస కింద
శూన్యత లేని ఎంట్రీల సంఖ్య మరియు ప్రతి
నిలువు వరుసల డేటా రకం ఏమిటి కాబట్టి,
మనకు 6 నిలువు
వరుసలు ఉన్నాయి, ఇవి ఇంట 64 డేటా రకానికి
చెందినవి మరియు ఆబ్జెక్ట్ డేటా రకానికి చెందిన
13 నిలువు వరుసలు ఉన్నాయి. కాబట్టి, ఇప్పుడు
డేటాను సంగ్రహంగా చూద్దాం. నేను దీని
కోసం కార్స్ డాట్ వివరించే ఫంక్షన్ను
ఉపయోగించబోతున్నాను. కాబట్టి, నేను కార్లు
డాట్ వివరణను ఉపయోగించినప్పుడు మీరు చూడగలరు కాబట్టి,
నేను ఒక డాట్ డిస్క్రైవ్ ఫంక్షన్ చేసినప్పుడు
సారాంశం కొన్ని చరరాశులకు మాత్రమే ఇవ్వబడిందని
మీరు చూడవచ్చు మరియు ఇది ప్రతి చరరాశికి
ఇవ్వబడదు, మీరు మధ్యలో చూసే కొన్ని చుక్కలు
ఉన్నాయి. ఇప్పుడు, దీనిని వదిలించుకోవడానికి
మీరు
ఉపయోగించవచ్చు కాబట్టి, మీరు సారాంశం చేసినప్పుడు
సారాంశం ఇవ్వబడిందని మీరు చూడవచ్చు, మీరు
ఒక డాట్ వివరించినప్పుడు వివరణ మీకు శాస్త్రీయ
సంజ్ఞామానంలో అవుట్పుట్ను ఇస్తుందని మీరు చూడవచ్చు.
మీరు చూసేది ఏమిటంటే, ఇది కొన్ని చరరాశుల
సారాంశాన్ని మాత్రమే ప్రదర్శిస్తుంది
మరియు మిగిలిన చరరాశులు డాట్ డాట్ డాట్ గా
ప్రదర్శించబడతాయి. కాబట్టి, మొదట శాస్త్రీయ
సంజ్ఞామానాన్ని ఎలా వదిలించుకోవాలో
చూద్దాం. నేను ఫాంషన్ డాట్ సెట్ అండర్స్కోర్
ఎంపికను కుండలీకరణాలలో ఉపయోగించబోతున్నాను,
మీరు ఇవ్వాల్సినది డిస్ప్లే
డాట్ ఫ్లోట్ ఫార్మాట్ ఎందుకంటే ఇవన్నీ
ఫ్లోట్ విలువలు మరియు వీటి కోసమే మనం అవుట్పుట్ను
మార్చాలనుకుంటున్నాము. ఇప్పుడు, మనం లోపల
ప్రకటిస్తున్న లాంబ్డా ఫంక్షన్ ఉంది కాబట్టి,
నేను ఇక్కడ చెప్పేది దానిని 3 దశాంశ స్థానం
ఫ్లోట్ విలువగా మార్చడం. కాబట్టి, ఈ ఫంక్షన్ను
మళ్లీ రన్ చేద్దాము, ఆపై కాస్ట్ డాట్
వివరణను మళ్లీ రన్ చేద్దాము. కాబట్టి,
ఇక్కడ మీరు అన్ని విలువలు 3 దశాంశ స్థానాలకు
గుండ్రంగా ఉన్నట్లు చూడవచ్చు, కానీ మేము
ఇంకా అన్ని నిలువు వరుసలకు వివరణను
పొందలేకపోయాము.
పొందలేకపోయాము. కాబట్టి, దాని కోసం మీరు మళ్లీ
అదే ఫంక్షన్ pd డాట్ సెట్ అండర్స్కోర్
ఎంపికను ఉపయోగించాలి. కాబట్టి, కుండలీకరణాలలో
మీరు పారామీటర్ డిస్ప్లే డాట్ మాక్స్ అండర్స్కోర్
నిలువు వరుసలను ఇవ్వవచ్చు మరియు ఇది గరిష్ట
సంఖ్యలో నిలువు వరుసలను ప్రదర్శిస్తుంది
మరియు తదుపరి పారామీటర్ ప్రాథమికంగా మీరు
ఎన్ని నిలువు వరుసలను ప్రదర్శించాలనుకుంటున్నారు.
కాబట్టి, నేను ఇక్కడ 500 పెద్ద సంఖ్యను
ఇచ్చాను, కానీ సాధారణంగా మీరు డేటాలో 500 నిలువు
వరుసలను చూడలేరు, కానీ ఇది ప్రదర్శించగల
గరిష్ట
సంఖ్యలో నిలువు వరుసలను సెట్ చేయడానికి మాత్రమే.
కాబట్టి, దానిని చేద్దాము మరియు కాస్ట్
డాట్ వివరణను తిరిగి అమలు చేద్దాము. కాబట్టి,
ఇప్పుడు, మీ నిలువు వరుసలన్నీ ఇక్కడ
ప్రదర్శించబడుతున్నాయని మరియు వాటన్నింటికీ
సారాంశం మీ వద్ద ఉందని మీరు చూడవచ్చు.
ఇప్పుడు, 50000 ఉన్నాయని ధర మీకు చెబుతుంది.
కాబట్టి, మీరు లెక్కింపును తనిఖీ చేస్తే తక్కువ
ధరలో 500001 రికార్డులు ఉన్నాయి. కాబట్టి,
అన్ని రికార్డులు నింపబడ్డాయి మరియు
సగటు సుమారు 6559 మరియు ఒక ప్రమాణం ఉంది,
భారీ ప్రామాణిక విచలనం ఉంది, ఇది సుమారు
85818.
కనీస విలువ 0, మొదటి క్వార్టైల్ విలువ
1150, రెండవ క్వార్టైల్, మధ్యస్థం కూడా 2950,
మూడవ క్వార్టైల్ 7190, కానీ గరిష్టంగా
చాలా పెద్దది మరియు మీరు సగటు మరియు
మధ్యస్థం మధ్య వ్యత్యాసాన్ని పరిశీలిస్తే, ఇది
రెండవ క్వార్టైల్, మీరు సగటు మరియు
మధ్యస్థం మధ్య భారీ వ్యత్యాసం ఉందని
చూడవచ్చు, ఇది ధర చాలా వక్రంగా ఉందని
మీకు చూపిస్తుంది. మీకు చూపిస్తుంది.
మరియు మీరు రిజిస్ట్రేషన్ సంవత్సరాన్ని తీసుకుంటే
మీకు 500001 నాన్ నల్ విలువలు ఉన్నాయి,
రిజిస్ట్రేషన్
సంవత్సరం సగటు 2005, కానీ ఇది అర్ధవంతం
కాదు ఎందుకంటే రిజిస్ట్రేషన్ సంవత్సరం ఒక పూర్ణాంకం
మరియు దానిని దశాంశానికి రౌండ్ ఆఫ్ చేయలేము.
కానీ మీరు దానిని కనిష్టంగా తీసుకుంటే
1000 నుండి సంవత్సరాల వరకు ఉన్నాయని మీరు
చూడవచ్చు. అదేవిధంగా, మీరు పవర్ p s ని పరిశీలిస్తే
అది మళ్లీ 500001 నాన్ నల్ విలువలను కలిగి
ఉంటుంది, సగటు 117 చుట్టూ ఉంటుంది మరియు మీరు
మధ్యస్థాన్ని పరిశీలిస్తే సగటు 117 చుట్టూ ఉంటుంది,
కానీ మీరు కనీస విలువను పరిశీలిస్తే కనీస
విలువ 0, ఇది
మళ్ళీ అర్ధవంతం కాదు మరియు మొదటి క్వార్టైల్
70 చుట్టూ ఉంటుంది, రెండవ క్వార్టైల్
అంటే మధ్యస్థం 105 చుట్టూ ఉంటుంది మరియు
గరిష్టంగా చాలా ఎక్కువగా ఉంటుంది, గరిష్టంగా
19,312 హార్స్పవర్ ఉంటుంది. ఇప్పుడు, మీకు కిలోమీటరు
ఉంది, కిలోమీటరుకు మళ్లీ 500001 నాన్ నల్
ఎంట్రీలు ఉన్నాయి, దాని సగటు సుమారు
1025613 కిలోమీటర్లు, కనీస 5000, గరిష్టంగా
150000. తదుపరి మీకు నెల రిజిస్ట్రేషన్ ఉంది,
రిజిస్ట్రేషన్ నెలలో ఎటువంటి తప్పిపోయిన
విలువలు లేవు, కనీస విలువ మళ్ళీ 0, కానీ
0 అర్ధవంతం
కాదు మరియు పోస్టల్ కోడ్ అనేది మేము
వదిలించుకుంటాము ఎందుకంటే మేము ఈ
కేస్ స్టడీ కోసం ఉపయోగించబోవడం లేదు,
కానీ మీరు మరింత ప్రాదేశిక ఆధారిత
విశ్లేషణ చేయాలనుకుంటే మీరు ఈ వేరియబుల్ను
ఉపయోగించడానికి స్వేచ్ఛగా ఉండవచ్చు.
స్వేచ్ఛగా ఉండవచ్చు. కాబట్టి, మళ్ళీ పోస్టల్
కోడ్ కోసం కూడా అవన్నీ పూర్ణాంకాలు మరియు
మీకు దశాంశ విలువలు ఉండవు. కాబట్టి, అవాంఛిత
నిలువు వరుసలను ముందుగానే వదిలివేయడం ద్వారా
ప్రారంభిద్దాం. ఇప్పుడు, మీకు పేరు, తేదీ క్రాల్,
సృష్టించిన తేదీ, పోస్టల్ కోడ్ మరియు
లాస్ట్ సీన్ వంటి చరరాశులు ఉన్నాయి.
ఇప్పుడు,
మనము మన విశ్లేషణ కోసం ఈ చరరాశులను
ఉపయోగించబోవడం లేదు మరియు నేను వాటిని
వదిలివేయబోతున్నాను. కాబట్టి, నేను ఇక్కడ
అన్ని వేరియబుల్ పేర్ల జాబితాను సృష్టిస్తున్నాను
మరియు ఒకసారి నేను దానిని అమలు చేసిన
తర్వాత అవన్నీ కాల్ కింద నిల్వ చేయబడతాయి
మరియు నేను డాట్ డ్రాప్ ఫంక్షన్ను
ఉపయోగించబోతున్నాను మరియు వాటిని వదిలివేయబోతున్నాను.
కాబట్టి, నేను కాస్ట్ డాట్ డ్రాప్ చేస్తాను
మరియు నిలువు వరుసలు కాల్ కు సమానం అని
చెబుతాను కాబట్టి, ఇవి నేను వదలాలనుకుంటున్న
నిలువు వరుసలు, ఎందుకంటే ఇవి నిలువు వరుసలు
కాబట్టి నేను అక్షాన్ని 1 గా ఇస్తున్నాను.
కాబట్టి, 19 నుండి నిలువు వరుసల సంఖ్య
14
కి వచ్చిందని మీరు చూడవచ్చు, నేను ఇక్కడ
5 నిలువు వరుసలను వదిలిపెట్టాను. ఇప్పుడు,
మన డేటాలో ఏవైనా నకిలీ రికార్డులు
ఉన్నాయా అని చూడబోతున్నాం మరియు ఏవైనా నకిలీ
రికార్డులు ఉంటే, అటువంటి రికార్డుల
మొదటి సంఘటనను మాత్రమే ఉంచబోతున్నాం. కాబట్టి,
మేము 500001 రికార్డ్లతో ప్రారంభించాము, మీరు
డాట్ డ్రాప్ అండర్స్కోర్ చేసినప్పుడు మనం
ఎన్ని కోల్పోతున్నామో నకిలీ చేస్తాం. కాబట్టి,
500001 నుండి ఇది 49531కి తగ్గింది. ఇప్పుడు,
మనము దానిని తొలగించాము, ఇప్పుడు డేటా క్లీనింగ్
లోకి వెళ్దాం. కాబట్టి, నా మొదటి
పని ప్రతి నిలువు వరుస కింద తప్పిపోయిన
విలువల సంఖ్యను లెక్కించడం. ఇప్పుడు, డాట్ ఇన్ఫర్మేషన్
ఫంక్షన్ నుండి అన్ని నిలువు వరుసలు సరిగ్గా
నింపబడలేదని మనం చూశాము. కాబట్టి,
ఇప్పుడు, మనం ప్రతి నిలువు వరుస క్రింద
తప్పిపోయిన విలువల సంఖ్యను కనుగొనబోతున్నాము
మరియు తరువాత తప్పిపోయిన విలువలను తార్కికంగా
ఎలా పూరించాలో అనే పద్ధతిని కనుగొంటాము.
కాబట్టి, మొదటి దశ ప్రాథమికంగా ప్రతి
నిలువు వరుస కింద తప్పిపోయిన విలువల
సంఖ్యను లెక్కించడం. కాబట్టి, నేను ఈజ్
నల్ ఫంక్షన్ను ఉపయోగిస్తున్నాను కాబట్టి, శూన్యమైతే
ప్రాథమికంగా నిజమైన లేదా
తప్పుడు డేటాను తిరిగి ఇస్తుంది, ఇది తప్పిపోయిన
కణాలను సత్యంతో గుర్తిస్తుంది, కానీ నేను సత్యాల
యొక్క సంఘటనలను సంకలనం చేయబోతున్నాను. కాబట్టి,
నేను దాని కోసం ఒక డాట్ సమ్ చేయబోతున్నాను
కాబట్టి, మీరు ఫంక్షన్ను అమలు చేస్తే మీరు
నా కుడి వైపున చూడవచ్చు, ఆ రకమైన ధర యొక్క
విక్రేత AB పరీక్షలో ఏ తప్పిపోయిన విలువలు
లేవు. ఇప్పుడు, వాహనం రకం 5152 తప్పిపోయిన
విలువలను కలిగి ఉంది, రిజిస్ట్రేషన్ సంవత్సరం
మళ్లీ నిండిపోయింది. అయితే, గేర్బాక్స్లో
2765 రికార్డులు లేవు మరియు మోడల్ కింద
మీరు 2730 రికార్డులు తప్పిపోయినట్లు
చూడవచ్చు.
మరియు ఇంధనం కింద మీరు సుమారు 4467 రికార్డులు
తప్పిపోయినట్లు మరియు సుమారు 9640 రికార్డులు
తప్పిపోయినట్లు మరియు మరమ్మతు చేయబడలేదు
లేదా దెబ్బతినలేదని మీరు చూడవచ్చు. కాబట్టి,
ఇది తప్పిపోయిన కణాల సంఖ్య యొక్క నిలువు
వరుస వారీగా లెక్కింపు కాబట్టి, ఇప్పుడు,
మొదట రిజిస్ట్రేషన్ సంవత్సరాన్ని తీసుకుందాం.
కాబట్టి, లైన్ 75 లో నేను చేయడానికి ప్రయత్నిస్తున్నది
ఏమిటంటే, ఈ చరరాశి ఆధారంగా సంవత్సర
వారీగా లెక్కించడానికి ప్రయత్నిస్తున్నాను.
ఇప్పుడు, మీరు ఇక్కడ డాట్ విలువ అండర్స్కోర్
గణనలను ఉపయోగించవచ్చు మరియు రిజిస్ట్రేషన్
సంవత్సరం లెక్కల ఆధారంగా కాకుండా
సంవత్సరాల
ఆధారంగా క్రమబద్ధీకరించబడిందని నిర్ధారించుకోవడానికి
నేను సూచికను క్రమబద్ధీకరిస్తున్నాను. కాబట్టి, డిఫాల్ట్గా
మీరు డాట్ విలువ అండర్స్కోర్ గణనలు
చేస్తే మీరు దానిని చూస్తారు కాబట్టి,
ఇది మీకు పైన అత్యధిక ఫ్రీక్వెన్సీ ఉన్న
వర్గాన్ని ఇస్తుంది, కానీ నేను ప్రాథమికంగా
సంవత్సరాల ఆధారంగా క్రమబద్ధీకరించాలనుకోవడం
లేదు. కాబట్టి, దీన్ని అమలు చేద్దాం, ఇది
చాలా పెద్ద అవుట్పుట్ కాబట్టి, నేను దానిని
కౌంట్ వేరియబుల్ కింద సంవత్సరం వారీగా
సేవ్ చేస్తున్నాను. ఇప్పుడు, మీరు తెరిచి
చూస్తే కాబట్టి, ఈ డేటా ఫ్రేమ్లో
సూచిక ఏమిటో చూద్దాం మరియు దీనికి రిజిస్ట్రేషన్
సూచిక ఉన్న సంవత్సరం అనేది ఆ
కాలమ్ క్రింద ఉన్న అన్ని సంవత్సరాల
మరియు నమోదు చేసిన సంవత్సరం యొక్క సమితి,
మీరు ప్రాథమికంగా ఈ సంవత్సరాలలో ప్రతి
ఒక్కటి యొక్క పౌనఃపున్యాలను కలిగి ఉంటారు. కాబట్టి,
మీకు 1000 నుండి వచ్చే సంవత్సరాలు ఉన్నాయి,
ఆపై మీకు 1910 నుండి సంవత్సరం ఉంది మరియు
మీరు క్రిందికి స్క్రోల్ చేస్తే మీరు చూడగలిగేది
ఏమిటంటే, మీకు భవిష్యత్తులో ఉన్న సంవత్సరాలు
ఉన్నాయి, అవి 2019 తరువాత ఉన్నాయి. కాబట్టి,
చాలా వరకు చర్చల్లో అర్థం లేదు కాబట్టి,
ఈ కాలమ్ కోసం మనం చేయాల్సిన శుభ్రపరచడం
గణనీయమైన మొత్తంలో ఉంది. కాబట్టి,
వాటిని శుభ్రం చేయడానికి ఒక వ్యూహాన్ని ఎలా
రూపొందించాలో చూద్దాం. కాబట్టి, మీరు 2018 కంటే
ఎక్కువ ఉన్న రికార్డుల మొత్తాన్ని పరిశీలిస్తే,
అది కేవలం 26 మాత్రమే, ఇది చాలా తక్కువ
సంఖ్య మరియు భవిష్యత్తులో మనం 2019 లో ఉన్నామని
అంచనా వేయలేము, కానీ నేను దానిని పరిగణనలోకి
తీసుకోలేదు ఎందుకంటే ఇది రెండుసార్లు
మాత్రమే జరిగింది మరియు దానిని పరిగణనలోకి
తీసుకోవడం అర్ధవంతం కాదు. కాబట్టి, మీరు
2018 కంటే ఎక్కువ రిజిస్ట్రేషన్ ఉన్న కార్ల సంఖ్యను
పరిశీలిస్తే, ఇప్పుడు మీకు 26 రికార్డులు
ఉన్నాయి, వాటిలో 26 రికార్డులు 2018
కంటే ఎక్కువ సంవత్సరాన్ని కలిగి ఉన్నాయి. ఇప్పుడు,
అదేవిధంగా మీరు లోయర్ ఎండ్ కోసం చేస్తే,
నేను 1950 పరిమితిని తీసుకుంటున్నాను
అని కూడా మీరు చూడగలరు. కాబట్టి, మీరు 1950 కి
ముందు తయారు చేయబడిన లేదా సర్దుబాటు చేయబడిన
కార్లను పరిశీలిస్తే, మీ వద్ద ఆ రకమైన 38
రికార్డులు ఉన్నాయి. ఇప్పుడు, ఇవి చాలా
తక్కువ సరైనవి మరియు అవి మన ప్రభావాన్ని
అస్పష్టం చేయబోతున్నాయి లేదా మోడల్ యొక్క
ప్రభావాన్ని ప్రభావితం చేస్తాయని మీకు తెలుసు.
కాబట్టి, మేము వాటిని వదిలించుకోవడానికి
వెళ్తున్నారు కాబట్టి, నేను సెట్ చేయబోయే
పని పరిధి 1950 మరియు 2018 మధ్య ఉంటుంది.
కాబట్టి, మీరు స్కాటర్ ప్లాట్ చేస్తే దీన్ని
తిరిగి ధృవీకరించడానికి నేను ఎస్ఎన్ఎస్ డాట్
రెక్ ప్లాట్ను ఉపయోగిస్తున్నాను. మీరు స్కాటర్ ప్లాట్ను
పరిశీలిస్తే నాకు x అక్షం మీద రిజిస్ట్రేషన్
సంవత్సరం ఉంది మరియు నాకు y అక్షం మీద ధర
ఉంది. మీకు మెరుగైన కథాంశాన్ని చూపించడానికి
నేను దానిని పక్కకు లాగుతాను కాబట్టి,
ప్లాట్ మీ వద్ద ఉన్న దేనినీ వివరించడం
లేదని మీరు చూడవచ్చు, మీకు ఇక్కడ మరియు
అక్కడ చుక్కలు మాత్రమే ఉన్నాయి మరియు ఎందుకంటే
చాలా ఎక్కువ విలువలు ఉన్నాయి మరియు అవి
ఇతర పాయింట్లపై ప్రభావాన్ని మచ్చలు వేస్తున్నాయి.
కాబట్టి, ధరపై రిజిస్ట్రేషన్ సంవత్సరం యొక్క ప్రభావం
ఏమిటో నిజంగా అర్థం చేసుకోవడానికి మనం
ఈ కాలమ్లో శుభ్రం చేయాలి. కాబట్టి,
అది రిజిస్ట్రేషన్ సంవత్సరం వరకు వెళుతుంది.
తదుపరిది వేరియబుల్ ధర ఇప్పుడు, మీరు
మళ్ళీ డాట్ విలువ గణనలు చేసి, ఆపై మీరు
ధర యొక్క ఆరోహణ క్రమం ఆధారంగా క్రమబద్ధీకరిస్తే,
నేను దానిని వేరియబుల్ ధర అండర్స్కోర్ గణనకు
సేవ్ చేస్తున్నాను. కాబట్టి, ఎడమవైపు
ప్రాథమికంగా సూచిక మరియు అది కారు ధర
విలువ మరియు కుడి వైపు ప్రాథమికంగా
ప్రతి సంఘటన యొక్క పౌనఃపున్యాలు. ఇప్పుడు,
అది చాలా పెద్ద శ్రేణి కాబట్టి, మనం దానిని
సర్దుబాటు చేయాలి మరియు 0కి సమానమైన
ధర కూడా అర్ధవంతం కాదు. నా ఉద్దేశ్యం
ఏమిటంటే, మీరు దానిని కొన్ని డాలర్లకు
లేదా చాలా తక్కువ మొత్తానికి విక్రయించాలనుకుంటే,
మీరు చేయగలరు, కానీ అప్పుడు మేము ఈ మోడల్ను
పని చేయగల డేటా పరిధి కోసం సాధారణీకరించాలని
చూస్తున్నాము మరియు ఈ విలువలు చాలా తీవ్రమైనవి
కావచ్చు. కాబట్టి, తక్కువ ధరకు కారును
విక్రయించడంలో తప్పు లేదు, కానీ అప్పుడు
మేము మెరుగైన అంచనాతో వచ్చే మోడల్ను సాధారణీకరించాలనుకుంటున్నాము,
అయితే, మీకు ఈ విలువలు ఉంటే అవి ప్రభావాన్ని
దెబ్బతీస్తాయి. కాబట్టి, మేము దీనిని కూడా
తనిఖీ చేయబోతున్నాము మరియు సరిగ్గా అర్థం
చేసుకోవడానికి సులభమైన పని పరిధికి చేరుకోబోతున్నాము.
కాబట్టి, ఇప్పుడు, మీరు డిస్ట్ ప్లాట్ను
ఉపయోగిస్తున్న హిస్టోగ్రామ్ చేస్తే, 0 ధర వర్గం
కింద చాలా ఎంట్రీలు
ఉన్నందున మీరు చూడవచ్చు. కాబట్టి, ఇది మనం
పని చేయాల్సిన విషయం కాబట్టి, వివరణను
చూస్తే కూడా దానిని త్వరగా పునరుద్ఘాటించుకుందాం.
కాబట్టి, సగటు సుమారు 6567, మధ్యస్థ మార్గం
సుమారు 2950 అని కూడా వివరించండి. వివరించండి.
ఇప్పుడు, భారీ వ్యత్యాసం ఉంది మరియు ఇది డేటాలోని
వక్రతకు కారణమవుతుంది మరియు ఇక్కడ మీరు
చూడగలిగే కనీస విలువ మళ్లీ 0 మరియు గరిష్ట
విలువ కూడా ఇవ్వబడుతుంది. కాబట్టి, పరిధి నిజంగా
చాలా విస్తృతమైనది మరియు సాధారణీకరించిన
నమూనాతో ముందుకు రావడానికి మనం దానిని
తగ్గించాలి. కాబట్టి, త్వరగా ఒక బాక్స్
ప్లాట్ చేద్దాం. ఇప్పుడు, ఇక్కడ కొన్ని
అవుట్లైయర్లు ఉన్నాయని కూడా ఒక బాక్స్ ప్లాట్
మీకు చెబుతుంది. మీరు చూడగలిగే ధర
కోసం నేను ఒక బాక్స్ ప్లాట్ చేస్తే, మీరు
వాస్తవానికి పెట్టెను కూడా చూడలేరు, మీరు
చూసేది ఒక లైన్. ఇప్పుడు, మీ డేటాలో గణనీయమైన
అవుట్లైయర్లు ఉన్నాయని ఇది మీకు చెబుతుంది,
ఇవి చాలా తీవ్రమైన స్వభావం కలిగి ఉంటాయి,
అందువల్ల మీరు నిజంగా చరరాశి
యొక్క ప్రవర్తనను చూడలేరు. కాబట్టి,
శ్రేణిని త్వరగా తనిఖీ చేద్దాం. కాబట్టి,
నేను 100 లక్షల నుండి 50,000 డాలర్ల మధ్య పరిధిని
నిర్ణయిస్తున్నాను. కాబట్టి, మొదటిది
ఏమిటంటే, చాలా కార్ల ధర 1,50,000 డాలర్ల కంటే
ఎక్కువగా ఉంటుంది మరియు అది సుమారు
34 మరియు మీరు దిగువ భాగంలో ధర తనిఖీ
చేస్తే 1,748 కార్ల ధర 100 కంటే తక్కువగా
ఉందని మీరు చూస్తారు, కానీ ఇది సరే ఎందుకంటే
100 డాలర్ల నుండి లక్ష వరకు మరియు 50 తో పనిచేయడానికి
మంచి శ్రేణి. కాబట్టి, మనం పరిశీలించబోయే
తదుపరి
చరరాశి పవర్ ps. ఇప్పుడు, మళ్ళీ మీరు డాట్
విలువ గణనలు చేసి, ఆపై మీరు దానిని
క్రమబద్ధీకరించి, నేను దానిని పవర్
కౌంట్ కింద సేవ్ చేసాను. కాబట్టి,
ఇక్కడ మళ్ళీ మీరు పవర్ విలువలు అత్యంత
ఎడమ వైపున ఉన్నాయని మరియు కుడి వైపు
ప్రతి ఒక్కటి యొక్క ఫ్రీక్వెన్సీలు
అని చూస్తారు. కాబట్టి, 5533 రికార్డులకు పవర్
0 ఉంటుంది. 0 ఉంటుంది. మళ్ళీ మనకు అదే సమస్య
ఉంది ఎందుకంటే పరిధి చాలా వైవిధ్యమైనది
మరియు మనం నిజంగా ఎక్కువ అంచనా వేయలేము.
కాబట్టి, మేము మళ్ళీ దానిని తగ్గించవలసి
ఉంటుంది, మధ్యలో మీకు చాలా సంఘటనలు
ఉన్నాయి, వాటిలో
కొన్ని చాలా తీవ్రంగా ఉన్నాయి, ఉదాహరణకు
మీకు 19,312 హార్స్పవర్ ఉంది, ఇది చాలా తీవ్రంగా
ఉంది మరియు ఇది ఒక్కసారి మాత్రమే సంభవించింది,
మనం పవర్ ps పరిధిని కూడా తగ్గించాలి.
కాబట్టి, ఏదైనా వక్రతను చూడటానికి ఒక స్థానభ్రంశం
చేద్దాం, అవును, 0 ఉన్న ఎంట్రీల కారణంగా
ఇక్కడ నుండే మీరు చూడవచ్చు. కాబట్టి,
ఇది మనం పరిగణనలోకి తీసుకోవలసిన విషయం,
మనం దానిని శుభ్రం చేయాలి మరియు మీరు
ఒక చుక్కను వివరిస్తే ఇది మీకు ఈ వక్రతను
కూడా చూపుతుంది, ఇక్కడ
పునరుద్ఘాటించే ముందు మేము ఇప్పటికే
దీన్ని చేసాము. కాబట్టి, సగటు సుమారు 116 మరియు
మీరు కనిష్టాన్ని పరిశీలిస్తే అది
0 మరియు మీరు మొదటి త్రైమాసికాన్ని
పరిశీలిస్తే అది సుమారు 17,16 అంటే 69 మరియు
మీరు మధ్యస్థాన్ని పరిశీలిస్తే అది
సుమారు 105. సగటు మరియు మధ్యస్థం చాలా దూరంలో
లేనప్పటికీ ప్రామాణిక విచలనం చాలా పెద్దది.
ఇప్పుడు, 116 సగటు విలువ కోసం మీరు సుమారు
200 యూనిట్ల ద్వారా విచలనం చేయబోతున్నట్లయితే,
అది చాలా సరైనది. కాబట్టి, సగటు మరియు
మధ్యస్థం చాలా దూరంలో
లేనప్పటికీ, అవి ఇంకా చాలా దూరంలో
ఉన్నప్పటికీ, ఇంకా కొంత వక్రత ఉంది,
కానీ మీరు పవర్ ps పరిధిని పరిశీలిస్తే
అది చాలా వైవిధ్యంగా ఉంటుంది మరియు మీకు
0 చుట్టూ ఉన్న విలువలు కూడా ఉంటాయి. కాబట్టి,
మీ సగటు మరియు మధ్యస్థం చాలా దగ్గరగా ఉన్నప్పటికీ
మీరు డేటాలోని ప్రామాణిక విచలనాన్ని కూడా
పరిగణనలోకి తీసుకోవాలి మరియు ఈ సందర్భంలో
ఇది చాలా పెద్దది. కాబట్టి, మనము దీనిని
చేపట్టబోతున్నాము, మనము పరిధిని తగ్గించబోతున్నాము,
కానీ మనము అలా చేయడానికి ముందు ఇది కూడా బాక్స్
ప్లాట్లో ప్రతిబింబిస్తుందో లేదో
త్వరగా చూద్దాం. మేము ఇంతకు ముందు
ధర ప్లాట్తో పోలిస్తే ఈ ప్లాట్ చాలా మెరుగ్గా
ఉంది, అక్కడ మేము కనీసం ఇక్కడ ఒక వరుసను
చూడగలిగాము, మీరు ఒక చిన్న పెట్టెను
చూడగలుగుతారు. కాబట్టి, అవును, మీకు ఇక్కడ
కొన్ని తీవ్రమైన విలువలు ఉన్నాయి,
అవి వాస్తవానికి పెట్టెను కుదిస్తున్నాయి.
కాబట్టి, మనం దీనిని ఎదుర్కోవలసి ఉంటుంది
మరియు మనం పని చేయగల డేటా శ్రేణితో రావాలి.
కాబట్టి, మనము దానిని శుభ్రం చేసే ముందు
ధరపై పవర్ పిఎస్ ప్రభావం చూపుతుందో
లేదో చూద్దాం. మళ్ళీ
ఇవన్నీ దిగువ చివరలో కలిసి ఉంటాయి మరియు
0 విలువలు ఉన్నందున ఈ వేరియబుల్తో మరింత
ఏదైనా చేసే ముందు మనం దానిని శుభ్రం
చేయాల్సి ఉంటుందని నేను భావిస్తున్నాను
ఎందుకంటే లేకపోతే ఈ వేరియబుల్ యొక్క
ప్రభావాన్ని మనం చూడలేము ధరపై కాబట్టి,
ఒక పరిధిని సరిచేద్దాం కాబట్టి, నేను 10 మరియు
500 మధ్య పరిధిని నిర్ణయిస్తున్నాను. ఇప్పుడు నేను ట్రయల్
అండ్ ఎర్రర్ ద్వారా ఈ శ్రేణులన్నింటికీ
చేరుకున్నాను, మీరు చాలా రికార్డులను
సరిగ్గా వదిలేయకూడదనే ఆలోచన కూడా ఉంది.
కాబట్టి,
నేను 500 కంటే ఎక్కువ పవర్ పిఎస్ ఉన్న
కార్ల సంఖ్యను తనిఖీ చేయబోతున్నాను మరియు
అది సుమారు 115. 115. మీరు తక్కువ శ్రేణిని
తీసుకుంటే, తక్కువ విలువను తీసుకుంటే,
10 కంటే తక్కువ ఉన్న కార్ల సంఖ్య సుమారు
5565 అవుతుంది. ఇవి ట్రయల్ అండ్ ఎర్రర్ నుండి
వచ్చినవి మరియు ఏదైనా వాహనాన్ని ప్రారంభించడానికి
అవసరమైన కనీస శక్తి ఏమిటో మీకు తెలుసో
తనిఖీ చేయడానికి కూడా గణనీయమైన పఠనం
జరిగింది. కాబట్టి, రిజిస్ట్రేషన్ సంవత్సరానికి
పని పరిధి 19 నుండి 50 మధ్య ఉంటుంది. రిజిస్ట్రేషన్
సంవత్సరానికి పని పరిధి
1950 నుండి 2018 మధ్య ఉంటుంది మరియు ధర కోసం మేము
100 నుండి లక్ష మరియు 50,000 డాలర్లకు కట్టుబడి
ఉన్నాము మరియు పవర్ పిఎస్ వేరియబుల్
కోసం పని పరిధి 10 నుండి 500 వరకు ఉంటుంది.
కాబట్టి, ఇప్పుడు మేము మూడు చరరాశుల
కోసం పని పరిధిని తనిఖీ చేసాము, ఇప్పుడు
మేము ఈ చరరాశులను ఇవ్వడం ద్వారా డేటాను
శుభ్రం చేయబోతున్నాము మరియు శుభ్రమైన డేటాలో
మనం చేయబోయే ఏవైనా తదుపరి మార్పులు
ఉంటాయి .
Посмотреть больше похожих видео
3.1. Credit Scoring | DATA SCIENCE PROJECT
Python Pandas Tutorial 5: Handle Missing Data: fillna, dropna, interpolate
Data Preparation (PART 1) - Building a Netflix Recommendation System
Machine Learning & Data Science Project - 1 : Introduction (Real Estate Price Prediction Project)
SEM Series (2016) 2. Data Screening
Step By Step Process In EDA And Feature Engineering In Data Science Projects
5.0 / 5 (0 votes)