Case Study on Regression Part I

NPTEL-NOC IITM
13 Sept 201922:49

Summary

TLDRThe video script discusses a case study on pre-owned car pricing, focusing on data analysis using Python. It covers data cleaning, handling missing values, and feature selection to develop an algorithm for price prediction. The script includes steps like importing necessary packages, data visualization, and setting parameters for features like registration year, price, and power PS. The goal is to refine the dataset for accurate car price estimations.

Takeaways

  • 🚗 The case study focuses on pre-owned car pricing, aiming to develop an algorithm to predict car prices based on various features.
  • 📈 Star Motors, an e-commerce company, acts as an intermediary for selling and buying used cars and has collected data from 2015 to 2016 for analysis.
  • 📑 The dataset includes detailed information such as car specifications, conditions, seller details, registration information, web advertisement details, manufacturing and model information, and pricing.
  • 🛠️ The analysis involves using Python and several packages like Pandas for data manipulation and cleaning, NumPy for numerical operations, and visualization with packages like Matplotlib and Seaborn.
  • 📊 Descriptive statistics and visualizations are used to understand data distribution, missing values, and the relationship between different variables like price, registration year, and engine power.
  • ❓ The script discusses handling missing values and outliers, which are crucial steps in data cleaning to ensure the accuracy of the predictive model.
  • 📉 The distribution of car prices shows a right-skew, indicating a long tail with higher prices, and a large variance in the data which suggests the presence of outliers.
  • 🔍 Filtering and feature selection are discussed to refine the dataset for the analysis, such as removing outliers and selecting relevant features that impact car pricing.
  • 📋 Data transformation techniques like scaling and normalization are considered to prepare the data for modeling, as they can influence the performance of machine learning algorithms.
  • 🚀 The script emphasizes the iterative nature of data analysis, where insights from initial findings guide further data cleaning and transformation to improve the model's accuracy.

Q & A

  • What is the main problem discussed in the case study?

    -The main problem discussed in the case study is predicting the price of used cars, specifically focusing on pre-owned cars sold by Star Motors, an e-commerce platform acting as an intermediary between sellers and buyers.

  • What type of data does Star Motors collect about the cars?

    -Star Motors collects data on specifications, car conditions, seller details, registration details, web advertisement details, manufacturing and model information, and prices.

  • What specific years of data does the case study cover?

    -The case study covers data from the year 2015 to 2016.

  • What is the goal of Star Motors in terms of algorithm development?

    -Star Motors aims to develop an algorithm that helps predict the price of pre-owned cars based on various car-related features.

  • Which programming language is used in the case study for data analysis?

    -Python is used for data analysis in the case study.

  • What are the initial steps taken to prepare the data for analysis?

    -The initial steps include importing necessary packages, performing some numerical operations, normalizing the data, and visualizing it to understand its distribution.

  • What does the speaker do with the 'Cars Underscore Score' CSV data?

    -The speaker sets the working directory, reads the 'Cars Underscore Score' CSV data into a DataFrame, and then explores the data to understand its structure and contents.

  • How does the speaker handle missing values in the data?

    -The speaker creates a copy of the data to work with and then uses various functions to identify and handle missing values in different columns of the dataset.

  • What is the approach taken to clean the data?

    -The data cleaning approach includes identifying and removing irrelevant features, handling missing values, and focusing on a specific range of data that is relevant to the analysis.

  • What visualization techniques are used to understand the data distribution?

    -The speaker uses histograms, box plots, and scatter plots to visualize the distribution of data and understand the relationships between different variables.

  • How does the speaker decide on the range of data to be used for the model?

    -The speaker decides on the range of data to be used for the model by considering the distribution of the data, removing outliers, and focusing on a range that is representative of the majority of the data points.

Outlines

00:00

🚗 Introduction to the Car Pricing Prediction Case Study

The speaker introduces a case study focused on predicting the prices of used cars. They discuss the role of Star Motors, an e-commerce entity that acts as an intermediary for selling and buying used cars. The data collected by Star Motors from 2015 to 2016 includes detailed specifications, conditions, seller information, registration details, web advertisement information, manufacturing and model data, and price. The goal is to develop an algorithm to predict the price of cars based on various features associated with the car.

05:04

🔍 Data Preparation and Initial Exploration

The speaker begins the data preparation process by importing necessary packages and functions. They discuss the steps to read and explore the dataset, which includes 500,001 records and 19 features. The data is inspected for its structure, types, and missing values. A copy of the dataset is created to ensure that any changes made do not affect the original data. The speaker emphasizes the importance of understanding the dataset's structure and the types of data present in each column.

10:09

📊 Descriptive Analysis and Visualization

The speaker proceeds with a descriptive analysis of the data, using functions to summarize and visualize the data. They discuss the distribution of values across different features such as price, registration year, and power (in PS). Various visualizations are considered, including histograms and box plots, to understand the data's distribution and identify outliers. The analysis reveals insights such as the skewness of the price distribution and the presence of extreme values that may affect the predictive model's accuracy.

15:13

⚙️ Data Cleaning and Preprocessing

The speaker focuses on cleaning the data by identifying and handling missing values, outliers, and irrelevant features. They discuss the process of dropping columns that are not useful for the analysis and dealing with missing values in a systematic way. The goal is to prepare a clean dataset that can be used for building a robust predictive model. The speaker also discusses the importance of understanding the impact of each feature on the model's predictions.

20:23

📉 Addressing Data Skewness and Outliers

The speaker addresses the issue of data skewness and outliers, which can significantly impact the performance of predictive models. They discuss various techniques to transform the data, such as logging and scaling, to reduce skewness and normalize the distribution. The speaker also considers the impact of extreme values and decides on a strategy to handle them without losing valuable information. The discussion includes the use of box plots and other visualizations to identify and understand the presence of outliers.

25:23

🛠 Finalizing Data for Model Building

The speaker concludes the data preparation phase by finalizing the dataset for model building. They discuss the selection of an appropriate range for features like price and power to ensure that the data is neither too broad nor too narrow. The speaker also ensures that the data is clean and well-prepared for the next steps in the modeling process. The focus is on creating a dataset that will allow for the development of an accurate and reliable predictive model for car prices.

Mindmap

Keywords

💡Pre-owned cars

Pre-owned cars refer to vehicles that have been used before and are now being sold in the second-hand market. In the context of the video, the case study is focused on pre-owned car sales, and the discussion revolves around how to predict the prices of these cars. The video mentions that Star Motors, an e-commerce entity, acts as an intermediary for selling or buying pre-owned cars, highlighting the significance of understanding the market dynamics for pre-owned vehicles.

💡Data

Data in this script refers to the collection of information related to car sales, including specifications, conditions, seller details, registration information, and more. The video emphasizes the importance of data in developing an algorithm to predict car prices. The data is described as having various buckets and specific parameters, indicating the complexity and detail involved in analyzing pre-owned car pricing.

💡Algorithm

An algorithm, as mentioned in the script, is a set of rules or a procedure to be followed in calculations or other data processing activities. The video discusses the development of an algorithm to predict the prices of pre-owned cars based on various features associated with the vehicles. This algorithm is crucial for Star Motors to estimate the value of cars in the second-hand market accurately.

💡Features

Features in the context of the video pertain to the various attributes of cars that influence their prices, such as the make, model, year, mileage, and condition. The script mentions that the algorithm for price prediction is based on these features, which are used to analyze and determine the value of pre-owned cars in the market.

💡Python

Python is a high-level programming language mentioned in the script as the tool used for the case study. The video describes using Python to clean and analyze the data, suggesting that Python's data analysis libraries and its readability make it a preferred choice for handling the complex data associated with pre-owned car pricing.

💡Pandas

Pandas is a Python library used for data manipulation and analysis. The script refers to using Pandas for tasks such as reading data from CSV files, cleaning data, and performing operations like setting indexes. Pandas is instrumental in preparing the data for analysis and ensuring that the dataset is in the correct format for the algorithm to function effectively.

💡CSV

CSV stands for Comma-Separated Values and is a file format that stores tabular data. In the script, the data related to pre-owned cars is provided in a CSV file named 'cars_underscore.csv'. The video discusses the process of reading this CSV file using Python's Pandas library to access and manipulate the data for analysis.

💡Data cleaning

Data cleaning is the process of removing incorrect, duplicate, or irrelevant data from a dataset. The script mentions data cleaning as a crucial step in preparing the data for analysis. This process ensures that the data used to predict car prices is accurate and reliable, which is essential for the algorithm's effectiveness.

💡Null values

Null values refer to missing or undefined data points within a dataset. The script discusses identifying and handling null values in the data, which is a common challenge in data analysis. Addressing null values is important because they can skew the results of the analysis and affect the accuracy of the price prediction algorithm.

💡Correlation

Correlation in statistics measures the extent to which two variables are linearly related. The script refers to finding correlations between different features of cars, such as the relationship between registration year and price. Understanding these correlations is vital for the algorithm to make accurate predictions about pre-owned car prices.

💡Outliers

Outliers are data points that are significantly different from other observations. The script mentions identifying and potentially removing outliers, such as extremely high or low values for horsepower or price. Outliers can distort the analysis and affect the performance of the predictive model, so addressing them is an important part of data preparation.

Highlights

Case study on predicting car prices using pre-owned car data

Introduction to Storm Motors, an e-commerce platform acting as intermediaries for selling and buying pre-owned cars

Exploration of the data collected by Storm Motors from 2015 to 2016, including car specifications, seller details, and registration information

Description of the various parameters and buckets used by Storm Motors to categorize car data

Objective to develop an algorithm to predict car prices based on associated features

Utilization of Python for data analysis and model development in the case study

Importance of data preprocessing, including handling missing values and outliers

Use of statistical methods to understand data distribution and identify key variables affecting car prices

Application of data visualization techniques to explore relationships between car features and prices

Discussion on the impact of car registration year on its price and the need for data cleaning

Analysis of the distribution of car prices and the identification of price ranges for further study

Examination of the relationship between car power and price, highlighting the need for data normalization

Decision to limit the scope of the analysis to cars manufactured between 1950 and 2018 to ensure data relevance

Identification of optimal price ranges for cars to ensure the model's practical applicability

Conclusion on the importance of data cleaning and normalization for developing an accurate pricing model

Transcripts

play00:07

రిగ్రెషన్ పై కేస్ స్టడీకి స్వాగతం

play00:12

ఈ కేస్ స్టడీలో మనం ప్రీ-ఓన్డ్ కార్ల

play00:17

ధరను అంచనా వేసే సమస్యను తీసుకోబోతున్నాం.

play00:22

కాబట్టి, ముందుకు వెళ్లి సమస్య ప్రకటనను

play00:26

పరిశీలిద్దాం. ఇప్పుడు, స్టార్మ్ మోటార్స్

play00:30

వారు ఒక ఇ-కామర్స్ సంస్థ మరియు వారు

play00:35

ముందుగా యాజమాన్యంలోని కార్లను విక్రయించడానికి

play00:39

లేదా కొనుగోలు చేయడానికి ఆసక్తి ఉన్న పార్టీల

play00:44

మధ్య మధ్యవర్తులుగా వ్యవహరిస్తారు. ఇప్పుడు,

play00:48

ఇవి సెకండ్ హ్యాండ్ కార్లు మరియు స్టార్మ్

play00:53

మోటార్స్ మధ్యవర్తులుగా పనిచేస్తాయి. ఇప్పుడు,

play00:57

ప్రత్యేకంగా 2015 సంవస్తరం

play01:00

నుండి 2016 వరకు స్టార్మ్ మోటార్స్ వారు విక్రేత

play01:06

మరియు కారు వివరాల గురించి డేటాను నమోదు

play01:11

చేశారు. ఇప్పుడు, ఈ వివరాల సమితిలో

play01:16

స్పెసిఫికేషన్ వివరాలు, కారు పరిస్థితి,

play01:20

విక్రేత వివరాలు, రిజిస్ట్రేషన్ వివరాలు,

play01:23

వెబ్ ప్రకటన వివరాలు, తయారీ మరియు నమూనా

play01:29

సమాచారం మరియు ధర ఉన్నాయి. ఇప్పుడు,

play01:33

ఇవి అనేక బకెట్లు మరియు స్టార్మ్ మోటార్స్

play01:39

సేకరించిన నిర్దిష్ట పారామితులు లేదా

play01:42

చరరాశులు ఉన్నాయి మరియు ఈ చరరాశులలో

play01:47

ప్రతి ఒక్కటి ఖచ్చితంగా ఈ బకెట్లలో ఏదైనా

play01:52

ఒకదానికి కిందకి వస్తాయి.

play01:55

ఇప్పుడు, స్టార్మ్ మోటార్స్ వారు చేయాలనుకుంటున్నది

play01:59

ఏమిటంటే, వారు ముందుగా యాజమాన్యంలోని కార్ల

play02:04

ధరను అంచనా వేయడానికి సహాయపడే అల్గోరిథంను

play02:09

అభివృద్ధి చేయాలనుకుంటున్నారు మరియు ఇది కారుతో

play02:13

అనుబంధించబడిన వివిధ లక్షణాలపై ఆధారపడి

play02:17

ఉంటుంది. కాబట్టి, పైథాన్లో ఈ కేస్

play02:21

స్టడీని ఎలా పరిష్కరించాలో చూద్దాం. కాబట్టి,

play02:26

కొన్ని అవసరమైన ప్యాకేజీలను దిగుమతి చేసుకోవడం

play02:30

ద్వారా ఇప్పుడు ప్రారంభిద్దాం. మొదట మనము CSP ఫార్మాట్

play02:37

నుండి అన్ని ఫైళ్ళను చదవడానికి పాండాలను

play02:45

దిగుమతి చేయబోతున్నాము, తరువాత నేను కొన్ని

play02:53

సంఖ్యా ఆపరేషన్

play02:56

చేయబోతున్నాను, అందువల్ల నేను నంపీని కూడా

play03:04

దిగుమతి చేయబోతున్నాను మరియు నేను డేటాను

play03:12

విజువలైజ్ చేయబోతున్నాను మరియు కొన్ని అంతర్దృష్టులను

play03:20

పొందబోతున్నాను మరియు నేను దాని

play03:26

కోసం C బాండ్ను దిగుమతి చేయబోతున్నాను. కాబట్టి,

play03:35

నేను పాండాలను పి. డి. గా, నంపీని ఎన్.

play03:47

పి. గా మరియు సి బాండ్ను ఎస్. ఎన్. ఎస్. గా దిగుమతి

play04:04

చేస్తున్నాను. కాబట్టి, ఈ ప్యాకేజీలను దిగుమతి

play04:12

చేసుకుందాం. కాబట్టి, ఈ ప్యాకేజీలు ఇప్పుడు

play04:21

దిగుమతి చేయబడ్డాయి. ఇప్పుడు, నేను ఉత్పత్తి

play04:29

చేయబోయే అన్ని ప్లాట్ల కొలతలను సెట్ చేస్తున్నాను.

play04:39

నేను ఫంక్షన్ ఎస్ఎన్ఎస్ డాట్ సెట్ను ఉపయోగిస్తున్నాను,

play04:50

సెట్

play04:51

అనేది సి బాండ్ ప్యాకేజీ నుండి వచ్చిన ఫంక్షన్

play05:03

మరియు కుండలీకరణంలో నేను ఫిగర్ పరిమాణాన్ని

play05:12

ఇస్తున్నాను మరియు ఇది అందరికీ కొలతలను

play05:20

సెట్ చేస్తుంది మరియు ఇది మన అన్ని ప్లాట్లకు

play05:32

కొలతలను సెట్ చేస్తుంది. కాబట్టి, CSV ఫైలును

play05:40

దిగుమతి చేయడం ద్వారా ప్రారంభిద్దాం. కాబట్టి,

play05:45

మీకు కార్లు అండర్స్కోర్ శాంపిల్ డాట్ CSV అనే

play05:52

డేటా ఇవ్వబడింది. ఇప్పుడు, నేను ఇప్పటికే

play05:57

నా వర్కింగ్ డైరెక్టరీని సెట్ చేసాను మరియు

play06:03

డేటా కూడా నా వర్కింగ్ డైరెక్టరీలో ఉంది.

play06:10

కాబట్టి,

play06:11

నేను pd డాట్ రీడ్ అండర్స్కోర్ csv ఫంక్షన్

play06:17

ఉపయోగించి దానిని చదవబోతున్నాను. కాబట్టి,

play06:21

డేటా చదవబడింది మరియు మీ వద్ద 500001 రికార్డులు

play06:29

మరియు 19 నిలువు వరుసలు ఉన్నాయి. తెరచి, డేటా

play06:38

ఏమి చెబుతుందో చూద్దాం కాబట్టి, మీకు 0 నుండి

play06:46

500001 వరకు ఇండెక్స్ ఉంది, మీకు తేదీ క్రాల్

play06:54

చేయబడింది, మీకు కారు పేరు ఉంది, విక్రేత

play07:01

రకం, ఆఫర్ రకం, ధర, మీకు బి టెస్ట్ ఉంది,

play07:10

తరువాత వాహనం రకం మరియు రిజిస్ట్రేషన్

play07:16

సంవత్సరం మరియు ఇక్కడ కొన్ని

play07:21

ఇతర వేరియబుల్స్ ఉన్నాయి. చరరాశుల

play07:25

వివరణకు ముందే ఇవన్నీ మీకు వివరించబడ్డాయి.

play07:31

కాబట్టి, ఇప్పుడు మనం చదివిన దాని

play07:37

కాపీని సృష్టించుకుందాం. కాబట్టి, మీ డేటా

play07:43

కాపీని ఎలా సృష్టించాలో మీరు ఇప్పటికే చూశారు.

play07:50

కాబట్టి, మీరు లోతైన కాపీని చేయవచ్చు

play07:55

మరియు మీరు కార్లకు చేసే ఏ మార్పు అయినా

play08:03

కార్ల అండర్స్కోర్ డేటాలో తిరిగి ప్రతిబింబించదు.

play08:09

కాబట్టి, నేను ఒక లోతైన కాపీని తయారు

play08:16

చేసాను మరియు నేను దానిని కార్లుగా

play08:22

సేవ్ చేసాను మరియు మేము తరువాత

play08:28

ఇక్కడ పని చేయడానికి కార్లను ఉపయోగించబోతున్నాము.

play08:34

కాబట్టి, డేటా యొక్క నిర్మాణాన్ని చూడటం

play08:39

ద్వారా ప్రారంభిద్దాం. నేను కార్లు డాట్

play08:45

ఇన్ఫర్మేషన్ను ఉపయోగిస్తున్నాను కాబట్టి, ఇది మీకు

play08:51

డేటా యొక్క నిర్మాణాన్ని ఇస్తుంది ఇప్పుడు

play08:57

ఇది డేటా ఫ్రేమ్లో 0 నుండి 50000 వరకు ఎంట్రీలు

play09:06

ఉన్నాయని మరియు ఇక్కడ మొత్తం నిలువు వరుసల

play09:13

సంఖ్య 19 అని నాకు చెబుతుంది. మీ వద్ద

play09:21

ఉన్నవి అనేక నాన్-నల్ ఆబ్జెక్ట్స్ మరియు

play09:27

ప్రతి కాలమ్ యొక్క డేటా రకం ఏమిటి కాబట్టి,

play09:35

క్రాల్ చేసిన తేదీలో 500001 నాన్ నల్ ఆబ్జెక్ట్

play09:43

ఉంటుంది,

play09:45

ఇది ఒక ఆబ్జెక్ట్ డేటా రకం. అదేవిధంగా,

play09:51

మీకు పేరు ఉంది, విక్రేత రకం, ఆఫర్ రకం, ధర

play10:01

మరియు ఎ బి పరీక్ష కోసం ఇవన్నీ నిండి

play10:09

ఉన్నాయి మరియు మీరు వాహనం రకం తీసుకుంటే

play10:16

అది 44813 నాన్ నల్ ఎంట్రీలు. కాబట్టి, మీకు అక్కడ

play10:25

కొన్ని తప్పిపోయిన విలువలు ఉన్నాయి

play10:30

మరియు అదేవిధంగా గేర్బాక్స్, మోడల్

play10:34

మరియు ఇంధన రకంలో కూడా ఉన్నాయి. ఇది

play10:41

మీకు అన్ని నిలువు వరుసల పేర్ల సారాంశాన్ని

play10:48

ఇస్తుంది మరియు ప్రతి నిలువు వరుస కింద

play10:55

శూన్యత లేని ఎంట్రీల సంఖ్య మరియు ప్రతి

play11:02

నిలువు వరుసల డేటా రకం ఏమిటి కాబట్టి,

play11:09

మనకు 6 నిలువు

play11:13

వరుసలు ఉన్నాయి, ఇవి ఇంట 64 డేటా రకానికి

play11:21

చెందినవి మరియు ఆబ్జెక్ట్ డేటా రకానికి చెందిన

play11:28

13 నిలువు వరుసలు ఉన్నాయి. కాబట్టి, ఇప్పుడు

play11:35

డేటాను సంగ్రహంగా చూద్దాం. నేను దీని

play11:41

కోసం కార్స్ డాట్ వివరించే ఫంక్షన్ను

play11:46

ఉపయోగించబోతున్నాను. కాబట్టి, నేను కార్లు

play11:51

డాట్ వివరణను ఉపయోగించినప్పుడు మీరు చూడగలరు కాబట్టి,

play11:58

నేను ఒక డాట్ డిస్క్రైవ్ ఫంక్షన్ చేసినప్పుడు

play12:05

సారాంశం కొన్ని చరరాశులకు మాత్రమే ఇవ్వబడిందని

play12:11

మీరు చూడవచ్చు మరియు ఇది ప్రతి చరరాశికి

play12:18

ఇవ్వబడదు, మీరు మధ్యలో చూసే కొన్ని చుక్కలు

play12:25

ఉన్నాయి. ఇప్పుడు, దీనిని వదిలించుకోవడానికి

play12:29

మీరు

play12:31

ఉపయోగించవచ్చు కాబట్టి, మీరు సారాంశం చేసినప్పుడు

play12:36

సారాంశం ఇవ్వబడిందని మీరు చూడవచ్చు, మీరు

play12:42

ఒక డాట్ వివరించినప్పుడు వివరణ మీకు శాస్త్రీయ

play12:49

సంజ్ఞామానంలో అవుట్పుట్ను ఇస్తుందని మీరు చూడవచ్చు.

play12:55

మీరు చూసేది ఏమిటంటే, ఇది కొన్ని చరరాశుల

play13:02

సారాంశాన్ని మాత్రమే ప్రదర్శిస్తుంది

play13:05

మరియు మిగిలిన చరరాశులు డాట్ డాట్ డాట్ గా

play13:14

ప్రదర్శించబడతాయి. కాబట్టి, మొదట శాస్త్రీయ

play13:18

సంజ్ఞామానాన్ని ఎలా వదిలించుకోవాలో

play13:22

చూద్దాం. నేను ఫాంషన్ డాట్ సెట్ అండర్స్కోర్

play13:29

ఎంపికను కుండలీకరణాలలో ఉపయోగించబోతున్నాను,

play13:32

మీరు ఇవ్వాల్సినది డిస్ప్లే

play13:36

డాట్ ఫ్లోట్ ఫార్మాట్ ఎందుకంటే ఇవన్నీ

play13:41

ఫ్లోట్ విలువలు మరియు వీటి కోసమే మనం అవుట్పుట్ను

play13:50

మార్చాలనుకుంటున్నాము. ఇప్పుడు, మనం లోపల

play13:54

ప్రకటిస్తున్న లాంబ్డా ఫంక్షన్ ఉంది కాబట్టి,

play14:00

నేను ఇక్కడ చెప్పేది దానిని 3 దశాంశ స్థానం

play14:08

ఫ్లోట్ విలువగా మార్చడం. కాబట్టి, ఈ ఫంక్షన్ను

play14:15

మళ్లీ రన్ చేద్దాము, ఆపై కాస్ట్ డాట్

play14:22

వివరణను మళ్లీ రన్ చేద్దాము. కాబట్టి,

play14:28

ఇక్కడ మీరు అన్ని విలువలు 3 దశాంశ స్థానాలకు

play14:36

గుండ్రంగా ఉన్నట్లు చూడవచ్చు, కానీ మేము

play14:42

ఇంకా అన్ని నిలువు వరుసలకు వివరణను

play14:48

పొందలేకపోయాము.

play14:49

పొందలేకపోయాము. కాబట్టి, దాని కోసం మీరు మళ్లీ

play14:56

అదే ఫంక్షన్ pd డాట్ సెట్ అండర్స్కోర్

play15:06

ఎంపికను ఉపయోగించాలి. కాబట్టి, కుండలీకరణాలలో

play15:13

మీరు పారామీటర్ డిస్ప్లే డాట్ మాక్స్ అండర్స్కోర్

play15:23

నిలువు వరుసలను ఇవ్వవచ్చు మరియు ఇది గరిష్ట

play15:34

సంఖ్యలో నిలువు వరుసలను ప్రదర్శిస్తుంది

play15:41

మరియు తదుపరి పారామీటర్ ప్రాథమికంగా మీరు

play15:50

ఎన్ని నిలువు వరుసలను ప్రదర్శించాలనుకుంటున్నారు.

play15:57

కాబట్టి, నేను ఇక్కడ 500 పెద్ద సంఖ్యను

play16:07

ఇచ్చాను, కానీ సాధారణంగా మీరు డేటాలో 500 నిలువు

play16:20

వరుసలను చూడలేరు, కానీ ఇది ప్రదర్శించగల

play16:28

గరిష్ట

play16:30

సంఖ్యలో నిలువు వరుసలను సెట్ చేయడానికి మాత్రమే.

play16:41

కాబట్టి, దానిని చేద్దాము మరియు కాస్ట్

play16:50

డాట్ వివరణను తిరిగి అమలు చేద్దాము. కాబట్టి,

play17:00

ఇప్పుడు, మీ నిలువు వరుసలన్నీ ఇక్కడ

play17:09

ప్రదర్శించబడుతున్నాయని మరియు వాటన్నింటికీ

play17:14

సారాంశం మీ వద్ద ఉందని మీరు చూడవచ్చు.

play17:25

ఇప్పుడు, 50000 ఉన్నాయని ధర మీకు చెబుతుంది.

play17:35

కాబట్టి, మీరు లెక్కింపును తనిఖీ చేస్తే తక్కువ

play17:46

ధరలో 500001 రికార్డులు ఉన్నాయి. కాబట్టి,

play17:55

అన్ని రికార్డులు నింపబడ్డాయి మరియు

play18:02

సగటు సుమారు 6559 మరియు ఒక ప్రమాణం ఉంది,

play18:14

భారీ ప్రామాణిక విచలనం ఉంది, ఇది సుమారు

play18:25

85818.

play18:26

కనీస విలువ 0, మొదటి క్వార్టైల్ విలువ

play18:37

1150, రెండవ క్వార్టైల్, మధ్యస్థం కూడా 2950,

play18:47

మూడవ క్వార్టైల్ 7190, కానీ గరిష్టంగా

play18:56

చాలా పెద్దది మరియు మీరు సగటు మరియు

play19:07

మధ్యస్థం మధ్య వ్యత్యాసాన్ని పరిశీలిస్తే, ఇది

play19:16

రెండవ క్వార్టైల్, మీరు సగటు మరియు

play19:24

మధ్యస్థం మధ్య భారీ వ్యత్యాసం ఉందని

play19:33

చూడవచ్చు, ఇది ధర చాలా వక్రంగా ఉందని

play19:44

మీకు చూపిస్తుంది. మీకు చూపిస్తుంది.

play19:51

మరియు మీరు రిజిస్ట్రేషన్ సంవత్సరాన్ని తీసుకుంటే

play19:59

మీకు 500001 నాన్ నల్ విలువలు ఉన్నాయి,

play20:10

రిజిస్ట్రేషన్

play20:12

సంవత్సరం సగటు 2005, కానీ ఇది అర్ధవంతం

play20:22

కాదు ఎందుకంటే రిజిస్ట్రేషన్ సంవత్సరం ఒక పూర్ణాంకం

play20:33

మరియు దానిని దశాంశానికి రౌండ్ ఆఫ్ చేయలేము.

play20:43

కానీ మీరు దానిని కనిష్టంగా తీసుకుంటే

play20:52

1000 నుండి సంవత్సరాల వరకు ఉన్నాయని మీరు

play21:03

చూడవచ్చు. అదేవిధంగా, మీరు పవర్ p s ని పరిశీలిస్తే

play21:12

అది మళ్లీ 500001 నాన్ నల్ విలువలను కలిగి

play21:13

ఉంటుంది, సగటు 117 చుట్టూ ఉంటుంది మరియు మీరు

play21:14

మధ్యస్థాన్ని పరిశీలిస్తే సగటు 117 చుట్టూ ఉంటుంది,

play21:15

కానీ మీరు కనీస విలువను పరిశీలిస్తే కనీస

play21:16

విలువ 0, ఇది

play21:17

మళ్ళీ అర్ధవంతం కాదు మరియు మొదటి క్వార్టైల్

play21:18

70 చుట్టూ ఉంటుంది, రెండవ క్వార్టైల్

play21:19

అంటే మధ్యస్థం 105 చుట్టూ ఉంటుంది మరియు

play21:20

గరిష్టంగా చాలా ఎక్కువగా ఉంటుంది, గరిష్టంగా

play21:21

19,312 హార్స్పవర్ ఉంటుంది. ఇప్పుడు, మీకు కిలోమీటరు

play21:22

ఉంది, కిలోమీటరుకు మళ్లీ 500001 నాన్ నల్

play21:23

ఎంట్రీలు ఉన్నాయి, దాని సగటు సుమారు

play21:24

1025613 కిలోమీటర్లు, కనీస 5000, గరిష్టంగా

play21:25

150000. తదుపరి మీకు నెల రిజిస్ట్రేషన్ ఉంది,

play21:26

రిజిస్ట్రేషన్ నెలలో ఎటువంటి తప్పిపోయిన

play21:27

విలువలు లేవు, కనీస విలువ మళ్ళీ 0, కానీ

play21:28

0 అర్ధవంతం

play21:29

కాదు మరియు పోస్టల్ కోడ్ అనేది మేము

play21:30

వదిలించుకుంటాము ఎందుకంటే మేము ఈ

play21:31

కేస్ స్టడీ కోసం ఉపయోగించబోవడం లేదు,

play21:32

కానీ మీరు మరింత ప్రాదేశిక ఆధారిత

play21:33

విశ్లేషణ చేయాలనుకుంటే మీరు ఈ వేరియబుల్ను

play21:34

ఉపయోగించడానికి స్వేచ్ఛగా ఉండవచ్చు.

play21:35

స్వేచ్ఛగా ఉండవచ్చు. కాబట్టి, మళ్ళీ పోస్టల్

play21:36

కోడ్ కోసం కూడా అవన్నీ పూర్ణాంకాలు మరియు

play21:37

మీకు దశాంశ విలువలు ఉండవు. కాబట్టి, అవాంఛిత

play21:38

నిలువు వరుసలను ముందుగానే వదిలివేయడం ద్వారా

play21:39

ప్రారంభిద్దాం. ఇప్పుడు, మీకు పేరు, తేదీ క్రాల్,

play21:40

సృష్టించిన తేదీ, పోస్టల్ కోడ్ మరియు

play21:41

లాస్ట్ సీన్ వంటి చరరాశులు ఉన్నాయి.

play21:42

ఇప్పుడు,

play21:43

మనము మన విశ్లేషణ కోసం ఈ చరరాశులను

play21:44

ఉపయోగించబోవడం లేదు మరియు నేను వాటిని

play21:45

వదిలివేయబోతున్నాను. కాబట్టి, నేను ఇక్కడ

play21:46

అన్ని వేరియబుల్ పేర్ల జాబితాను సృష్టిస్తున్నాను

play21:47

మరియు ఒకసారి నేను దానిని అమలు చేసిన

play21:48

తర్వాత అవన్నీ కాల్ కింద నిల్వ చేయబడతాయి

play21:49

మరియు నేను డాట్ డ్రాప్ ఫంక్షన్ను

play21:50

ఉపయోగించబోతున్నాను మరియు వాటిని వదిలివేయబోతున్నాను.

play21:51

కాబట్టి, నేను కాస్ట్ డాట్ డ్రాప్ చేస్తాను

play21:52

మరియు నిలువు వరుసలు కాల్ కు సమానం అని

play21:53

చెబుతాను కాబట్టి, ఇవి నేను వదలాలనుకుంటున్న

play21:54

నిలువు వరుసలు, ఎందుకంటే ఇవి నిలువు వరుసలు

play21:55

కాబట్టి నేను అక్షాన్ని 1 గా ఇస్తున్నాను.

play21:56

కాబట్టి, 19 నుండి నిలువు వరుసల సంఖ్య

play21:57

14

play21:58

కి వచ్చిందని మీరు చూడవచ్చు, నేను ఇక్కడ

play21:59

5 నిలువు వరుసలను వదిలిపెట్టాను. ఇప్పుడు,

play22:00

మన డేటాలో ఏవైనా నకిలీ రికార్డులు

play22:01

ఉన్నాయా అని చూడబోతున్నాం మరియు ఏవైనా నకిలీ

play22:02

రికార్డులు ఉంటే, అటువంటి రికార్డుల

play22:03

మొదటి సంఘటనను మాత్రమే ఉంచబోతున్నాం. కాబట్టి,

play22:04

మేము 500001 రికార్డ్లతో ప్రారంభించాము, మీరు

play22:05

డాట్ డ్రాప్ అండర్స్కోర్ చేసినప్పుడు మనం

play22:06

ఎన్ని కోల్పోతున్నామో నకిలీ చేస్తాం. కాబట్టి,

play22:07

500001 నుండి ఇది 49531కి తగ్గింది. ఇప్పుడు,

play22:08

మనము దానిని తొలగించాము, ఇప్పుడు డేటా క్లీనింగ్

play22:09

లోకి వెళ్దాం. కాబట్టి, నా మొదటి

play22:10

పని ప్రతి నిలువు వరుస కింద తప్పిపోయిన

play22:11

విలువల సంఖ్యను లెక్కించడం. ఇప్పుడు, డాట్ ఇన్ఫర్మేషన్

play22:12

ఫంక్షన్ నుండి అన్ని నిలువు వరుసలు సరిగ్గా

play22:13

నింపబడలేదని మనం చూశాము. కాబట్టి,

play22:14

ఇప్పుడు, మనం ప్రతి నిలువు వరుస క్రింద

play22:15

తప్పిపోయిన విలువల సంఖ్యను కనుగొనబోతున్నాము

play22:16

మరియు తరువాత తప్పిపోయిన విలువలను తార్కికంగా

play22:17

ఎలా పూరించాలో అనే పద్ధతిని కనుగొంటాము.

play22:18

కాబట్టి, మొదటి దశ ప్రాథమికంగా ప్రతి

play22:19

నిలువు వరుస కింద తప్పిపోయిన విలువల

play22:20

సంఖ్యను లెక్కించడం. కాబట్టి, నేను ఈజ్

play22:21

నల్ ఫంక్షన్ను ఉపయోగిస్తున్నాను కాబట్టి, శూన్యమైతే

play22:22

ప్రాథమికంగా నిజమైన లేదా

play22:23

తప్పుడు డేటాను తిరిగి ఇస్తుంది, ఇది తప్పిపోయిన

play22:24

కణాలను సత్యంతో గుర్తిస్తుంది, కానీ నేను సత్యాల

play22:25

యొక్క సంఘటనలను సంకలనం చేయబోతున్నాను. కాబట్టి,

play22:26

నేను దాని కోసం ఒక డాట్ సమ్ చేయబోతున్నాను

play22:27

కాబట్టి, మీరు ఫంక్షన్ను అమలు చేస్తే మీరు

play22:28

నా కుడి వైపున చూడవచ్చు, ఆ రకమైన ధర యొక్క

play22:29

విక్రేత AB పరీక్షలో ఏ తప్పిపోయిన విలువలు

play22:30

లేవు. ఇప్పుడు, వాహనం రకం 5152 తప్పిపోయిన

play22:31

విలువలను కలిగి ఉంది, రిజిస్ట్రేషన్ సంవత్సరం

play22:32

మళ్లీ నిండిపోయింది. అయితే, గేర్బాక్స్లో

play22:33

2765 రికార్డులు లేవు మరియు మోడల్ కింద

play22:34

మీరు 2730 రికార్డులు తప్పిపోయినట్లు

play22:35

చూడవచ్చు.

play22:36

మరియు ఇంధనం కింద మీరు సుమారు 4467 రికార్డులు

play22:37

తప్పిపోయినట్లు మరియు సుమారు 9640 రికార్డులు

play22:38

తప్పిపోయినట్లు మరియు మరమ్మతు చేయబడలేదు

play22:39

లేదా దెబ్బతినలేదని మీరు చూడవచ్చు. కాబట్టి,

play22:40

ఇది తప్పిపోయిన కణాల సంఖ్య యొక్క నిలువు

play22:41

వరుస వారీగా లెక్కింపు కాబట్టి, ఇప్పుడు,

play22:42

మొదట రిజిస్ట్రేషన్ సంవత్సరాన్ని తీసుకుందాం.

play22:43

కాబట్టి, లైన్ 75 లో నేను చేయడానికి ప్రయత్నిస్తున్నది

play22:44

ఏమిటంటే, ఈ చరరాశి ఆధారంగా సంవత్సర

play22:45

వారీగా లెక్కించడానికి ప్రయత్నిస్తున్నాను.

play22:46

ఇప్పుడు, మీరు ఇక్కడ డాట్ విలువ అండర్స్కోర్

play22:47

గణనలను ఉపయోగించవచ్చు మరియు రిజిస్ట్రేషన్

play22:48

సంవత్సరం లెక్కల ఆధారంగా కాకుండా

play22:49

సంవత్సరాల

play22:50

ఆధారంగా క్రమబద్ధీకరించబడిందని నిర్ధారించుకోవడానికి

play22:51

నేను సూచికను క్రమబద్ధీకరిస్తున్నాను. కాబట్టి, డిఫాల్ట్గా

play22:52

మీరు డాట్ విలువ అండర్స్కోర్ గణనలు

play22:53

చేస్తే మీరు దానిని చూస్తారు కాబట్టి,

play22:54

ఇది మీకు పైన అత్యధిక ఫ్రీక్వెన్సీ ఉన్న

play22:55

వర్గాన్ని ఇస్తుంది, కానీ నేను ప్రాథమికంగా

play22:56

సంవత్సరాల ఆధారంగా క్రమబద్ధీకరించాలనుకోవడం

play22:57

లేదు. కాబట్టి, దీన్ని అమలు చేద్దాం, ఇది

play22:58

చాలా పెద్ద అవుట్పుట్ కాబట్టి, నేను దానిని

play22:59

కౌంట్ వేరియబుల్ కింద సంవత్సరం వారీగా

play23:00

సేవ్ చేస్తున్నాను. ఇప్పుడు, మీరు తెరిచి

play23:01

చూస్తే కాబట్టి, ఈ డేటా ఫ్రేమ్లో

play23:02

సూచిక ఏమిటో చూద్దాం మరియు దీనికి రిజిస్ట్రేషన్

play23:03

సూచిక ఉన్న సంవత్సరం అనేది ఆ

play23:04

కాలమ్ క్రింద ఉన్న అన్ని సంవత్సరాల

play23:05

మరియు నమోదు చేసిన సంవత్సరం యొక్క సమితి,

play23:06

మీరు ప్రాథమికంగా ఈ సంవత్సరాలలో ప్రతి

play23:07

ఒక్కటి యొక్క పౌనఃపున్యాలను కలిగి ఉంటారు. కాబట్టి,

play23:08

మీకు 1000 నుండి వచ్చే సంవత్సరాలు ఉన్నాయి,

play23:09

ఆపై మీకు 1910 నుండి సంవత్సరం ఉంది మరియు

play23:10

మీరు క్రిందికి స్క్రోల్ చేస్తే మీరు చూడగలిగేది

play23:11

ఏమిటంటే, మీకు భవిష్యత్తులో ఉన్న సంవత్సరాలు

play23:12

ఉన్నాయి, అవి 2019 తరువాత ఉన్నాయి. కాబట్టి,

play23:13

చాలా వరకు చర్చల్లో అర్థం లేదు కాబట్టి,

play23:14

ఈ కాలమ్ కోసం మనం చేయాల్సిన శుభ్రపరచడం

play23:15

గణనీయమైన మొత్తంలో ఉంది. కాబట్టి,

play23:16

వాటిని శుభ్రం చేయడానికి ఒక వ్యూహాన్ని ఎలా

play23:17

రూపొందించాలో చూద్దాం. కాబట్టి, మీరు 2018 కంటే

play23:18

ఎక్కువ ఉన్న రికార్డుల మొత్తాన్ని పరిశీలిస్తే,

play23:19

అది కేవలం 26 మాత్రమే, ఇది చాలా తక్కువ

play23:20

సంఖ్య మరియు భవిష్యత్తులో మనం 2019 లో ఉన్నామని

play23:21

అంచనా వేయలేము, కానీ నేను దానిని పరిగణనలోకి

play23:22

తీసుకోలేదు ఎందుకంటే ఇది రెండుసార్లు

play23:23

మాత్రమే జరిగింది మరియు దానిని పరిగణనలోకి

play23:24

తీసుకోవడం అర్ధవంతం కాదు. కాబట్టి, మీరు

play23:25

2018 కంటే ఎక్కువ రిజిస్ట్రేషన్ ఉన్న కార్ల సంఖ్యను

play23:26

పరిశీలిస్తే, ఇప్పుడు మీకు 26 రికార్డులు

play23:27

ఉన్నాయి, వాటిలో 26 రికార్డులు 2018

play23:28

కంటే ఎక్కువ సంవత్సరాన్ని కలిగి ఉన్నాయి. ఇప్పుడు,

play23:29

అదేవిధంగా మీరు లోయర్ ఎండ్ కోసం చేస్తే,

play23:30

నేను 1950 పరిమితిని తీసుకుంటున్నాను

play23:31

అని కూడా మీరు చూడగలరు. కాబట్టి, మీరు 1950 కి

play23:32

ముందు తయారు చేయబడిన లేదా సర్దుబాటు చేయబడిన

play23:33

కార్లను పరిశీలిస్తే, మీ వద్ద ఆ రకమైన 38

play23:34

రికార్డులు ఉన్నాయి. ఇప్పుడు, ఇవి చాలా

play23:35

తక్కువ సరైనవి మరియు అవి మన ప్రభావాన్ని

play23:36

అస్పష్టం చేయబోతున్నాయి లేదా మోడల్ యొక్క

play23:37

ప్రభావాన్ని ప్రభావితం చేస్తాయని మీకు తెలుసు.

play23:38

కాబట్టి, మేము వాటిని వదిలించుకోవడానికి

play23:39

వెళ్తున్నారు కాబట్టి, నేను సెట్ చేయబోయే

play23:40

పని పరిధి 1950 మరియు 2018 మధ్య ఉంటుంది.

play23:41

కాబట్టి, మీరు స్కాటర్ ప్లాట్ చేస్తే దీన్ని

play23:42

తిరిగి ధృవీకరించడానికి నేను ఎస్ఎన్ఎస్ డాట్

play23:43

రెక్ ప్లాట్ను ఉపయోగిస్తున్నాను. మీరు స్కాటర్ ప్లాట్ను

play23:44

పరిశీలిస్తే నాకు x అక్షం మీద రిజిస్ట్రేషన్

play23:45

సంవత్సరం ఉంది మరియు నాకు y అక్షం మీద ధర

play23:46

ఉంది. మీకు మెరుగైన కథాంశాన్ని చూపించడానికి

play23:47

నేను దానిని పక్కకు లాగుతాను కాబట్టి,

play23:48

ప్లాట్ మీ వద్ద ఉన్న దేనినీ వివరించడం

play23:49

లేదని మీరు చూడవచ్చు, మీకు ఇక్కడ మరియు

play23:50

అక్కడ చుక్కలు మాత్రమే ఉన్నాయి మరియు ఎందుకంటే

play23:51

చాలా ఎక్కువ విలువలు ఉన్నాయి మరియు అవి

play23:52

ఇతర పాయింట్లపై ప్రభావాన్ని మచ్చలు వేస్తున్నాయి.

play23:53

కాబట్టి, ధరపై రిజిస్ట్రేషన్ సంవత్సరం యొక్క ప్రభావం

play23:54

ఏమిటో నిజంగా అర్థం చేసుకోవడానికి మనం

play23:55

ఈ కాలమ్లో శుభ్రం చేయాలి. కాబట్టి,

play23:56

అది రిజిస్ట్రేషన్ సంవత్సరం వరకు వెళుతుంది.

play23:57

తదుపరిది వేరియబుల్ ధర ఇప్పుడు, మీరు

play23:58

మళ్ళీ డాట్ విలువ గణనలు చేసి, ఆపై మీరు

play23:59

ధర యొక్క ఆరోహణ క్రమం ఆధారంగా క్రమబద్ధీకరిస్తే,

play24:00

నేను దానిని వేరియబుల్ ధర అండర్స్కోర్ గణనకు

play24:01

సేవ్ చేస్తున్నాను. కాబట్టి, ఎడమవైపు

play24:02

ప్రాథమికంగా సూచిక మరియు అది కారు ధర

play24:03

విలువ మరియు కుడి వైపు ప్రాథమికంగా

play24:04

ప్రతి సంఘటన యొక్క పౌనఃపున్యాలు. ఇప్పుడు,

play24:05

అది చాలా పెద్ద శ్రేణి కాబట్టి, మనం దానిని

play24:06

సర్దుబాటు చేయాలి మరియు 0కి సమానమైన

play24:07

ధర కూడా అర్ధవంతం కాదు. నా ఉద్దేశ్యం

play24:08

ఏమిటంటే, మీరు దానిని కొన్ని డాలర్లకు

play24:09

లేదా చాలా తక్కువ మొత్తానికి విక్రయించాలనుకుంటే,

play24:10

మీరు చేయగలరు, కానీ అప్పుడు మేము ఈ మోడల్ను

play24:11

పని చేయగల డేటా పరిధి కోసం సాధారణీకరించాలని

play24:12

చూస్తున్నాము మరియు ఈ విలువలు చాలా తీవ్రమైనవి

play24:13

కావచ్చు. కాబట్టి, తక్కువ ధరకు కారును

play24:14

విక్రయించడంలో తప్పు లేదు, కానీ అప్పుడు

play24:15

మేము మెరుగైన అంచనాతో వచ్చే మోడల్ను సాధారణీకరించాలనుకుంటున్నాము,

play24:16

అయితే, మీకు ఈ విలువలు ఉంటే అవి ప్రభావాన్ని

play24:17

దెబ్బతీస్తాయి. కాబట్టి, మేము దీనిని కూడా

play24:18

తనిఖీ చేయబోతున్నాము మరియు సరిగ్గా అర్థం

play24:19

చేసుకోవడానికి సులభమైన పని పరిధికి చేరుకోబోతున్నాము.

play24:20

కాబట్టి, ఇప్పుడు, మీరు డిస్ట్ ప్లాట్ను

play24:21

ఉపయోగిస్తున్న హిస్టోగ్రామ్ చేస్తే, 0 ధర వర్గం

play24:22

కింద చాలా ఎంట్రీలు

play24:23

ఉన్నందున మీరు చూడవచ్చు. కాబట్టి, ఇది మనం

play24:24

పని చేయాల్సిన విషయం కాబట్టి, వివరణను

play24:25

చూస్తే కూడా దానిని త్వరగా పునరుద్ఘాటించుకుందాం.

play24:26

కాబట్టి, సగటు సుమారు 6567, మధ్యస్థ మార్గం

play24:27

సుమారు 2950 అని కూడా వివరించండి. వివరించండి.

play24:28

ఇప్పుడు, భారీ వ్యత్యాసం ఉంది మరియు ఇది డేటాలోని

play24:29

వక్రతకు కారణమవుతుంది మరియు ఇక్కడ మీరు

play24:30

చూడగలిగే కనీస విలువ మళ్లీ 0 మరియు గరిష్ట

play24:31

విలువ కూడా ఇవ్వబడుతుంది. కాబట్టి, పరిధి నిజంగా

play24:32

చాలా విస్తృతమైనది మరియు సాధారణీకరించిన

play24:33

నమూనాతో ముందుకు రావడానికి మనం దానిని

play24:34

తగ్గించాలి. కాబట్టి, త్వరగా ఒక బాక్స్

play24:35

ప్లాట్ చేద్దాం. ఇప్పుడు, ఇక్కడ కొన్ని

play24:36

అవుట్లైయర్లు ఉన్నాయని కూడా ఒక బాక్స్ ప్లాట్

play24:37

మీకు చెబుతుంది. మీరు చూడగలిగే ధర

play24:38

కోసం నేను ఒక బాక్స్ ప్లాట్ చేస్తే, మీరు

play24:39

వాస్తవానికి పెట్టెను కూడా చూడలేరు, మీరు

play24:40

చూసేది ఒక లైన్. ఇప్పుడు, మీ డేటాలో గణనీయమైన

play24:41

అవుట్లైయర్లు ఉన్నాయని ఇది మీకు చెబుతుంది,

play24:42

ఇవి చాలా తీవ్రమైన స్వభావం కలిగి ఉంటాయి,

play24:43

అందువల్ల మీరు నిజంగా చరరాశి

play24:44

యొక్క ప్రవర్తనను చూడలేరు. కాబట్టి,

play24:45

శ్రేణిని త్వరగా తనిఖీ చేద్దాం. కాబట్టి,

play24:46

నేను 100 లక్షల నుండి 50,000 డాలర్ల మధ్య పరిధిని

play24:47

నిర్ణయిస్తున్నాను. కాబట్టి, మొదటిది

play24:48

ఏమిటంటే, చాలా కార్ల ధర 1,50,000 డాలర్ల కంటే

play24:49

ఎక్కువగా ఉంటుంది మరియు అది సుమారు

play24:50

34 మరియు మీరు దిగువ భాగంలో ధర తనిఖీ

play24:51

చేస్తే 1,748 కార్ల ధర 100 కంటే తక్కువగా

play24:52

ఉందని మీరు చూస్తారు, కానీ ఇది సరే ఎందుకంటే

play24:53

100 డాలర్ల నుండి లక్ష వరకు మరియు 50 తో పనిచేయడానికి

play24:54

మంచి శ్రేణి. కాబట్టి, మనం పరిశీలించబోయే

play24:55

తదుపరి

play24:56

చరరాశి పవర్ ps. ఇప్పుడు, మళ్ళీ మీరు డాట్

play24:57

విలువ గణనలు చేసి, ఆపై మీరు దానిని

play24:58

క్రమబద్ధీకరించి, నేను దానిని పవర్

play24:59

కౌంట్ కింద సేవ్ చేసాను. కాబట్టి,

play25:00

ఇక్కడ మళ్ళీ మీరు పవర్ విలువలు అత్యంత

play25:01

ఎడమ వైపున ఉన్నాయని మరియు కుడి వైపు

play25:02

ప్రతి ఒక్కటి యొక్క ఫ్రీక్వెన్సీలు

play25:03

అని చూస్తారు. కాబట్టి, 5533 రికార్డులకు పవర్

play25:04

0 ఉంటుంది. 0 ఉంటుంది. మళ్ళీ మనకు అదే సమస్య

play25:05

ఉంది ఎందుకంటే పరిధి చాలా వైవిధ్యమైనది

play25:06

మరియు మనం నిజంగా ఎక్కువ అంచనా వేయలేము.

play25:07

కాబట్టి, మేము మళ్ళీ దానిని తగ్గించవలసి

play25:08

ఉంటుంది, మధ్యలో మీకు చాలా సంఘటనలు

play25:09

ఉన్నాయి, వాటిలో

play25:10

కొన్ని చాలా తీవ్రంగా ఉన్నాయి, ఉదాహరణకు

play25:11

మీకు 19,312 హార్స్పవర్ ఉంది, ఇది చాలా తీవ్రంగా

play25:12

ఉంది మరియు ఇది ఒక్కసారి మాత్రమే సంభవించింది,

play25:13

మనం పవర్ ps పరిధిని కూడా తగ్గించాలి.

play25:14

కాబట్టి, ఏదైనా వక్రతను చూడటానికి ఒక స్థానభ్రంశం

play25:15

చేద్దాం, అవును, 0 ఉన్న ఎంట్రీల కారణంగా

play25:16

ఇక్కడ నుండే మీరు చూడవచ్చు. కాబట్టి,

play25:17

ఇది మనం పరిగణనలోకి తీసుకోవలసిన విషయం,

play25:18

మనం దానిని శుభ్రం చేయాలి మరియు మీరు

play25:19

ఒక చుక్కను వివరిస్తే ఇది మీకు ఈ వక్రతను

play25:20

కూడా చూపుతుంది, ఇక్కడ

play25:21

పునరుద్ఘాటించే ముందు మేము ఇప్పటికే

play25:22

దీన్ని చేసాము. కాబట్టి, సగటు సుమారు 116 మరియు

play25:23

మీరు కనిష్టాన్ని పరిశీలిస్తే అది

play25:24

0 మరియు మీరు మొదటి త్రైమాసికాన్ని

play25:25

పరిశీలిస్తే అది సుమారు 17,16 అంటే 69 మరియు

play25:26

మీరు మధ్యస్థాన్ని పరిశీలిస్తే అది

play25:27

సుమారు 105. సగటు మరియు మధ్యస్థం చాలా దూరంలో

play25:28

లేనప్పటికీ ప్రామాణిక విచలనం చాలా పెద్దది.

play25:29

ఇప్పుడు, 116 సగటు విలువ కోసం మీరు సుమారు

play25:30

200 యూనిట్ల ద్వారా విచలనం చేయబోతున్నట్లయితే,

play25:31

అది చాలా సరైనది. కాబట్టి, సగటు మరియు

play25:32

మధ్యస్థం చాలా దూరంలో

play25:33

లేనప్పటికీ, అవి ఇంకా చాలా దూరంలో

play25:34

ఉన్నప్పటికీ, ఇంకా కొంత వక్రత ఉంది,

play25:35

కానీ మీరు పవర్ ps పరిధిని పరిశీలిస్తే

play25:36

అది చాలా వైవిధ్యంగా ఉంటుంది మరియు మీకు

play25:37

0 చుట్టూ ఉన్న విలువలు కూడా ఉంటాయి. కాబట్టి,

play25:38

మీ సగటు మరియు మధ్యస్థం చాలా దగ్గరగా ఉన్నప్పటికీ

play25:39

మీరు డేటాలోని ప్రామాణిక విచలనాన్ని కూడా

play25:40

పరిగణనలోకి తీసుకోవాలి మరియు ఈ సందర్భంలో

play25:41

ఇది చాలా పెద్దది. కాబట్టి, మనము దీనిని

play25:42

చేపట్టబోతున్నాము, మనము పరిధిని తగ్గించబోతున్నాము,

play25:43

కానీ మనము అలా చేయడానికి ముందు ఇది కూడా బాక్స్

play25:44

ప్లాట్లో ప్రతిబింబిస్తుందో లేదో

play25:45

త్వరగా చూద్దాం. మేము ఇంతకు ముందు

play25:46

ధర ప్లాట్తో పోలిస్తే ఈ ప్లాట్ చాలా మెరుగ్గా

play25:47

ఉంది, అక్కడ మేము కనీసం ఇక్కడ ఒక వరుసను

play25:48

చూడగలిగాము, మీరు ఒక చిన్న పెట్టెను

play25:49

చూడగలుగుతారు. కాబట్టి, అవును, మీకు ఇక్కడ

play25:50

కొన్ని తీవ్రమైన విలువలు ఉన్నాయి,

play25:51

అవి వాస్తవానికి పెట్టెను కుదిస్తున్నాయి.

play25:52

కాబట్టి, మనం దీనిని ఎదుర్కోవలసి ఉంటుంది

play25:53

మరియు మనం పని చేయగల డేటా శ్రేణితో రావాలి.

play25:54

కాబట్టి, మనము దానిని శుభ్రం చేసే ముందు

play25:55

ధరపై పవర్ పిఎస్ ప్రభావం చూపుతుందో

play25:56

లేదో చూద్దాం. మళ్ళీ

play25:57

ఇవన్నీ దిగువ చివరలో కలిసి ఉంటాయి మరియు

play25:58

0 విలువలు ఉన్నందున ఈ వేరియబుల్తో మరింత

play25:59

ఏదైనా చేసే ముందు మనం దానిని శుభ్రం

play26:00

చేయాల్సి ఉంటుందని నేను భావిస్తున్నాను

play26:01

ఎందుకంటే లేకపోతే ఈ వేరియబుల్ యొక్క

play26:02

ప్రభావాన్ని మనం చూడలేము ధరపై కాబట్టి,

play26:03

ఒక పరిధిని సరిచేద్దాం కాబట్టి, నేను 10 మరియు

play26:04

500 మధ్య పరిధిని నిర్ణయిస్తున్నాను. ఇప్పుడు నేను ట్రయల్

play26:05

అండ్ ఎర్రర్ ద్వారా ఈ శ్రేణులన్నింటికీ

play26:06

చేరుకున్నాను, మీరు చాలా రికార్డులను

play26:07

సరిగ్గా వదిలేయకూడదనే ఆలోచన కూడా ఉంది.

play26:08

కాబట్టి,

play26:09

నేను 500 కంటే ఎక్కువ పవర్ పిఎస్ ఉన్న

play26:10

కార్ల సంఖ్యను తనిఖీ చేయబోతున్నాను మరియు

play26:11

అది సుమారు 115. 115. మీరు తక్కువ శ్రేణిని

play26:12

తీసుకుంటే, తక్కువ విలువను తీసుకుంటే,

play26:13

10 కంటే తక్కువ ఉన్న కార్ల సంఖ్య సుమారు

play26:14

5565 అవుతుంది. ఇవి ట్రయల్ అండ్ ఎర్రర్ నుండి

play26:15

వచ్చినవి మరియు ఏదైనా వాహనాన్ని ప్రారంభించడానికి

play26:16

అవసరమైన కనీస శక్తి ఏమిటో మీకు తెలుసో

play26:17

తనిఖీ చేయడానికి కూడా గణనీయమైన పఠనం

play26:18

జరిగింది. కాబట్టి, రిజిస్ట్రేషన్ సంవత్సరానికి

play26:19

పని పరిధి 19 నుండి 50 మధ్య ఉంటుంది. రిజిస్ట్రేషన్

play26:20

సంవత్సరానికి పని పరిధి

play26:21

1950 నుండి 2018 మధ్య ఉంటుంది మరియు ధర కోసం మేము

play26:22

100 నుండి లక్ష మరియు 50,000 డాలర్లకు కట్టుబడి

play26:23

ఉన్నాము మరియు పవర్ పిఎస్ వేరియబుల్

play26:24

కోసం పని పరిధి 10 నుండి 500 వరకు ఉంటుంది.

play26:25

కాబట్టి, ఇప్పుడు మేము మూడు చరరాశుల

play26:26

కోసం పని పరిధిని తనిఖీ చేసాము, ఇప్పుడు

play26:27

మేము ఈ చరరాశులను ఇవ్వడం ద్వారా డేటాను

play26:28

శుభ్రం చేయబోతున్నాము మరియు శుభ్రమైన డేటాలో

play26:29

మనం చేయబోయే ఏవైనా తదుపరి మార్పులు

play26:30

ఉంటాయి .

Rate This

5.0 / 5 (0 votes)

相关标签
Data AnalysisMachine LearningPython CodingCar MarketPredictive ModelingE-commerceAlgorithm DevelopmentMarket TrendsData ScienceStatistical Analysis
您是否需要英文摘要?