Konsep memahami Algoritma C4.5

Kuliah Teknokrat
24 Nov 202016:37

Summary

TLDRThe lecture, delivered by Dedy Darwis, delves into the realm of data mining, focusing on the C4.5 algorithm, a predictive classification technique. It outlines the algorithm's development from ID3, its ability to handle missing values, and its application in creating decision trees for tasks like tennis match recommendations. The explanation includes the steps to build a decision tree, the calculation of entropy and information gain, and the selection of attributes for decision nodes. The session aims to provide a foundational understanding of how C4.5 can be utilized in predictive modeling and pattern recognition from large datasets.

Takeaways

  • 📚 The lecture is about data mining and focuses on classification using algorithms such as C4.5, Naive Bayes, and ID3.
  • 🔍 C4.5 is a predictive data mining algorithm used for classification and segmentation, which is an extension of the ID3 algorithm.
  • 💡 The C4.5 algorithm can handle missing values in datasets, which is an advantage over its predecessor, ID3.
  • 📈 The algorithm uses the concept of 'gain ratio' to select the best attribute for splitting the data at each node in the decision tree.
  • 🔑 The gain ratio is calculated using entropy and information gain formulas to determine the most informative attribute for classification.
  • 🌧️ An example given in the script is a decision tree for recommending whether to play tennis based on weather attributes like Outlook, Temperature, Humidity, and Wind.
  • 📊 Entropy is calculated for each attribute to quantify the impurity or disorder in the dataset, which helps in choosing the best attribute for splitting.
  • 🌡️ The script explains how to calculate entropy and information gain for attributes like Humidity, which is crucial for building the decision tree.
  • 🌳 The decision tree building process involves selecting an attribute with the highest gain ratio, creating branches for its values, and repeating the process for each branch until all cases in a branch have the same class.
  • 🔮 The final decision tree acts as a predictive model that can be used to make recommendations or predictions based on the input attributes.
  • 📝 The script concludes by emphasizing the predictive power of the C4.5 algorithm and its ability to generate patterns for future predictions.

Q & A

  • What is the main topic of the lecture by Dedy Darwis?

    -The main topic of the lecture is data mining, specifically focusing on classification algorithms, with an in-depth discussion on the C4.5 algorithm.

  • What is C4.5 algorithm and what is its purpose?

    -C4.5 is a data mining algorithm used for classification, segmentation, or predictive grouping. It is designed to predict outcomes based on well-classified data.

  • How does the C4.5 algorithm handle missing values in datasets?

    -C4.5 can handle missing values by filling them with the most dominant value in the dataset or by removing the data with missing attributes, ensuring no empty attributes in the final dataset used for prediction.

  • What is the relationship between C4.5 and ID3 algorithms?

    -C4.5 is a development of the ID3 algorithm, improving upon it by being able to handle missing values and offering other enhancements.

  • What is the significance of the gain ratio in the C4.5 algorithm?

    -The gain ratio is used to determine the best attribute to act as the root of the decision tree. It is calculated based on the highest gain value among the available attributes.

  • How is the entropy of a dataset calculated in the context of the C4.5 algorithm?

    -Entropy is calculated using a formula that involves the proportion of each partition (s_i/p) to the total number of cases (S), where s_i is the number of cases in partition i and p is the total number of cases in the dataset.

  • What is the role of the 'Outlook' attribute in the decision tree example provided?

    -In the decision tree example, the 'Outlook' attribute is used to classify whether it is recommended to play tennis or not, with different values like 'Sunny', 'Rainy', and 'Overcast' leading to different recommendations.

  • Can you explain the concept of a decision tree in the context of the C4.5 algorithm?

    -A decision tree is a flowchart-like structure in which each internal node represents a test on an attribute, each branch represents the outcome of the test, and each leaf node represents a class label or a decision.

  • How does the C4.5 algorithm decide which attribute to split on when building a decision tree?

    -The C4.5 algorithm decides which attribute to split on by calculating the gain ratio for each attribute and choosing the one with the highest value, indicating the best separation of classes.

  • What is the practical application of the C4.5 algorithm as demonstrated in the lecture?

    -The practical application demonstrated in the lecture is to use the C4.5 algorithm to build a decision tree for recommending whether to play tennis or not based on weather conditions such as 'Outlook', 'Temperature', 'Humidity', and 'Windy'.

  • What is the importance of the gain calculation in the C4.5 algorithm?

    -The gain calculation is crucial as it helps in determining the attribute that provides the most information gain, which is essential for making accurate predictions in the decision tree.

Outlines

00:00

😀 Introduction to C4.5 Algorithm for Classification

The video script introduces the C4.5 algorithm, a data mining tool used for classification or predictive segmentation. It explains that classification is a process used to predict outcomes based on well-classified data, which can then be utilized for further prediction. The C4.5 algorithm is highlighted as an advancement over the ID3 algorithm, with its main advantage being the ability to handle missing values in datasets. The script provides examples of how missing data can be addressed by filling them with the most dominant values or by removing them from the dataset. It also presents a hypothetical dataset with attributes related to playing tennis, illustrating how the C4.5 algorithm can be applied to classify recommendations based on various conditions.

05:03

😉 Decision Tree Construction Using C4.5 Algorithm

This paragraph delves into the specifics of constructing a decision tree using the C4.5 algorithm. It outlines the steps involved in building the tree, starting with selecting an attribute as the root based on the highest gain ratio. The script explains the calculation of entropy and information gain, which are crucial for determining the best attribute to split the data at each node. An example using weather conditions to decide whether to play tennis or not is provided, demonstrating how the algorithm processes different attributes like Outlook, Temperature, Humidity, and Wind to make a recommendation.

10:03

🤔 Detailed Calculation of Entropy and Information Gain

The script provides a detailed explanation of how to calculate entropy and information gain for each attribute in a dataset. It walks through the process of determining the attribute with the highest gain ratio to be used as the decision node. The example continues with the tennis recommendation scenario, showing calculations for attributes like Humidity and Outlook. The script explains how to interpret these calculations to build the decision tree further, emphasizing the iterative process of refining the tree based on the most informative attributes.

15:05

🏸 Predictive Pattern Formation and Conclusion on C4.5 Algorithm

The final paragraph discusses how the C4.5 algorithm forms predictive patterns that can be used for making recommendations or predictions. It uses the tennis playing example to illustrate how the decision tree developed by the C4.5 algorithm can be used to predict whether it is advisable to play tennis based on weather conditions. The script concludes by emphasizing the predictive power of the patterns generated by the algorithm and wraps up the explanation of the C4.5 classification algorithm, indicating that the session will continue with further algorithms in subsequent discussions.

Mindmap

Keywords

💡Data Mining

Data Mining is the process of extracting valuable insights or patterns from large sets of data. In the context of the video, it is the overarching theme as the script discusses various algorithms used for classification within the field of data mining. The script mentions that data mining aims to find valuable patterns from large datasets, which is central to the discussion of the C4.5 algorithm.

💡Classification

Classification is a supervised learning method used to predict group memberships for data points. The video script focuses on classification algorithms, such as C4.5, Naive Bayes, and ID3, which are essential for categorizing data into predefined classes. The script provides an example of classifying whether to play tennis based on weather attributes, illustrating the application of classification in decision-making.

💡C4.5 Algorithm

The C4.5 algorithm is a type of decision tree algorithm used for classification tasks. It is an extension of the ID3 algorithm and is highlighted in the script as the primary focus of the lesson. The C4.5 algorithm is noted for its ability to handle missing data and is used to build decision trees for predictive modeling, as demonstrated in the script with the tennis recommendation example.

💡Missing Values

Missing values refer to the absence of data in certain attributes of a dataset. The script discusses how the C4.5 algorithm can manage missing values, which is a significant advantage over some other algorithms. It mentions filling missing values with the most dominant data or removing the data from the set, which is crucial for preparing a dataset for machine learning.

💡Decision Tree

A decision tree is a flowchart-like structure used to make decisions or classify data. In the script, the C4.5 algorithm is used to build a decision tree for the purpose of classifying whether to play tennis based on weather conditions. The tree is constructed by selecting the attribute with the highest information gain, as explained in the video.

💡Information Gain

Information gain is a metric used to evaluate the quality of a split in a decision tree. The script explains that the C4.5 algorithm selects the attribute with the highest information gain as the node for the decision tree. It is calculated using entropy and is a key concept in determining the structure of the decision tree for classification.

💡Entropy

Entropy is a measure of impurity or randomness in a dataset. The script describes how entropy is calculated for each attribute and is used in conjunction with information gain to determine the best split in a decision tree. Lower entropy indicates a higher purity of the data, which is desirable in decision tree nodes.

💡Naive Bayes

Naive Bayes is a classification algorithm based on Bayes' theorem and is mentioned in the script as one of the commonly used classification methods. Although not discussed in detail in the script, it is known for its simplicity and effectiveness in certain types of classification tasks, especially when the assumption of feature independence holds.

💡ID3 Algorithm

The ID3 algorithm is a predecessor to the C4.5 algorithm and is mentioned in the script as the original decision tree algorithm used for classification. It is significant as the foundation upon which the C4.5 algorithm was developed, with C4.5 addressing some of the limitations of ID3, such as the handling of missing values.

💡Predictive Modeling

Predictive modeling is the process of using data to make predictions about future events. In the script, the C4.5 algorithm is used to create a predictive model for the decision of whether to play tennis based on weather conditions. The model is built by classifying data and using the resulting patterns to predict outcomes, as illustrated with the decision tree example.

Highlights

Introduction to the topic of data mining for classification in the context of a lecture by Dedy Darwis.

Explanation of various classification algorithms, including C4.5, Naive Bayes, and ID3.

C4.5 algorithm is a predictive data mining algorithm used for classification or segmentation.

C4.5 is an advancement over the ID3 algorithm, addressing some of its limitations.

The C4.5 algorithm can handle missing values in datasets, a feature not present in its predecessor, ID3.

Missing data can be filled with the most dominant value or removed from the dataset.

An example dataset is used to illustrate the decision-making process for recommending whether to play tennis based on weather conditions.

The process of building a decision tree using the C4.5 algorithm involves selecting the attribute with the highest information gain.

Information gain is calculated using a specific formula involving entropy and the distribution of cases.

Entropy is a measure used to calculate the disorder or randomness in the dataset.

Calculation of entropy and information gain for each attribute to determine the best attribute to split the data.

The decision tree is built iteratively, with each branch representing a different attribute value, until all cases in a branch have the same class.

The final decision tree provides a pattern or knowledge that can be used for predictive purposes.

The practical application of the C4.5 algorithm is demonstrated through a case study on tennis match recommendations.

The importance of experience-based data in forming the dataset for the C4.5 algorithm to make accurate predictions.

The step-by-step process of creating a decision tree for classification using the C4.5 algorithm is detailed.

The use of gain ratio to choose the best attribute for the decision tree nodes, an improvement over the simple gain used in ID3.

The final decision tree structure is presented, showing how it can be used to make predictions about playing tennis based on weather attributes.

Transcripts

play00:00

Hai wush

play00:05

Halo Bismillahirohmanirohim

play00:17

Assalamualaikum warahmatullahi

play00:18

wabarakatuh bertemu kembali dengan saya

play00:21

Dedy Darwis di mata kuliah data

play00:24

warehouse and data mining nah pada

play00:27

materi kali ini yang akan kita bahas

play00:29

adalah terkait tentang data maining yang

play00:32

akan digunakan untuk klasifikasi nah

play00:36

seperti yang sudah pernah dijelaskan di

play00:38

pertemuan sebelumnya bahwa metode untuk

play00:41

klasifikasi itu cukup banyak yang sering

play00:45

digunakan yang pertama ada algoritma c45

play00:49

kemudian ada lagi algoritma naive Bayes

play00:52

kemudian ada lagi algoritma id3 dan lain

play00:55

sebagainya nah Pada kesempatan kali ini

play00:58

algoritma klasifikasi yang akan kita

play01:01

bahas pertama kali yaitu adalah

play01:03

algoritma c45

play01:05

Hai nah Apa itu algoritma c45 algoritma

play01:09

c45 merupakan algoritma data mining

play01:13

Hai yang salah satu algoritmanya

play01:15

digunakan untuk melakukan klasifikasi

play01:17

atau segmentasi atau pengelompokan yang

play01:21

bersifat prediktif nah klasifikasi itu

play01:25

digunakan untuk memprediksi artinya

play01:28

ketika kita akan melakukan prediksi maka

play01:32

data yang kita punya harus sudah terkena

play01:35

sifikasi dengan baik sehingga dengan

play01:38

adanya datar yang terkalsifikasi dengan

play01:41

baik sehingga data tersebut dapat

play01:43

digunakan untuk prediksi-prediksi dan

play01:46

klasifikasi itu proses Kerjanya hampir

play01:49

sama artinya ketika ada tersebut sudah

play01:52

terkalsifikasi dengan baik maka data

play01:55

tersebut itu sudah bisa digunakan untuk

play01:57

proses prediksi pola yang dihasilkan

play02:00

dari klasifikasi itu nanti bisa

play02:02

digunakan untuk prediksi nah metode

play02:05

sifat 5 itu merupakan metode klasifikasi

play02:07

yang mendukung untuk proses prediksi

play02:12

Pasifik

play02:13

di itu merupakan salah satu proses dalam

play02:15

data mining yang bertujuan untuk

play02:17

menemukan suatu pola yang berharga dari

play02:21

data yang berukuran sangat besar atau

play02:24

relatif besar

play02:26

Hai dan algoritma c45 ini sendiri ini

play02:28

merupakan pengembangan dari algoritma

play02:30

id3 Jadi sebelum algoritma c45 ini

play02:33

dikembangkan sebelumnya itu banyak

play02:36

peneliti-peneliti itu menggunakan

play02:38

algoritma id3 sebagai algoritma yang

play02:42

digunakan untuk proses klasifikasi

play02:46

Hai Apa keunggulan dari algoritma c45

play02:49

keunggulan dari album masih 45 yang

play02:51

pertama mampu menangani atribut yang

play02:54

kosong atau istilahnya adalah missing

play02:56

value nah nilai yang kosong tadi pada

play03:00

sebuah dataset wajib kita isi terlebih

play03:03

dahulu sebelum diproses untuk tahap

play03:06

machine learning atau bentuk kedalam

play03:08

sebuah model decision Tree Nah sebagai

play03:11

contoh di sini ada data yang kosong data

play03:17

yang kosong nah data yang kosong tadi

play03:19

itu biasanya itu kita isi dengan

play03:23

menggunakan data yang paling dominan Nah

play03:27

sebagai contoh misalkan disitu ada

play03:29

atribut save baris ketiga dan keempat

play03:33

kita beri nilai empat Kenapa kita beli

play03:35

nilai empat itu dikarenakan pada

play03:38

kelompok kelas yang pertama mayoritas

play03:40

atribut save itu memiliki angka

play03:44

Hai sedangkan pada kelas nol baris ke-7

play03:46

itu kita berikan nilai ke-1 karena nilai

play03:50

ke-1 itu yang paling dominan

play03:51

dibandingkan dengan nilai yang lainnya

play03:54

Nah jadi ketika data tersebut kosong

play03:56

sebenarnya pilihannya ada dua pilihan

play03:59

pertama adalah kita mengisi tetapi kita

play04:02

mengisinya itu berdasarkan data-data

play04:03

yang dominan kemudian pilihan yang kedua

play04:06

data tersebut itu kita hilangkan dari

play04:08

dataset jadi data yang akan kita jadikan

play04:11

sebagai dataset itu tidak boleh ada

play04:14

atribut yang kosong jika ada atribut

play04:16

yang kosong maka bisa kita isi dengan

play04:18

nilai yang dominan atau yang kedua bisa

play04:21

kita hilangkan dari data set

play04:25

hai oke seperti yang bisa anda lihat

play04:28

pada tabel berikut ini bahwa disitu ada

play04:31

contoh data sheet untuk memberikan

play04:34

rekomendasi atau keputusan bermain tenis

play04:37

atau tidak misalkan disitu ada empat

play04:42

atribut-atributnya ada Out Loud ada

play04:45

temperatur ada himaditi ada Windy

play04:49

kemudian play nah play ini merupakan

play04:52

rekomendasi Apakah dia direkomendasikan

play04:55

untuk bermain tenis atau tidak nah

play05:00

berdasarkan tabel yang ada di sini untuk

play05:02

dataset meriah memberikan rekomendasi

play05:05

Apakah bermain tenis atau tidak Itu bisa

play05:07

dibuatkan dengan menggunakan konsep

play05:10

pohon keputusan bisa dengan menggunakan

play05:12

id3 dan bisa juga dengan menggunakan

play05:17

Hai Nah untuk menentukan maintenis atau

play05:20

tidak itu dilihat dari misalkan ada satu

play05:22

fitur keadaan cuaca dua dan teratur 3

play05:27

kelembaban dan keadaan angin nah

play05:31

pertanyaannya dari mana kita bisa

play05:32

mendapatkan data-data tersebut nah

play05:35

data-data tersebut itu didapatkan

play05:37

berdasarkan pengalaman-pengalaman

play05:38

sebelumnya jadi misalkan sebagai contoh

play05:42

jika keadaan cuacanya cerah

play05:46

temperaturnya panas kemudian eh

play05:50

kelembabannya tinggi kemudian keadaan

play05:53

anginnya itu buruk maka tidak

play05:58

direkomendasikan maintenance jadi

play06:00

data-data pengalaman dari sebelumnya itu

play06:02

diinputkan ke dalam dataset sehingga

play06:05

ketika ada kasus-kasus yang akan

play06:08

diprediksi untuk keputusan berikutnya

play06:11

maka itu bisa menggunakan data yang ada

play06:15

di dalam dataset ini nah

play06:17

cara umum algoritma c45 itu digunakan

play06:21

untuk membangun pohon keputusan nah

play06:23

langkah-langkahnya adalah pertama pilih

play06:26

atribut sebagai akar dua buat cabang

play06:30

untuk masing-masing nilai ketiga bagi

play06:33

kasus dalam cabang kemudian yang keempat

play06:37

ulangi proses untuk masing-masing cabang

play06:40

tadi sampai Semua kasus pada cabang

play06:43

memiliki kelas yang sama nah empat hal

play06:47

ini merupakan urutan atau sistematis

play06:50

menggunakan c45 untuk proses klasifikasi

play06:55

Hai Nah untuk memilih atribut sebagai

play06:59

akar itu didasarkan pada nilai gain yang

play07:03

tertinggi dari atribut-atribut yang ada

play07:06

nah untuk menghitung gen itu digunakan

play07:10

fungsi sebagai berikut

play07:13

Hai ada gain S.Kom Aa sama dengan

play07:16

entropi S Sigma n 1,1 sama detik = 1

play07:21

kemudian es dibagi es kemudian dikali

play07:25

dengan nilai entropinya dimana es itu

play07:28

merupakan himpunan kasus A itu adalah

play07:32

Jumlah atributnya kemudian n adalah

play07:35

Jumlah partisi atribut a-kembar Dian si

play07:39

adalah Jumlah kasus pada

play07:42

partikel-partikel by kemudian es

play07:44

merupakan jumlah kasus dalam perhimpunan

play07:48

kasusnya

play07:51

Hai nah kemudian untuk mencari nilai

play07:54

entropi itu bisa menggunakan persamaan

play07:57

sebagai berikut gimana S = himpunan

play08:01

kasus A itu adalah fitur n adalah Jumlah

play08:05

partisi s&p ini merupakan proporsi dari

play08:10

si terhadap S

play08:14

Hai nah kemudian berikutnya disini akan

play08:18

dijelaskan lebih rinci terkait tentang

play08:22

langkah-langkah membuat pohon keputusan

play08:25

untuk klasifikasi untuk studi kasus yang

play08:29

kita gunakan adalah rekomendasi bermain

play08:31

tenis oke yang pertama

play08:34

cara menghitung jumlah kasus terlebih

play08:37

dahulu nah jumlah kasus untuk keputusan

play08:39

yes atau memberikan rekomendasi untuk

play08:41

bermain tenis lalu jumlah kasus untuk

play08:44

keputusanmu atau tidak memberikan

play08:46

rekomendasi bermain Danes dan entropinya

play08:49

dari semua kasus dan kasus yang dibagi

play08:53

berdasarkan atribut-atribut yang ada

play08:56

yaitu Outlook temperature humidity and

play09:00

winding Setelah itu dilakukan

play09:03

perhitungan Gen untuk masing-masing

play09:07

atribut Nah dengan menggunakan persamaan

play09:10

yang tadi Maka hasilnya adalah sebagai

play09:14

berikut nah hasil yang ditampilkan

play09:17

disini ini merupakan perhitungan not

play09:20

yang pertama Oke dengan menggunakan

play09:23

persamaannya ke-1 tadi

play09:26

hai

play09:28

ah ah di sini Misalkan Sebagai contoh

play09:31

untuk atribut oplob ya itu kita lihat

play09:37

atribut out lock itu ada tiga data yang

play09:41

dikelompokkan yaitu Cloudy training sama

play09:45

Sani nah jumlah kasus yes atau eh apa

play09:50

namanya jumlah kasus yang ada di situ

play09:52

ada apa namanya 4 kemudian eh yang tidak

play09:58

itu nol sedangkan yang ya itu empat

play10:01

kemudian yang Reni itu jumlah kasusnya

play10:03

ada lima kemudian tidaknya ada satu

play10:06

kemudian hanya ada empat dan seterusnya

play10:08

seperti itu kemudian kita akan

play10:12

menghitung baris total kolom entrip UN

play10:15

trophy ya yang pada tabel tersebut

play10:18

lumnya tadi ya Nah itu dihitung dengan

play10:21

menggunakan rumus sebagai berikut Nah

play10:25

jadi bisa dilihat cara menggunakan rumus

play10:27

nya yg

play10:28

di situ juga sudah kita tampilkan untuk

play10:31

menghitung dengan menggunakan versi

play10:34

excelnya ya nanti bisa dihitung kembali

play10:37

secara manual dengan menggunakan

play10:40

fungsi-fungsi rumus yang ada di sini

play10:43

hai oke kemudian berdasarkan tabel yang

play10:47

sebelumnya tabib dapat diketahui bahwa

play10:49

atribut dengan game tertinggi itu adalah

play10:52

humidity yaitu sebesar 0,37 dengan

play10:56

demikian himaditi dapat menjadi no takar

play10:58

Jadi himaditi ini akan menjadi no takar

play11:00

ketika kita akan membuat sebuah pohon

play11:02

Karena memiliki nilai gen yang paling

play11:05

tinggi kemudian ada dua nilai atribut

play11:08

dari humidity yaitu high sama normal Nah

play11:12

dari kedua nilai tersebut itu nilai

play11:15

atribut yang normal sudah

play11:16

mengklasifikasikan kasus menjadi satu

play11:18

yaitu keputusannya Yes sehingga tidak

play11:21

perlu lagi dilakukan perhitungan lebih

play11:22

lanjut nah tetapi untuk nilai atribut

play11:25

high masih perlu dilakukan perhitungan

play11:27

lagi nah sehingga untuk yang haq ini

play11:30

tadi ya pada atribut himaditi kita

play11:34

lakukan lagi proses untuk menghitung oke

play11:38

nah kalau kita buat pohon yang pertama

play11:41

di situ bisa dilihat eh

play11:43

slotnya itu adalah vmdb kemudian nanti

play11:48

himaditi itu punya isi berupa haid

play11:51

dengan normal nah diketahui dari kasus

play11:55

yang ada bahwa ketika Hymne dirinya

play11:58

normal maka pasti Yes artinya kalau

play12:00

ngeditnya normal pasti dia akan

play12:02

memberikan rekomendasi tetapi ketika dia

play12:05

Hai Hymne dirinya maka akan ada proses

play12:08

berikutnya nah proses Berikutnya ini

play12:11

tadi Ini kan baru pohon dengan note

play12:13

pertama atau not ke-1 kemudian diproses

play12:16

kemudian diproses lagi nah menghitung

play12:18

jumlah kasus dimana jumlah kasus untuk

play12:21

keputusan Yes jumlah kasus untuk

play12:23

keputusan no dan entropi dari semua

play12:25

kasus dan kasus yang dibagi berdasarkan

play12:27

atribut of Love

play12:30

Hai temperatur dan Windi yang dapat

play12:33

menjadi not akar dari nilai atribut high

play12:37

setelah itu lakukan perhitungan game

play12:40

untuk masing-masing atribut nah hasil

play12:42

perhitungannya itu dengan menggunakan

play12:45

persamaan yang pertama tadi maka akan

play12:48

menjadi seperti ini Jadi ini adalah

play12:50

disebut sebagai perhitungan not 1.1

play12:54

artinya perluasan dari not yang pertama

play12:58

berdasarkan tabel yang tadi itu dapat

play13:01

dilihat atau diketahui bahwa atribut

play13:04

dengan game yang tertinggi yaitu adalah

play13:06

Outlook sebesar 0,67 dengan demikian

play13:11

Outlook dapat menjadi not cabang dari

play13:14

nilai atribut High

play13:16

Hai ada tiga nilai atribut dari Outlook

play13:18

yaitu Cloudy rainy sama Sani dari ketiga

play13:22

nilai atribut tersebut nah nilai atribut

play13:25

clodi sudah mengklasifikasi kasus

play13:27

menjadi satu yaitu keputusannya adalah

play13:30

Yes artinya memberikan rekomendasi untuk

play13:32

bermain tenis dan nilai atribut Sunny

play13:35

sudah mengklasifikasikan kasus menjadi

play13:37

satu dengan keputusan no sehingga tidak

play13:41

perlu dilakukan perhitungan lebih lanjut

play13:42

lagi nah tetapi untuk kasus yang Reni

play13:45

masih perlu dilakukan perhitungan lagi

play13:48

nasi hingga bentuk ke pohon keputusan

play13:50

dari perhitungan game 1.1 adalah sebagai

play13:54

berikut nah disitu bisa kita lihat bahwa

play13:57

atribut untuk Out Loud untuk isi dari

play14:01

Cloudy pasti Yes Kemudian untuk yang

play14:05

Sunny pasti no Nah sekarang untuk yang

play14:07

rainie yang lain ini masih perlu kita

play14:09

lakukan proses perhitungan kembali yaitu

play14:12

kita akan menghitung game yang

play14:16

cek

play14:19

Hai nah Adapun hasil perhitungannya

play14:22

adalah sebagai berikut ya bisa dilihat

play14:25

di situ untuk perhitungan not 1.1.2 nah

play14:32

sehingga itu sudah bisa disimpulkan ya

play14:37

bisa disimpulkan menjadi suatu pohon

play14:39

keputusan jadi kalau kita lihat dari

play14:42

akar sampai dengan ke ranting hasilnya

play14:45

adalah untuk humidity itu kalau normal

play14:48

pasti Yes hatinya pasti akan memberikan

play14:51

rekomendasi berdasarkan data sheet yang

play14:53

tadi kemudian kalau dia Hai maka akan

play14:58

dilihat lagi kembali atributnya nah Hai

play15:00

tadi akan melihat atribut Apa yang

play15:02

dilihat adalah out loud out loud ini

play15:05

akan dilihat kembali isinya apa Cloudy

play15:08

atau Sunny kalau-kalau di otomatis dia

play15:11

akan Yes rekomendasinya sedangkan kalau

play15:14

Sunny dia akan no untuk rekomendasinya

play15:17

nah sedangkan yang nah ini masih ada

play15:19

satu atribut lagi enggak diturunkan

play15:22

yaitu winding nah di mana Windy ini ada

play15:25

dua volt sama true ketika volt maka Yes

play15:28

ketika Terlupakan no Nah dari bentuk

play15:31

pohon yang ada di sini bisa diperhatikan

play15:33

bahwa algoritma c45 ini adalah membuat

play15:37

suatu klasifikasi dengan menghasilkan

play15:39

sebuah pola-polanya bisa digunakan untuk

play15:42

prediksi Bagaimana cara kita menentukan

play15:44

prediksi Nah kalau disitu terlihat jelas

play15:47

misalkan kalau Hymne dirinya normal

play15:49

pasti bermain tenis rekomendasinya itu

play15:53

prediksi Oke kemudian kalau dia hidupnya

play15:57

masih haid maka akan dilihat lagi

play15:59

atribut berikutnya

play16:01

Hai terus sampai dengan dia menuju ke

play16:03

rantingnya Nah inilah yang dinamakan

play16:06

Pola atau pengetahuan yang dihasilkan

play16:09

dari suatu algoritma kemudian bisa

play16:12

bersifat prediktif

play16:15

Hai baik untuk sesi penjelasan terkait

play16:19

tentang algoritma c45 untuk algoritma

play16:24

klasifikasi saya cukupkan sekian kita

play16:27

akan lanjutkan lagi ke algoritma yang

play16:29

berikutnya terima kasih

play16:36

yup

Rate This

5.0 / 5 (0 votes)

Related Tags
Data MiningC4.5 AlgorithmPredictive AnalyticsMachine LearningClassificationDecision TreesMissing ValuesModelingData SegmentationPattern Recognition