Membandingan Konsep Teori Tes Klasik CTT vs Teori Tes Modern IRT

Belajar Metode Penelitian
2 Dec 202017:22

Summary

TLDRThis video script discusses the differences between classical test theory and modern item response theory. It explains how classical theory assumes constant measurement error across all scores, while item response theory acknowledges varying errors depending on the score level. The script also covers how modern tests can be short yet reliable, unlike the belief in classical theory that longer tests are more reliable. It touches on the concept of parallel tests, where modern theory uses test information functions to ensure equivalent measurement despite different item difficulties. The discussion aims to clarify misconceptions and highlight the advantages of modern testing methods.

Takeaways

  • 📚 The lecture discusses the differences between classical test theory (CTT) and item response theory (IRT), highlighting the newer principles of IRT as an advancement.
  • 🔍 A key principle in IRT is that measurement error varies across different scores within a population, unlike CTT which assumes a constant measurement error for all scores.
  • 📊 The lecture uses an example of a test analyzed with IRT software, showing how standard errors of measurement differ for each examinee, as opposed to CTT which provides a single standard error for all.
  • 📈 The concept of standard error of measurement (SEM) is explained, emphasizing how it indicates the precision of a score, with higher SEMs indicating less precise scores.
  • 🌡️ An analogy is used to explain SEM, comparing it to the precision of different measuring tools, such as scales, where the color of the scale represents the level of precision.
  • 📏 The lecture demonstrates how to estimate the scorebook interval using a developed program, showing the impact of reliability on SEM and score precision.
  • 📉 It is explained that in IRT, SEM varies depending on the ability level of each individual, contrasting with CTT where SEM is constant for all individuals.
  • 📝 The second principle discussed is that short tests can be as reliable as long tests, challenging the CTT assumption that longer tests necessarily produce more reliable scores.
  • 📑 The concept of parallel tests in CTT is contrasted with the modern view that tests can be considered parallel if they have the same information function, not necessarily the same number of items.
  • 🧩 The lecture also touches on the idea that the quality of measurement in CTT is dependent on the characteristics of the sample, while in IRT, the person's ability and the item parameters are separate and not dependent on the sample characteristics.
  • 🔄 The video concludes by suggesting that the principles of IRT allow for the development of tests that are more precisely tailored to the abilities of the individuals being tested.

Q & A

  • What is the main difference between Classical Test Theory (CTT) and Item Response Theory (IRT) regarding measurement error?

    -In CTT, the standard error of measurement is constant across all test scores, while in IRT, the standard error varies depending on the test score and is specific to each individual's ability level.

  • How does IRT improve measurement precision compared to CTT?

    -IRT improves measurement precision by tailoring the standard error of measurement to the test-taker's ability. This allows for more accurate estimations of ability for both high- and low-ability individuals, unlike CTT, which assumes constant error across the population.

  • What role does test length play in reliability according to CTT and IRT?

    -In CTT, longer tests are generally more reliable, whereas in IRT, even shorter tests can achieve high reliability if the test items are well-matched to the test-taker's ability level.

  • What is the significance of the item difficulty parameter in IRT?

    -In IRT, the item difficulty parameter helps match the difficulty of test items to the ability level of the test-takers, enhancing precision and reliability by providing more informative data on test-taker performance.

  • How does IRT handle test design differently from CTT when it comes to item difficulty?

    -IRT allows for the customization of tests to ensure that the items are appropriately challenging for the test-taker, resulting in more varied and informative score distributions compared to CTT, which assumes a uniform approach to item difficulty.

  • Why is it important to match test difficulty to test-taker ability in IRT?

    -Matching test difficulty to test-taker ability ensures that the test provides the most precise measurement possible, avoiding high errors in cases where the test is too easy or too difficult for the individual.

  • How does IRT manage the issue of parallel test forms differently from CTT?

    -IRT uses Test Information Functions (TIFs) to ensure that test forms provide comparable information, even if the individual items differ. In CTT, parallel forms are defined by having similar item statistics such as mean and variance.

  • How does the standard error of measurement differ between individuals in IRT?

    -In IRT, the standard error of measurement varies depending on the test-taker's ability level, meaning individuals with different abilities will have different levels of measurement precision.

  • What is the relationship between reliability and test-taker ability in IRT?

    -In IRT, reliability is highest when the difficulty of the test matches the ability of the test-taker. This ensures that the test is providing the most accurate measure of their true ability.

  • What is the advantage of using IRT for testing populations with different ability levels?

    -IRT allows for more precise measurements across a wide range of ability levels by adjusting the difficulty of the items and the associated measurement error for each individual, making it more adaptable to diverse populations compared to CTT.

Outlines

00:00

📊 Introduction to Classical and Modern Test Theories

This paragraph introduces the differences between classical test theory (CTT) and item response theory (IRT), which is a part of modern test theory. The speaker explains that CTT assumes a constant measurement error for all scores in a population, while IRT suggests that measurement errors vary across scores but can be generalized across the population. The speaker uses a test analysis with IRT software to demonstrate how different individuals have varying standard errors of measurement, unlike CTT which provides a single standard error for all examinees. The paragraph also discusses the concept of standard error and its implications on the precision of test scores.

05:00

🔍 Error Standard Variation and Test Reliability

The second paragraph delves deeper into the concept of varying standard errors of measurement in IRT and contrasts it with the constant standard error in CTT. It explains how the precision of a test score can differ based on the individual's ability level. The speaker uses an analogy of weighing oneself with different tools to illustrate how the standard error can affect the score's reliability. The paragraph also discusses how the length of a test does not necessarily impact the reliability of the scores according to modern test theory, unlike the classical view that longer tests produce more reliable scores.

10:03

📉 The Role of Test Length and Item Difficulty in Reliability

This paragraph discusses how the length of a test and the difficulty of its items affect the reliability of the scores. It explains that according to modern test theory, a short test can be as reliable as a long one if the items are well-calibrated to the test-taker's ability level. The speaker introduces the concept of item difficulty and how it should match the test-taker's ability for optimal reliability. The paragraph also touches on the idea of test calibration and how it can lead to more precise measurements when the test's difficulty aligns with the test-taker's abilities.

15:06

📚 Parallel Tests and Sample Characteristics in Measurement

The final paragraph addresses the principles of parallel tests and how test scores are influenced by the characteristics of the test-taker sample. It contrasts the classical test theory's view that test quality depends on the sample's characteristics with the modern test theory's stance that item parameters are separate from the test-taker's abilities. The speaker explains that in modern test theory, the difficulty of items remains consistent regardless of the sample, thus allowing for the development of parallel tests that can measure abilities accurately across different groups. The paragraph concludes with a teaser for further discussion in the next video.

Mindmap

Keywords

💡Classical Test Theory (CTT)

Classical Test Theory (CTT) is a traditional approach to assessing the reliability and validity of tests. It assumes that the error of measurement is constant across all scores within a population. In the video, CTT is contrasted with Item Response Theory (IRT), highlighting that CTT assigns a single standard error of measurement to all examinees, regardless of their ability level, which is depicted as a fixed interval for all test-takers.

💡Item Response Theory (IRT)

Item Response Theory (IRT) is a modern psychometric model that assumes the error of measurement varies across different scores within a population. IRT allows for the development of more precise tests by accounting for individual differences in ability levels. The video explains that IRT can produce different standard errors for each examinee, providing a more nuanced understanding of test reliability.

💡Standard Error of Measurement (SEM)

The Standard Error of Measurement (SEM) is a key concept in both CTT and IRT, representing the degree of precision of test scores. In the video, SEM is used to illustrate the difference between CTT and IRT. While CTT assumes a constant SEM for all test-takers, IRT suggests that SEM varies depending on the individual's score, indicating a more personalized assessment of measurement error.

💡Reliability

Reliability in the context of the video refers to the consistency and stability of test scores. It is a central theme when comparing CTT and IRT. The video discusses how reliability is conceptualized differently in CTT, where longer tests are assumed to be more reliable, versus IRT, where shorter tests can also be highly reliable if they are well-calibrated to the test-taker's ability level.

💡Error of Measurement

Error of Measurement is the discrepancy between a test taker's true score and their observed score. The video explains that in CTT, this error is assumed to be the same for all test-takers, while in IRT, it varies based on the individual's ability level. This concept is crucial for understanding the precision of test scores in both theories.

💡Test Calibration

Test calibration is the process of adjusting a test to ensure that it accurately measures the intended construct, such as a person's ability level. The video mentions that in IRT, tests are calibrated to the test-taker's ability, which allows for a more precise measurement. This is in contrast to CTT, where calibration is not as personalized.

💡Information Function

The Information Function in IRT refers to the amount of information a test item provides about a test-taker's ability level. The video explains that IRT allows for the development of tests with varying difficulty levels that can provide optimal information about a test-taker's ability, which is a key advantage over CTT's approach to test construction.

💡Parallel Tests

Parallel tests are versions of a test that are designed to measure the same construct with equivalent difficulty and discrimination. The video discusses how, in CTT, parallel tests are assumed to have the same mean difficulty and variance, whereas in IRT, parallel forms can be developed through matching the information functions of different test forms, allowing for more flexibility in test construction.

💡Discrimination Index

The Discrimination Index in the context of the video refers to a test item's ability to differentiate between test-takers of different ability levels. IRT allows for the analysis of each item's discrimination, which is crucial for ensuring that tests accurately reflect individual abilities. The video implies that IRT's approach to item discrimination contributes to the development of more precise tests.

💡Ability Level

Ability Level is a central concept in both CTT and IRT, referring to the test-taker's underlying skill or knowledge being measured. The video highlights that IRT provides a more granular view of ability levels by allowing for different standard errors of measurement and information functions based on the individual's ability, which is a significant advancement over CTT's more generalized approach.

Highlights

CTT assumes a constant standard error of measurement for all scores in a population, while IRT allows the standard error of measurement to vary across different scores but can be generalized across the entire population.

In CTT, the standard error of measurement is the same for all examinees, whereas in IRT, it varies based on each individual's score.

CTT provides a single standard error of measurement (e.g., 3.821) for all examinees, while IRT shows varying errors (e.g., 6.4, 6.9, etc.), depending on individual scores.

The precision of a measurement in IRT is dependent on the individual's ability level, with higher errors for low-precision measurements and lower errors for high-precision measurements.

CTT uses a constant standard error across all levels, whereas IRT adjusts standard errors based on specific ability levels, providing more precise measurements tailored to each individual's abilities.

CTT assumes longer tests produce more reliable scores, whereas IRT allows shorter tests to yield reliable scores with high precision, depending on the matching of item difficulty to individual abilities.

IRT emphasizes the importance of test-item difficulty matching the ability levels of individuals to ensure high reliability in measurements.

IRT allows for the comparison of test scores optimally even when the tests vary in difficulty, unlike CTT, which requires parallel tests with the same mean, variance, and item count for optimal score comparison.

CTT results depend on the sample characteristics, while IRT results do not depend on sample characteristics, providing more robust and generalizable measurements.

IRT utilizes a 'Test Information Function' to develop parallel tests, allowing for the addition or modification of items to match the information content between different test forms.

In CTT, a test's quality depends on the characteristics of the sample used, while IRT separates item difficulty and ability parameters, allowing for stable measurements across different samples.

IRT provides more accurate assessments by aligning the test with the abilities of specific populations, resulting in higher measurement precision compared to CTT.

CTT interprets a person's ability based on the test difficulty, creating a circular dependency that complicates interpretation, whereas IRT decouples item parameters from sample characteristics.

IRT allows for a better understanding of error distribution and measurement precision across different levels of ability, enabling more targeted test design.

IRT's flexibility in test design enables the use of shorter or non-parallel tests to achieve high reliability, adapting the test length and item difficulty to the test-taker's ability.

Transcripts

play00:00

Hai assalamualaikum warahmatullahi

play00:01

wabarakatuh kali ini kita akan membahas

play00:04

perbedaan antara teori tes klasik atau

play00:07

sitip dengan item response theory atau

play00:10

teori tes modern dalam hal ini ditipu

play00:12

mewakili prinsip Ramadhani RT mewakili

play00:15

prinsip yang baru prinsip-prinsip ini

play00:17

saya rangkum dari buku yang dikarang

play00:19

oleh emergen judulnya hydaway sponsori

play00:22

Force ideologis prinsip yang pertama

play00:24

jika prinsip lama menyatakan bahwa

play00:28

kesalahan standar pengukuran berlaku

play00:30

untuk semua skor dalam populasi tertentu

play00:33

maka prinsip yang baru menggelapkan

play00:36

bahwa kesalahan setengah pengukuran

play00:38

berbeda di semua score tetapi dapat

play00:41

digeneralisasikan pada seluruh populasi

play00:43

di sini ada perbedaan jika error standar

play00:47

ini untuk semua yang ini sangat berbeda

play00:50

saya menganalisis suatu test dengan

play00:54

menggunakan program iteman yang mewakili

play00:56

cdt dan ini bawaan dari er

play01:00

program yang analisis dengan menggunakan

play01:02

air RT kita lihat hasil dari satu tes

play01:06

untuk analisis Dengan menggunakan teori

play01:08

klasik menghasilkan satu standar error

play01:11

of measurement kita lihat di sini 3,8 21

play01:15

ini berlaku untuk semua examinees

play01:18

misalnya 39 orang semuanya same nya sama

play01:21

tapi pada air RT semuanya berbeda-beda

play01:24

kita lihat ada 6,4 6,9 juga Malabar koma

play01:30

tujuh delapan dan seterusnya Star error

play01:33

ini tergantung dari skor masing-masing

play01:35

orang kita lihat di sini ada orang yang

play01:38

skor petanya Teteh itu adalah skor hasil

play01:41

estimasi dengan menggunakan air di 0,33

play01:44

di sini lo koma 3 3 standar errornya

play01:47

sama 0,64 0,64 sehingga jika diketahui

play01:53

dari berbagai macam standar error ini

play01:55

dapat diketahui bahwa masing-masing

play01:58

level

play02:00

buat memiliki error standar

play02:02

sendiri-sendiri pertanyaannya adalah

play02:04

Apakah starer of measurement itu stereo

play02:08

fishermen menunjukkan Seberapa jauh skor

play02:11

itu memiliki presisi semakin tinggi

play02:14

airnya presisinya rendah semakin rendah

play02:18

teroris ramen presisinya tinggi misalkan

play02:21

ini ini sp-nya lebih tinggi hijau es teh

play02:26

hijau lebih tinggi dibanding dengan ST

play02:29

yang merah kita lihat di sini Jika saya

play02:32

memiliki berat badan sebesar 70 gram

play02:36

maka ketika diukur dengan menggunakan

play02:39

alat ukur ini yang berwarna hijau bisa

play02:43

jadi saya mendapatkan scones akan ini 60

play02:47

kadang bisa sampai 80 karena renangnya

play02:50

sangat luas sekali namun ketika saya

play02:53

menggunakan alat ukur yang berwarna

play02:55

merah prosesnya tinggi sehingga

play02:57

kadang-kadang disini saya mendapatkan

play02:59

skor 6

play03:00

lima dan kadang 75 Padang diantara

play03:03

nilai-nilai ini ini karena secara error

play03:06

of measurement hari alat ukur yang

play03:09

berwarna merah ini sangat rendah untuk

play03:12

teori tes klasik ini berlaku untuk semua

play03:15

orang baik yang berat badannya 60 61 62

play03:19

dan seterusnya Semuanya sama kita lihat

play03:22

misalkan ini adalah timbangan yang

play03:24

dikalibrasi Dengan menggunakan teori

play03:26

skor murni klasik maka untuk semua berat

play03:30

badan misalkan ini esainya sedemikian

play03:32

sehingga intervalnya itu antara minus 5

play03:35

sampai + 5 jadi misalkan 70 bisa keluar

play03:39

sampai 75 bisa juga keluarga hingga

play03:42

adalah 65 kadang juga 66 dan seterusnya

play03:46

bisa sampai 74 ini berlaku untuk

play03:48

seterusnya misalkan berat badannya

play03:50

adalah 71 maka bisa sampai 76 hingga 66

play03:56

timbangan yang berwarna hitam ini

play03:57

memiliki error standar yang lebih

play04:00

aja besar dibanding dengan yang berwarna

play04:02

biru ini berikut ini saya akan

play04:05

mendemonstrasikan Bagaimana mengestimasi

play04:07

interval scorebook nih dengan

play04:10

menggunakan program yang saya kembangkan

play04:12

untuk keperluan kuliah and Berikut ini

play04:14

adalah program bantu untuk memahami

play04:16

error standar pengukuran misalnya skor

play04:19

saya adalah 50 kemudian skor

play04:23

reliabilitas Berikut ini adalah program

play04:25

bantu untuk memahami error standar wa

play04:28

pengukuran misalnya skor saya adalah 50

play04:32

dan reliabilitas pengukuran dari skala

play04:35

ini adalah 0,99 kemudian varian skornya

play04:38

adalah 3 dan teh level kepercayaan saya

play04:42

pakai misalkan 95 kita lihat di sini eh

play04:47

saya bulatkan saja sehingga tidak ada

play04:51

desimalnya Oke kita lihat di sini

play04:56

presisinya sangat tinggi sekali sehingga

play04:59

ketika

play05:00

melakukan pengukuran berulang-ulang saya

play05:02

akan mendapatkan skor selalu 50 disini

play05:06

nah Bagaimana jika reliabilitasnya

play05:08

mengalami penurunan mengatakan ah 0,8

play05:12

maka dari alat ukur ini akan didapatkan

play05:15

presisi plus ke atas dua dan minus ke

play05:19

bawah dua sehingga ketika saya melakukan

play05:22

enggak pengukuran beberapa kali saya

play05:24

akan mendapatkan skor antara 48-52 kita

play05:29

lihat di sini error standarnya mengalami

play05:32

peningkatan untuk teori klasik misalnya

play05:34

ketika tidak ini tidak berubah yang

play05:37

berubah adalah skor individu kita lihat

play05:39

disini semuanya selalu bergerak dua ke

play05:42

atas dan dua ke bawahnya 42 ke atas dua

play05:46

kebawa 412 ke atas dua kebawah dan

play05:50

seterusnya inilah yang dinamakan dengan

play05:51

error standar konstan untuk semua orang

play05:55

berbeda dengan teori skor murni klasik

play05:58

error standar pada

play06:00

Hai teori modern berbeda-beda tergantung

play06:03

dari level kemampuan setiap orang kita

play06:07

lihat di sini ya untuk tinggi badan

play06:09

seperti ini x-nya plus minus 5 ini

play06:13

hampir setara Katakanlah khas sehingga

play06:15

error standarnya sama kemudian hal ini

play06:18

sedikit lebih tinggi Hero standarnya

play06:20

lebih rendah lebih rendah dan lebih

play06:22

rendah dengan demikian kita bisa melihat

play06:26

bahwa error standar yang didapatkan dari

play06:28

tes yang dikalibrasi Dengan menggunakan

play06:31

teori tes modern berbeda-beda antara

play06:34

satu dengan yang lainnya presisinya

play06:36

berbeda antara satu dengan yang lainnya

play06:39

oleh karena itu tes itu akan dikenakan

play06:43

sesuai dengan fungsinya misalkan Saya

play06:46

akan melakukan pengukuran untuk

play06:48

orang-orang yang memiliki kepandaian

play06:50

yang tinggi maka saya tepat menggunakan

play06:54

alat ukur ini karena akan menghasilkan

play06:56

presisi yang tinggi namun alat ukur ini

play07:00

kurang tepat jika digunakan pada

play07:01

orang-orang yang memiliki kemampuan yang

play07:04

rendah berikut ini jika di grafik kan

play07:08

kita lihat fungsi informasi dari teori

play07:11

respons butir atau hati kita lihat ini

play07:14

adalah level kemampuan orang dari sini

play07:17

menunjukkan orang itu semakin mampu

play07:20

semakin ke kiri orang itu semakin tidak

play07:23

mampu kita lihat yang berwarna merah ini

play07:27

adalah error standar disini terlihat

play07:30

bahwa setiap level kemampuan error

play07:33

standarnya berbeda-beda gambar ini

play07:35

menunjukkan bahwa error standar untuk

play07:38

tes ini cenderung rendah pada

play07:41

orang-orang yang memiliki kemampuan

play07:43

dibawah rata-rata kemampuan rata-rata

play07:46

antara minus 1 hingga 0r standar bisa

play07:51

sangat tinggi dan sebaliknya disini

play07:54

adalah presisi besi sangat tinggi sekali

play07:57

Oleh karena itu tes ini sangat

play08:00

Fati berikan pada individu yang memiliki

play08:03

kemampuan dibawah rata-rata sedikit

play08:05

yaitu antara minus 1 hingga 16 Unej KT

play08:10

sini diberikan pada individu yang

play08:12

kemampuannya sangat tinggi misalkan

play08:14

antara 3 dan 4 kemudian antara minus

play08:18

tiga dan minus 4 yang kemampuan yang

play08:21

sangat rendah sekali kita lihat di sini

play08:22

error standar memiliki nilai yang cukup

play08:26

tinggi bahkan lebih tinggi dari

play08:28

presisinya demikian juga di orang-orang

play08:32

yang kemampuan yang tinggi error standar

play08:34

sangat tinggi dibanding dengan

play08:37

presisinya berbeda dengan ketika antara

play08:41

minus tiga hingga dua presisi sangat

play08:45

tinggi dibanding dengan errornya ini

play08:48

adalah salah satu kelebihan dari

play08:51

pengembangan Dengan menggunakan teori

play08:53

tas modern kita bisa menyesuaikan tes

play08:56

itu pada orang tertentu agar mendapat

play09:00

ini presisi yang tinggi Selanjutnya

play09:02

perbedaan yang kedua prinsip lama

play09:05

mengatakan bahwa tes yang panjang akan

play09:07

menghasilkan skor yang reliable dipakai

play09:10

dengan tes yang pendek namun pada

play09:13

prinsip yang baru tes yang pendek bisa

play09:15

saja menghasilkan skor yang reliabel

play09:18

atau sport dengan presisi yang tinggi

play09:20

dibanding dengan tes yang panjang jadi

play09:23

panjang-pendeknya tes pada fans baru

play09:27

tidak berbeda dalam menghasilkan presisi

play09:30

skor kita lihat ceritanya seperti ini

play09:33

dalam statistika sebuah statistik

play09:35

misalkan RT dan sebagainya Itu

play09:38

terpercaya alias bukan karena faktor

play09:41

kebetulan jika informasinya didapatkan

play09:43

dari banyak orang Konsep ini terkait

play09:46

dengan bidang psychometric a dimana pada

play09:49

teori tes klasik sebuah pengukuran akan

play09:52

menghasilkan reliabilitas yang tinggi

play09:54

atau posisi yang tinggi dan bukan karena

play09:57

faktor error pengukuran jika

play10:00

lakukan pengukuran dalam jumlah yang

play10:02

banyak dengan butir yang banyak atau

play10:05

dengan tes yang sangat panjang kita

play10:07

lihat di sini ini adalah rumus cronbach

play10:10

Alpha koefisien reliabilitas dengan

play10:12

pendekatan konsistensi internal yang

play10:15

paling populer di teori tes klasik kita

play10:17

lihat salah satu komponennya adalah k&k

play10:20

ini adalah Jumlah butir Smart 3 yang

play10:24

lain ini adalah konstan jika kita

play10:26

tingkatkan maka reliabilitas akan

play10:28

mengalami peningkatan teori tes modern

play10:32

mengatakan bahwa reliabilitas yang

play10:34

tinggi akan didapatkan ketika orang dan

play10:38

tes itu memiliki kesetaraan jadi orang

play10:42

yang kemampuannya tinggi diberikan

play10:43

dengan tes yang Willy kesulitan yang

play10:46

tinggi dan orang yang kemampuannya roda

play10:48

diberikan gas dengan tingkat kesulitan

play10:50

yang Anda ini akan menghasilkan Alfan

play10:53

misalkan atau reliabilitas yang sangat

play10:56

Hindu menurut teori respons butir

play10:59

reliability

play11:00

dekat operasi skor yang tinggi akan

play11:02

didapatkan ketika kita memberikan butir

play11:04

soal yang memiliki tingkat kesulitan

play11:06

yang sesuai dengan kemampuan orang yang

play11:08

kita ukur misalnya ada populasi orang

play11:12

yang memiliki kemampuannya melompat

play11:15

misalnya kita memiliki orang dengan

play11:19

populasi yang meloncatnya itu antara

play11:25

satu hingga 1,2 meter maka kita

play11:29

memberikan galah sepanjang antara satu

play11:34

hingga 1,2 misalkan 1,1 meter dengan

play11:39

memberikan galah setinggi ini kita akan

play11:42

mendapatkan variasi yang lebih banyak

play11:46

dari hasil pengukuran kita lihat di sini

play11:49

misalnya saya memiliki tes dengan

play11:51

tingkat kesulitan yang sedang jika ini

play11:54

saya berikan pada kemampuan orang yang

play11:56

tinggi distribusi skor akan cenderung

play11:58

homogen

play12:00

orang-orang yang bisa mengerjakan

play12:01

sebaliknya jika sayap menyerikan tes ini

play12:05

pada orang yang kemampuannya rendah

play12:07

distribusi skor juga relatif setara ada

play12:10

banyak orang yang tidak bisa mengerjakan

play12:12

tes ini dibandingkan dengan yang bisa

play12:15

namun jika tes ini diberikan kepada

play12:18

orang yang kemampuannya setara kita

play12:20

lihat distribusi skor mulai kelihatan

play12:23

variasinya dan distribusi skor yang

play12:26

bervariasi ini akan meningkatkan presisi

play12:30

atau reliabilitas pengukuran dalam teori

play12:34

respons butir pengembangan tes atau

play12:37

perakitan tes dilakukan dengan

play12:40

memacetkan antara tingkat kesulitan tes

play12:44

dengan kemampuan orang misalnya saya

play12:47

memiliki rentang kemampuan dari rendah

play12:49

ke tinggi kemudian Berikut ini adalah

play12:52

level dari kemampuan subjek besarkan

play12:54

berada di sini Nah untuk mendapatkan tes

play12:57

dengan presisi yang tinggi saya

play13:00

Hai memberikan tes dengan tingkat

play13:01

kesulitan yang setara dengan populasi

play13:04

ini ketika ini sudah Max maka akan kita

play13:07

dapatkan reliabilitas yang tinggi

play13:10

perbedaan yang ketiga prinsip lama

play13:13

mengatakan bahwa skor antar tes akan

play13:15

optimal jika tes yang dibandingkan itu

play13:17

paralel namun berisi baru mengatakan

play13:20

bahwa perbandingan skor akan optimal

play13:23

jika tes yang dibandingkan itu tingkat

play13:26

kesulitannya bervariasi kita lihat

play13:29

ceritanya di sini tes paralel menurut

play13:31

teori tas klasik bergradasi ada paralel

play13:34

ada strip paralel kita lihat paralel itu

play13:37

intinya adalah ratanya sama dimana

play13:40

rerata itu menunjukkan tingkat kesulitan

play13:42

kemudian varian skor atau keragaman itu

play13:45

juga sama yang nantinya terkait dengan

play13:48

er pengukuran dan jumlah buktinya sama

play13:51

dan tentu saja Dewi dapatkan dari khas

play13:55

dengan kisi-kisi atau blueprint yang

play13:57

sama ketika ini

play14:00

Hai terpenuhi maka kita dapat mengatakan

play14:02

tes tersebut paralel teori tes modern

play14:05

memiliki fasilitas yang namanya tes

play14:08

information function atau fungsi

play14:10

informasi tes melalui TV ini kita akan

play14:14

dapat mengembangkan tes tes yang paralel

play14:16

ini contoh grafik detektif dari dua tes

play14:21

yang berbeda formnya ini form yang

play14:23

pertama form A uniform Yang kedua kita

play14:26

lihat di sini hampir mirip karakteristik

play14:32

tesnya untuk mendapatkan cash yang

play14:36

sangat paralel kita bisa misalnya

play14:38

menambahkan butir yang ada di sini

play14:41

antara minus 1 hingga minus 25 sehingga

play14:45

informasi ada di sini mengalami

play14:48

peningkatan Homa dan Bombe ini tidak

play14:51

harus didapatkan dari jumlah butir yang

play14:53

sama atau rela tayang yang sama bisa

play14:56

saja dua butirnya pomade dan Bombe

play15:00

pneumonitis ini yang ditekankan adalah

play15:01

pada fungsi informasinya ketika semua

play15:05

titik-titik disini match report

play15:08

dikatakan tes sudah memiliki fungsi yang

play15:11

sama sehingga skor yang dihasilkan dari

play15:14

form a&b dapat dikatakan setara

play15:18

perbedaan yang keempat prinsip lama

play15:21

mengatakan bahwa kualitas hasil

play15:23

pengukuran tergantung dari karakteristik

play15:26

sampel namun divisi baru mengatakan

play15:29

tidak tergantung dari karakteristik

play15:31

sampel kita lihat pada teori chess

play15:35

classic kemampuan orang tergantung dari

play15:39

tasnya dan tes tingkat kesulitan

play15:42

misalnya tergantung dari kemampuan orang

play15:45

sehingga dapat dikatakan ini muter

play15:48

meluluh orang bergantung dari tes-tes

play15:50

dari tergantung dari orang-orang akan

play15:54

kelihatan kurang pinter ketika

play15:56

mendapatkan butir yang sulit dan

play15:58

sebaliknya seseorang

play16:00

dan kelihatan sangat pinter jika

play16:02

mendapatkan bibir yang sangat mudah

play16:04

namun sulit dan mudahnya ini juga

play16:07

tergantung dari orang maka akan terjadi

play16:11

lingkaran setan yang muter terus tidak

play16:14

akan pernah berhenti sehingga

play16:16

interpretasi terhadap kemampuan orang

play16:19

itu sulit karena tidak adanya jangkar

play16:22

yang menjadi standar untuk mengatakan

play16:26

orang itu pinter orang itu kurang pinter

play16:28

atau video itu sulit atau aku begitu

play16:31

mudah ini gambar menunjukkan bahwa

play16:34

karakteristik sampel itu mempengaruhi

play16:36

tingkat kesulitan butir juga daya

play16:39

diskriminasi butir namun pada teori tes

play16:43

modern kemampuan orang atau parameter

play16:45

butir terpisah tidak tergantung antara

play16:48

satu dengan yang lainnya Hal ini

play16:51

dikarenakan tingkat kesulitan butir pada

play16:55

teori tes modern tidak berubah karena

play16:58

seperti halnya ini sudah

play17:00

aja ntar kan jadi meskipun dipakai untuk

play17:02

sampel yang berbeda-beda atau dipakai

play17:05

dengan tes yang lain yang berbeda-beda

play17:07

juga akan menghasilkan informasi yang

play17:11

setara perbedaan yang kelima dan

play17:13

seterusnya akan kita bahas pada video

play17:16

selanjutnya kita rehat dulu

play17:19

assalamualaikum warahmatullahi

play17:21

wabarakatuh

Rate This

5.0 / 5 (0 votes)

Etiquetas Relacionadas
Test TheoryMeasurement ErrorItem ResponseClassical TestReliabilityPsychometricsTesting PrecisionScore AnalysisError StandardTest Calibration
¿Necesitas un resumen en inglés?