Membandingan Konsep Teori Tes Klasik CTT vs Teori Tes Modern IRT
Summary
TLDRThis video script discusses the differences between classical test theory and modern item response theory. It explains how classical theory assumes constant measurement error across all scores, while item response theory acknowledges varying errors depending on the score level. The script also covers how modern tests can be short yet reliable, unlike the belief in classical theory that longer tests are more reliable. It touches on the concept of parallel tests, where modern theory uses test information functions to ensure equivalent measurement despite different item difficulties. The discussion aims to clarify misconceptions and highlight the advantages of modern testing methods.
Takeaways
- π The lecture discusses the differences between classical test theory (CTT) and item response theory (IRT), highlighting the newer principles of IRT as an advancement.
- π A key principle in IRT is that measurement error varies across different scores within a population, unlike CTT which assumes a constant measurement error for all scores.
- π The lecture uses an example of a test analyzed with IRT software, showing how standard errors of measurement differ for each examinee, as opposed to CTT which provides a single standard error for all.
- π The concept of standard error of measurement (SEM) is explained, emphasizing how it indicates the precision of a score, with higher SEMs indicating less precise scores.
- π‘οΈ An analogy is used to explain SEM, comparing it to the precision of different measuring tools, such as scales, where the color of the scale represents the level of precision.
- π The lecture demonstrates how to estimate the scorebook interval using a developed program, showing the impact of reliability on SEM and score precision.
- π It is explained that in IRT, SEM varies depending on the ability level of each individual, contrasting with CTT where SEM is constant for all individuals.
- π The second principle discussed is that short tests can be as reliable as long tests, challenging the CTT assumption that longer tests necessarily produce more reliable scores.
- π The concept of parallel tests in CTT is contrasted with the modern view that tests can be considered parallel if they have the same information function, not necessarily the same number of items.
- 𧩠The lecture also touches on the idea that the quality of measurement in CTT is dependent on the characteristics of the sample, while in IRT, the person's ability and the item parameters are separate and not dependent on the sample characteristics.
- π The video concludes by suggesting that the principles of IRT allow for the development of tests that are more precisely tailored to the abilities of the individuals being tested.
Q & A
What is the main difference between Classical Test Theory (CTT) and Item Response Theory (IRT) regarding measurement error?
-In CTT, the standard error of measurement is constant across all test scores, while in IRT, the standard error varies depending on the test score and is specific to each individual's ability level.
How does IRT improve measurement precision compared to CTT?
-IRT improves measurement precision by tailoring the standard error of measurement to the test-taker's ability. This allows for more accurate estimations of ability for both high- and low-ability individuals, unlike CTT, which assumes constant error across the population.
What role does test length play in reliability according to CTT and IRT?
-In CTT, longer tests are generally more reliable, whereas in IRT, even shorter tests can achieve high reliability if the test items are well-matched to the test-taker's ability level.
What is the significance of the item difficulty parameter in IRT?
-In IRT, the item difficulty parameter helps match the difficulty of test items to the ability level of the test-takers, enhancing precision and reliability by providing more informative data on test-taker performance.
How does IRT handle test design differently from CTT when it comes to item difficulty?
-IRT allows for the customization of tests to ensure that the items are appropriately challenging for the test-taker, resulting in more varied and informative score distributions compared to CTT, which assumes a uniform approach to item difficulty.
Why is it important to match test difficulty to test-taker ability in IRT?
-Matching test difficulty to test-taker ability ensures that the test provides the most precise measurement possible, avoiding high errors in cases where the test is too easy or too difficult for the individual.
How does IRT manage the issue of parallel test forms differently from CTT?
-IRT uses Test Information Functions (TIFs) to ensure that test forms provide comparable information, even if the individual items differ. In CTT, parallel forms are defined by having similar item statistics such as mean and variance.
How does the standard error of measurement differ between individuals in IRT?
-In IRT, the standard error of measurement varies depending on the test-taker's ability level, meaning individuals with different abilities will have different levels of measurement precision.
What is the relationship between reliability and test-taker ability in IRT?
-In IRT, reliability is highest when the difficulty of the test matches the ability of the test-taker. This ensures that the test is providing the most accurate measure of their true ability.
What is the advantage of using IRT for testing populations with different ability levels?
-IRT allows for more precise measurements across a wide range of ability levels by adjusting the difficulty of the items and the associated measurement error for each individual, making it more adaptable to diverse populations compared to CTT.
Outlines
π Introduction to Classical and Modern Test Theories
This paragraph introduces the differences between classical test theory (CTT) and item response theory (IRT), which is a part of modern test theory. The speaker explains that CTT assumes a constant measurement error for all scores in a population, while IRT suggests that measurement errors vary across scores but can be generalized across the population. The speaker uses a test analysis with IRT software to demonstrate how different individuals have varying standard errors of measurement, unlike CTT which provides a single standard error for all examinees. The paragraph also discusses the concept of standard error and its implications on the precision of test scores.
π Error Standard Variation and Test Reliability
The second paragraph delves deeper into the concept of varying standard errors of measurement in IRT and contrasts it with the constant standard error in CTT. It explains how the precision of a test score can differ based on the individual's ability level. The speaker uses an analogy of weighing oneself with different tools to illustrate how the standard error can affect the score's reliability. The paragraph also discusses how the length of a test does not necessarily impact the reliability of the scores according to modern test theory, unlike the classical view that longer tests produce more reliable scores.
π The Role of Test Length and Item Difficulty in Reliability
This paragraph discusses how the length of a test and the difficulty of its items affect the reliability of the scores. It explains that according to modern test theory, a short test can be as reliable as a long one if the items are well-calibrated to the test-taker's ability level. The speaker introduces the concept of item difficulty and how it should match the test-taker's ability for optimal reliability. The paragraph also touches on the idea of test calibration and how it can lead to more precise measurements when the test's difficulty aligns with the test-taker's abilities.
π Parallel Tests and Sample Characteristics in Measurement
The final paragraph addresses the principles of parallel tests and how test scores are influenced by the characteristics of the test-taker sample. It contrasts the classical test theory's view that test quality depends on the sample's characteristics with the modern test theory's stance that item parameters are separate from the test-taker's abilities. The speaker explains that in modern test theory, the difficulty of items remains consistent regardless of the sample, thus allowing for the development of parallel tests that can measure abilities accurately across different groups. The paragraph concludes with a teaser for further discussion in the next video.
Mindmap
Keywords
π‘Classical Test Theory (CTT)
π‘Item Response Theory (IRT)
π‘Standard Error of Measurement (SEM)
π‘Reliability
π‘Error of Measurement
π‘Test Calibration
π‘Information Function
π‘Parallel Tests
π‘Discrimination Index
π‘Ability Level
Highlights
CTT assumes a constant standard error of measurement for all scores in a population, while IRT allows the standard error of measurement to vary across different scores but can be generalized across the entire population.
In CTT, the standard error of measurement is the same for all examinees, whereas in IRT, it varies based on each individual's score.
CTT provides a single standard error of measurement (e.g., 3.821) for all examinees, while IRT shows varying errors (e.g., 6.4, 6.9, etc.), depending on individual scores.
The precision of a measurement in IRT is dependent on the individual's ability level, with higher errors for low-precision measurements and lower errors for high-precision measurements.
CTT uses a constant standard error across all levels, whereas IRT adjusts standard errors based on specific ability levels, providing more precise measurements tailored to each individual's abilities.
CTT assumes longer tests produce more reliable scores, whereas IRT allows shorter tests to yield reliable scores with high precision, depending on the matching of item difficulty to individual abilities.
IRT emphasizes the importance of test-item difficulty matching the ability levels of individuals to ensure high reliability in measurements.
IRT allows for the comparison of test scores optimally even when the tests vary in difficulty, unlike CTT, which requires parallel tests with the same mean, variance, and item count for optimal score comparison.
CTT results depend on the sample characteristics, while IRT results do not depend on sample characteristics, providing more robust and generalizable measurements.
IRT utilizes a 'Test Information Function' to develop parallel tests, allowing for the addition or modification of items to match the information content between different test forms.
In CTT, a test's quality depends on the characteristics of the sample used, while IRT separates item difficulty and ability parameters, allowing for stable measurements across different samples.
IRT provides more accurate assessments by aligning the test with the abilities of specific populations, resulting in higher measurement precision compared to CTT.
CTT interprets a person's ability based on the test difficulty, creating a circular dependency that complicates interpretation, whereas IRT decouples item parameters from sample characteristics.
IRT allows for a better understanding of error distribution and measurement precision across different levels of ability, enabling more targeted test design.
IRT's flexibility in test design enables the use of shorter or non-parallel tests to achieve high reliability, adapting the test length and item difficulty to the test-taker's ability.
Transcripts
Hai assalamualaikum warahmatullahi
wabarakatuh kali ini kita akan membahas
perbedaan antara teori tes klasik atau
sitip dengan item response theory atau
teori tes modern dalam hal ini ditipu
mewakili prinsip Ramadhani RT mewakili
prinsip yang baru prinsip-prinsip ini
saya rangkum dari buku yang dikarang
oleh emergen judulnya hydaway sponsori
Force ideologis prinsip yang pertama
jika prinsip lama menyatakan bahwa
kesalahan standar pengukuran berlaku
untuk semua skor dalam populasi tertentu
maka prinsip yang baru menggelapkan
bahwa kesalahan setengah pengukuran
berbeda di semua score tetapi dapat
digeneralisasikan pada seluruh populasi
di sini ada perbedaan jika error standar
ini untuk semua yang ini sangat berbeda
saya menganalisis suatu test dengan
menggunakan program iteman yang mewakili
cdt dan ini bawaan dari er
program yang analisis dengan menggunakan
air RT kita lihat hasil dari satu tes
untuk analisis Dengan menggunakan teori
klasik menghasilkan satu standar error
of measurement kita lihat di sini 3,8 21
ini berlaku untuk semua examinees
misalnya 39 orang semuanya same nya sama
tapi pada air RT semuanya berbeda-beda
kita lihat ada 6,4 6,9 juga Malabar koma
tujuh delapan dan seterusnya Star error
ini tergantung dari skor masing-masing
orang kita lihat di sini ada orang yang
skor petanya Teteh itu adalah skor hasil
estimasi dengan menggunakan air di 0,33
di sini lo koma 3 3 standar errornya
sama 0,64 0,64 sehingga jika diketahui
dari berbagai macam standar error ini
dapat diketahui bahwa masing-masing
level
buat memiliki error standar
sendiri-sendiri pertanyaannya adalah
Apakah starer of measurement itu stereo
fishermen menunjukkan Seberapa jauh skor
itu memiliki presisi semakin tinggi
airnya presisinya rendah semakin rendah
teroris ramen presisinya tinggi misalkan
ini ini sp-nya lebih tinggi hijau es teh
hijau lebih tinggi dibanding dengan ST
yang merah kita lihat di sini Jika saya
memiliki berat badan sebesar 70 gram
maka ketika diukur dengan menggunakan
alat ukur ini yang berwarna hijau bisa
jadi saya mendapatkan scones akan ini 60
kadang bisa sampai 80 karena renangnya
sangat luas sekali namun ketika saya
menggunakan alat ukur yang berwarna
merah prosesnya tinggi sehingga
kadang-kadang disini saya mendapatkan
skor 6
lima dan kadang 75 Padang diantara
nilai-nilai ini ini karena secara error
of measurement hari alat ukur yang
berwarna merah ini sangat rendah untuk
teori tes klasik ini berlaku untuk semua
orang baik yang berat badannya 60 61 62
dan seterusnya Semuanya sama kita lihat
misalkan ini adalah timbangan yang
dikalibrasi Dengan menggunakan teori
skor murni klasik maka untuk semua berat
badan misalkan ini esainya sedemikian
sehingga intervalnya itu antara minus 5
sampai + 5 jadi misalkan 70 bisa keluar
sampai 75 bisa juga keluarga hingga
adalah 65 kadang juga 66 dan seterusnya
bisa sampai 74 ini berlaku untuk
seterusnya misalkan berat badannya
adalah 71 maka bisa sampai 76 hingga 66
timbangan yang berwarna hitam ini
memiliki error standar yang lebih
aja besar dibanding dengan yang berwarna
biru ini berikut ini saya akan
mendemonstrasikan Bagaimana mengestimasi
interval scorebook nih dengan
menggunakan program yang saya kembangkan
untuk keperluan kuliah and Berikut ini
adalah program bantu untuk memahami
error standar pengukuran misalnya skor
saya adalah 50 kemudian skor
reliabilitas Berikut ini adalah program
bantu untuk memahami error standar wa
pengukuran misalnya skor saya adalah 50
dan reliabilitas pengukuran dari skala
ini adalah 0,99 kemudian varian skornya
adalah 3 dan teh level kepercayaan saya
pakai misalkan 95 kita lihat di sini eh
saya bulatkan saja sehingga tidak ada
desimalnya Oke kita lihat di sini
presisinya sangat tinggi sekali sehingga
ketika
melakukan pengukuran berulang-ulang saya
akan mendapatkan skor selalu 50 disini
nah Bagaimana jika reliabilitasnya
mengalami penurunan mengatakan ah 0,8
maka dari alat ukur ini akan didapatkan
presisi plus ke atas dua dan minus ke
bawah dua sehingga ketika saya melakukan
enggak pengukuran beberapa kali saya
akan mendapatkan skor antara 48-52 kita
lihat di sini error standarnya mengalami
peningkatan untuk teori klasik misalnya
ketika tidak ini tidak berubah yang
berubah adalah skor individu kita lihat
disini semuanya selalu bergerak dua ke
atas dan dua ke bawahnya 42 ke atas dua
kebawa 412 ke atas dua kebawah dan
seterusnya inilah yang dinamakan dengan
error standar konstan untuk semua orang
berbeda dengan teori skor murni klasik
error standar pada
Hai teori modern berbeda-beda tergantung
dari level kemampuan setiap orang kita
lihat di sini ya untuk tinggi badan
seperti ini x-nya plus minus 5 ini
hampir setara Katakanlah khas sehingga
error standarnya sama kemudian hal ini
sedikit lebih tinggi Hero standarnya
lebih rendah lebih rendah dan lebih
rendah dengan demikian kita bisa melihat
bahwa error standar yang didapatkan dari
tes yang dikalibrasi Dengan menggunakan
teori tes modern berbeda-beda antara
satu dengan yang lainnya presisinya
berbeda antara satu dengan yang lainnya
oleh karena itu tes itu akan dikenakan
sesuai dengan fungsinya misalkan Saya
akan melakukan pengukuran untuk
orang-orang yang memiliki kepandaian
yang tinggi maka saya tepat menggunakan
alat ukur ini karena akan menghasilkan
presisi yang tinggi namun alat ukur ini
kurang tepat jika digunakan pada
orang-orang yang memiliki kemampuan yang
rendah berikut ini jika di grafik kan
kita lihat fungsi informasi dari teori
respons butir atau hati kita lihat ini
adalah level kemampuan orang dari sini
menunjukkan orang itu semakin mampu
semakin ke kiri orang itu semakin tidak
mampu kita lihat yang berwarna merah ini
adalah error standar disini terlihat
bahwa setiap level kemampuan error
standarnya berbeda-beda gambar ini
menunjukkan bahwa error standar untuk
tes ini cenderung rendah pada
orang-orang yang memiliki kemampuan
dibawah rata-rata kemampuan rata-rata
antara minus 1 hingga 0r standar bisa
sangat tinggi dan sebaliknya disini
adalah presisi besi sangat tinggi sekali
Oleh karena itu tes ini sangat
Fati berikan pada individu yang memiliki
kemampuan dibawah rata-rata sedikit
yaitu antara minus 1 hingga 16 Unej KT
sini diberikan pada individu yang
kemampuannya sangat tinggi misalkan
antara 3 dan 4 kemudian antara minus
tiga dan minus 4 yang kemampuan yang
sangat rendah sekali kita lihat di sini
error standar memiliki nilai yang cukup
tinggi bahkan lebih tinggi dari
presisinya demikian juga di orang-orang
yang kemampuan yang tinggi error standar
sangat tinggi dibanding dengan
presisinya berbeda dengan ketika antara
minus tiga hingga dua presisi sangat
tinggi dibanding dengan errornya ini
adalah salah satu kelebihan dari
pengembangan Dengan menggunakan teori
tas modern kita bisa menyesuaikan tes
itu pada orang tertentu agar mendapat
ini presisi yang tinggi Selanjutnya
perbedaan yang kedua prinsip lama
mengatakan bahwa tes yang panjang akan
menghasilkan skor yang reliable dipakai
dengan tes yang pendek namun pada
prinsip yang baru tes yang pendek bisa
saja menghasilkan skor yang reliabel
atau sport dengan presisi yang tinggi
dibanding dengan tes yang panjang jadi
panjang-pendeknya tes pada fans baru
tidak berbeda dalam menghasilkan presisi
skor kita lihat ceritanya seperti ini
dalam statistika sebuah statistik
misalkan RT dan sebagainya Itu
terpercaya alias bukan karena faktor
kebetulan jika informasinya didapatkan
dari banyak orang Konsep ini terkait
dengan bidang psychometric a dimana pada
teori tes klasik sebuah pengukuran akan
menghasilkan reliabilitas yang tinggi
atau posisi yang tinggi dan bukan karena
faktor error pengukuran jika
lakukan pengukuran dalam jumlah yang
banyak dengan butir yang banyak atau
dengan tes yang sangat panjang kita
lihat di sini ini adalah rumus cronbach
Alpha koefisien reliabilitas dengan
pendekatan konsistensi internal yang
paling populer di teori tes klasik kita
lihat salah satu komponennya adalah k&k
ini adalah Jumlah butir Smart 3 yang
lain ini adalah konstan jika kita
tingkatkan maka reliabilitas akan
mengalami peningkatan teori tes modern
mengatakan bahwa reliabilitas yang
tinggi akan didapatkan ketika orang dan
tes itu memiliki kesetaraan jadi orang
yang kemampuannya tinggi diberikan
dengan tes yang Willy kesulitan yang
tinggi dan orang yang kemampuannya roda
diberikan gas dengan tingkat kesulitan
yang Anda ini akan menghasilkan Alfan
misalkan atau reliabilitas yang sangat
Hindu menurut teori respons butir
reliability
dekat operasi skor yang tinggi akan
didapatkan ketika kita memberikan butir
soal yang memiliki tingkat kesulitan
yang sesuai dengan kemampuan orang yang
kita ukur misalnya ada populasi orang
yang memiliki kemampuannya melompat
misalnya kita memiliki orang dengan
populasi yang meloncatnya itu antara
satu hingga 1,2 meter maka kita
memberikan galah sepanjang antara satu
hingga 1,2 misalkan 1,1 meter dengan
memberikan galah setinggi ini kita akan
mendapatkan variasi yang lebih banyak
dari hasil pengukuran kita lihat di sini
misalnya saya memiliki tes dengan
tingkat kesulitan yang sedang jika ini
saya berikan pada kemampuan orang yang
tinggi distribusi skor akan cenderung
homogen
orang-orang yang bisa mengerjakan
sebaliknya jika sayap menyerikan tes ini
pada orang yang kemampuannya rendah
distribusi skor juga relatif setara ada
banyak orang yang tidak bisa mengerjakan
tes ini dibandingkan dengan yang bisa
namun jika tes ini diberikan kepada
orang yang kemampuannya setara kita
lihat distribusi skor mulai kelihatan
variasinya dan distribusi skor yang
bervariasi ini akan meningkatkan presisi
atau reliabilitas pengukuran dalam teori
respons butir pengembangan tes atau
perakitan tes dilakukan dengan
memacetkan antara tingkat kesulitan tes
dengan kemampuan orang misalnya saya
memiliki rentang kemampuan dari rendah
ke tinggi kemudian Berikut ini adalah
level dari kemampuan subjek besarkan
berada di sini Nah untuk mendapatkan tes
dengan presisi yang tinggi saya
Hai memberikan tes dengan tingkat
kesulitan yang setara dengan populasi
ini ketika ini sudah Max maka akan kita
dapatkan reliabilitas yang tinggi
perbedaan yang ketiga prinsip lama
mengatakan bahwa skor antar tes akan
optimal jika tes yang dibandingkan itu
paralel namun berisi baru mengatakan
bahwa perbandingan skor akan optimal
jika tes yang dibandingkan itu tingkat
kesulitannya bervariasi kita lihat
ceritanya di sini tes paralel menurut
teori tas klasik bergradasi ada paralel
ada strip paralel kita lihat paralel itu
intinya adalah ratanya sama dimana
rerata itu menunjukkan tingkat kesulitan
kemudian varian skor atau keragaman itu
juga sama yang nantinya terkait dengan
er pengukuran dan jumlah buktinya sama
dan tentu saja Dewi dapatkan dari khas
dengan kisi-kisi atau blueprint yang
sama ketika ini
Hai terpenuhi maka kita dapat mengatakan
tes tersebut paralel teori tes modern
memiliki fasilitas yang namanya tes
information function atau fungsi
informasi tes melalui TV ini kita akan
dapat mengembangkan tes tes yang paralel
ini contoh grafik detektif dari dua tes
yang berbeda formnya ini form yang
pertama form A uniform Yang kedua kita
lihat di sini hampir mirip karakteristik
tesnya untuk mendapatkan cash yang
sangat paralel kita bisa misalnya
menambahkan butir yang ada di sini
antara minus 1 hingga minus 25 sehingga
informasi ada di sini mengalami
peningkatan Homa dan Bombe ini tidak
harus didapatkan dari jumlah butir yang
sama atau rela tayang yang sama bisa
saja dua butirnya pomade dan Bombe
pneumonitis ini yang ditekankan adalah
pada fungsi informasinya ketika semua
titik-titik disini match report
dikatakan tes sudah memiliki fungsi yang
sama sehingga skor yang dihasilkan dari
form a&b dapat dikatakan setara
perbedaan yang keempat prinsip lama
mengatakan bahwa kualitas hasil
pengukuran tergantung dari karakteristik
sampel namun divisi baru mengatakan
tidak tergantung dari karakteristik
sampel kita lihat pada teori chess
classic kemampuan orang tergantung dari
tasnya dan tes tingkat kesulitan
misalnya tergantung dari kemampuan orang
sehingga dapat dikatakan ini muter
meluluh orang bergantung dari tes-tes
dari tergantung dari orang-orang akan
kelihatan kurang pinter ketika
mendapatkan butir yang sulit dan
sebaliknya seseorang
dan kelihatan sangat pinter jika
mendapatkan bibir yang sangat mudah
namun sulit dan mudahnya ini juga
tergantung dari orang maka akan terjadi
lingkaran setan yang muter terus tidak
akan pernah berhenti sehingga
interpretasi terhadap kemampuan orang
itu sulit karena tidak adanya jangkar
yang menjadi standar untuk mengatakan
orang itu pinter orang itu kurang pinter
atau video itu sulit atau aku begitu
mudah ini gambar menunjukkan bahwa
karakteristik sampel itu mempengaruhi
tingkat kesulitan butir juga daya
diskriminasi butir namun pada teori tes
modern kemampuan orang atau parameter
butir terpisah tidak tergantung antara
satu dengan yang lainnya Hal ini
dikarenakan tingkat kesulitan butir pada
teori tes modern tidak berubah karena
seperti halnya ini sudah
aja ntar kan jadi meskipun dipakai untuk
sampel yang berbeda-beda atau dipakai
dengan tes yang lain yang berbeda-beda
juga akan menghasilkan informasi yang
setara perbedaan yang kelima dan
seterusnya akan kita bahas pada video
selanjutnya kita rehat dulu
assalamualaikum warahmatullahi
wabarakatuh
5.0 / 5 (0 votes)