Testin Güvenirliğinin Belirlenmesi: 4 Yöntem

Bir testin güvenilirlik katsayısını (bazen kendi kendine korelasyonu denir) hesaplamak için yaygın olarak kullanılan dört prosedür vardır. Bunlar: 1. Test-Tekrar Test Etme (Tekrarlama) 2. Alternatif veya Paralel Formlar 3. Split-Half Tekniği 4. Rasyonel Denklik.

1. Test-Yeniden Test Etme Yöntemi:

Test-tekrar test yöntemi ile güvenilirliği tahmin etmek için, aynı test, testin iki uygulaması arasında belirli bir zaman aralığıyla aynı öğrenci grubuna iki kez uygulanır.

Elde edilen test puanları korelasyonludur ve bu korelasyon katsayısı bir stabilite ölçümü sağlar, yani test sonuçlarının belli bir süre boyunca ne kadar kararlı olduğunu gösterir. Bu yüzden aksi takdirde bir stabilite ölçüsü olarak bilinir.

Bu durumda güvenilirliğin tahmini, iki idare arasında izin verilen zaman aralığının uzunluğuna göre değişir. Ürün moment korelasyon yöntemi, iki puan setinin güvenilirliğini tahmin etmek için önemli bir yöntemdir.

Bu nedenle, iki puan kümesi arasındaki yüksek korelasyon, testin güvenilir olduğunu göstermektedir. Bunun anlamı, birinci uygulamada elde edilen puanların aynı testin ikinci uygulamasında elde edilen puanlarla aynı olduğunu göstermektedir.

Bu yöntemde zaman aralığı önemli bir rol oynar. Bir ya da iki gün söylemesi çok küçükse, sonuçların tutarlılığı aktarma etkisinden etkilenecek, yani öğrenciler ilk uygulamadan ikincili sonuçların bir kısmını hatırlayacaktır.

Eğer zaman aralığı bir yıl uzunsa, sonuçlar sadece test prosedürleri ve koşullarının eşitsizliğinden değil, aynı zamanda o zaman zarfındaki öğrencilerdeki gerçek değişikliklerden etkilenecektir.

Testin zaman aralığı altı aydan fazla olmamalıdır. Tekrar test eden iki haftada bir (2 hafta) zaman aralığı kesin bir güvenilirlik endeksi verir.

Avantajları:

Genel olarak güvenilirlik katsayısını tahmin etmek için öz-korelasyon veya test-tekrar test yöntemi kullanılır. Farklı durumlarda rahatça kullanmaya değer. Yeterli uzunlukta bir test, art arda yapılan testler arasında geçen birkaç gün sonra kullanılabilir.

Dezavantajları:

1. Test hemen tekrarlanırsa, birçok kişi ilk cevaplarını hatırlayacak ve zamanlarını yeni malzemeler üzerinde geçirecek, böylece puanlarını artırmaya meyillidir - bazen iyi bir anlaşma ile.

2. Anında bellek etkilerinin yanı sıra, uygulama ve materyale aşina olmanın getirdiği güven, testin ikinci kez alındığında neredeyse kesinlikle puanları etkileyecektir.

3. Bu şekilde elde edilen güvenilirlik endeksi daha az doğrudur.

4. Testler arasındaki süre oldukça uzunsa (altı aydan fazla) büyüme faktörü ve olgunluk skorları etkileyecek ve güvenilirlik endeksini düşürme eğiliminde olacaktır.

5. Test derhal veya kısa bir süre sonra tekrarlanırsa, aktarma etkisi / transfer etkisi / hafıza / uygulama etkisi olabilir.

6. Aynı testi tekrarlamak, aynı grupta ikinci kez, öğrencileri ilgisiz kılmak ve gönülden katılmak istemezler.

7. Bazen test puanlarını da etkileyen tekdüzelik korunmaz.

8. İlk yönetimden sonra birkaç soruyu tartışma şansı, bu da ikinci yönetimde güvenilirliği etkileyen puanları artırabilir.

2. Alternatif veya Paralel Formlar Yöntemi:

Eşdeğer form yöntemi ile güvenilirliği tahmin etmek, testin iki farklı ama eşdeğer formunun kullanılmasını içerir. Paralel form güvenilirliği Alternatif form güvenilirliği veya Eşdeğer form güvenilirliği veya Karşılaştırılabilir form güvenilirliği olarak da bilinir.

Bu yöntemde bir testin iki paralel veya eşdeğer formu kullanılır. Paralel formlar ile, formların içerik, hedefler, format, zorluk seviyesi ve öğelerin ayırt edici değeri, testin uzunluğu vb. İle ilgili olduğu kadar eşdeğer olduğunu kastediyoruz.

Paralel testler eşit ortalama puanlarına, varyanslara ve öğeler arasındaki karşılıklı ilişkilere sahiptir. Yani, iki paralel form her bakımdan homojen veya benzer olmalıdır, ancak test maddelerinin bir tekrarı olmamalıdır. İki formun Form A ve Form B olmasına izin verin.

Güvenilirlik katsayısı, iki eşdeğer test formundaki puanlar arasındaki katsayı korelasyonu olarak görülebilir. İki eşdeğer form muhtemelen içerik, derece, test edilen zihinsel süreçler ve zorluk seviyesi ile diğer yönleriyle benzer olmalıdır.

Testin bir şekli öğrencilere uygulanır ve hemen bitirilirken aynı gruba başka bir test şekli verilir. Bu şekilde elde edilen puanlar, güvenilirliğin tahminini veren ilişkilidir. Böylece, bulunan güvenilirliğe denklik katsayısı denir.

Gulliksen 1950: Paralel testleri, eşit araçlara, eşit değişkenliğe ve eşit karşılıklı ilişkilere sahip testler olarak tanımladı.

Guilford: Alternatif form yöntemi hem içeriğin denkliğini hem de performansın dengesini gösterir.

Avantajları:

Bu prosedürün test-tekrar test yöntemine göre bazı avantajları vardır:

1. Burada aynı test tekrar edilmez.

2. Hafıza, uygulama, aktarma etkileri ve hatırlama faktörleri en aza indirgenir ve puanları etkilemez.

3. Bu yöntemle elde edilen güvenilirlik katsayısı hem geçici stabilitenin hem de farklı ürün örneklerine veya test formlarına yanıtın tutarlılığının bir ölçüsüdür. Böylece, bu yöntem iki tür güvenilirliği birleştirir.

4. Başarı testlerinin güvenilirliği için kullanışlıdır.

5. Bu yöntem, eğitimsel ve psikolojik testlerin güvenilirliğini belirlemek için uygun yöntemlerden biridir.

Sınırlamalar:

1. Testin iki paralel formuna sahip olmak zordur. Bazı durumlarda (yani Rorschach'ta) neredeyse imkansızdır.

2. Testler içerik zorluğu bakımından tam olarak eşit olmadığında, uzunluk, bu testlerden elde edilen iki puan setinin karşılaştırılması hatalı kararlara yol açabilir.

3. Uygulama ve taşıma faktörleri tamamen kontrol edilemez.

4. Ayrıca, iki formun aynı anda uygulanması, can sıkıntısı yaratır. Bu yüzden insanlar testin sadece bir kez uygulanmasının gerekli olduğu yöntemleri tercih ediyorlar.

5. B Formunu uygularken test koşulları aynı olmayabilir. Ayrıca, testisler her iki uygulamada da benzer fiziksel, zihinsel veya duygusal bir durumda olmayabilir.

6. Testin ikinci formundaki test puanları genellikle yüksektir.

Her ne kadar zor, dikkatli ve dikkatli bir şekilde oluşturulmuş paralel formlar bize makul ölçüde tatmin edici bir güvenilirlik ölçüsü sağlayacaktır. İyi bir şekilde standartlaştırılmış testler için, paralel form yöntemi genellikle güvenilirliği belirlemenin en tatmin edici yoludur.

3. Split-Half Yöntemi veya Sub-split Test Yöntemi:

Bölünmüş yarım yöntem önceki iki yönteme göre bir gelişmedir ve hem kararlılık hem de denklik özelliklerini içerir. Yukarıda tartışılan güvenilirliği tahmin etmenin iki yöntemi bazen zor görünmektedir.

Aynı testi iki kez kullanmak ve eşdeğer bir test şekli elde etmek mümkün olmayabilir. Bu nedenle, bu zorlukların üstesinden gelmek ve hafıza etkisini azaltmak ve testi ekonomikleştirmek için, testin tek bir uygulaması yoluyla güvenilirliği tahmin etmek istenmektedir.

Bu yöntemde test örnek üzerinde bir kez uygulanır ve homojen testler için en uygun yöntemdir. Bu yöntem, bir test puanının iç tutarlılığını sağlar.

Testin tüm maddeleri genellikle artan zorluk sırasına göre düzenlenir ve bir kez numuneye uygulanır. Testi uyguladıktan sonra, iki karşılaştırılabilir veya benzer veya eşit parçaya veya yarıya bölünür.

Skorlar tek sayıdaki eşyadan ve hatta ayrı ayrı parçalardan elde edilen iki set halinde düzenlenir veya yapılır. Örneğin, 100 maddelik bir test uygulanır.

Bireysel puanlar 1, 3, 5, .. 99 gibi 50 tek sayıdan oluşan puanlar ve 2, 4, 6… 10 çift sayılarına dayanan puanlar ayrı ayrı düzenlenmiştir. 'A' bölümünde tek sayı öğeleri atanır ve 'B' kısmı çift sayıda maddeden oluşur.

Tek ve hatta sayıdaki test öğesinde iki puan elde edildikten sonra, korelasyonun ortak etkinliği hesaplanır. Bir oturuşta elde edilen iki eşdeğer puan yarısı arasında bir korelasyon var. Güvenilirliği tahmin etmek için Spearman-Brown Prophecy formülü kullanılır.

Spearman-Brown formülü tarafından verilmektedir:

hangi r 11 = tüm testin güvenilirliği.

r 11/22 = iki yarı test arasındaki korelasyon katsayısı.

Örnek 1:

Bir test 100 madde içermektedir. Tüm bu eşyalar zorluk sırasına göre düzenlenir, biri ilkinden yüzdeye geçerken. Öğrenciler teste cevap verir ve test puanlanır.

Skorlar öğrenciler tarafından tek sayıda maddeden elde edilir ve hatta madde sayısı ayrı ayrı toplanır. Bu iki puan kümesi arasında bulunan korelasyon katsayısı 0, 8'dir.

Tüm testin güvenilirliği (veya)

Bu formülü kullanırken, tek ve hatta yarımların varyansının eşit olması gerektiği unutulmamalıdır.

Mümkün değilse, Flanagan ve Rulon'un formülleri kullanılabilir. Bu formüller daha basittir ve iki yarı arasındaki korelasyon katsayısının hesaplanmasını içermez.

Avantajları:

1. Burada testi tekrarlamıyoruz veya paralel formunu kullanmıyoruz ve bu nedenle testee iki kez test edilmiyor. Bu nedenle, aktarma etkisi veya uygulama etkisi orada değildir.

2. Bu yöntemde, çevresel veya fiziksel koşullar nedeniyle bireyin yeteneğinin dalgalanmaları en aza indirilir.

3. Testin tek başına uygulanması nedeniyle, günlük fonksiyonlar ve sorunlar karışmaz.

4. Paralel test formları oluşturma zorluğu ortadan kalkar.

Sınırlamalar:

1. Bir test birkaç şekilde iki eşit yarıya bölünebilir ve her durumda korelasyon katsayısı farklı olabilir.

2. Bu yöntem, hız testlerinin güvenilirliğini tahmin etmek için kullanılamaz.

3. Lest bir kez verildiği için, şans hataları iki yarıdaki puanları da aynı şekilde etkileyebilir ve böylece güvenilirlik katsayısını çok yüksek yapmaya meyillidir.

4. Bu yöntem güç testlerinde ve heterojen testlerde kullanılamaz.

Tüm bu sınırlamalara rağmen, yarim-yarim metodu, test güvenilirliğini ölçme metotlarının en iyisi olarak kabul edilir, çünkü güvenilirliği belirlemeye yönelik veriler zaman zaman elde edilir ve böylece ikinci durumda zaman, emek ve zorlukları azaltır veya tekrarlanan uygulama.

4. Rasyonel Denklik Yöntemi:

Bu yöntem aynı zamanda “Kuder-Richardson Güvenirliği” veya “Maddeler Arası Tutarlılığı” olarak da bilinir. Tek uygulamaya dayanan bir yöntemdir. Tüm maddelere verilen cevapların tutarlılığına dayanmaktadır.

Maddeler arası tutarlılığı bulmanın en yaygın yolu Kuder ve Richardson (1937) tarafından geliştirilen formüldür. Bu yöntem, test maddelerinin karşılıklı korelasyonunu ve her maddenin test maddelerinin tümüyle korelasyonunu hesaplamayı sağlar. J. Cronbach bunu iç tutarlılık katsayısı olarak adlandırdı.

Bu yöntemde, tüm maddelerin aynı veya eşit zorluk değerine sahip olduğu, maddeler arasındaki korelasyonun eşit olduğu, tüm maddelerin esasen aynı yeteneği ölçtüğü ve testin doğada homojen olduğu varsayılmaktadır.

Yarım-yarıklı yöntem gibi, bu yöntem de iç tutarlılık ölçüsü sağlar.

En popüler formül Kuder-Richardson, yani KR-21 aşağıda verilmiştir:

q = - p

p = 1 - q

Bir örnek, p ve q hesaplamasında bize yardımcı olacaktır.

Örnek 2:

60 öğrenci bir test ortaya koydu ve bunlardan 40 öğrenci testin belirli bir maddesine doğru cevap verdi.

p = 40/60 = 2/3

Bu, öğrencilerin y kısmının testin belirli bir maddesine doğru cevap verdikleri anlamına gelir. İçinde 20 öğrenci bu maddeye yanlış cevap verdi.

Böylece q = 20/60 veya 1 - 40/60

Her bir öğe için p ve q değerlerini bulmalıyız, sonra pq itemspq 'ı almak için tüm öğelerin üzerinde toplanır. Her madde için p ve q ile çarp ve tüm maddeler için topla. Bu ∑pq verir.

Avantajları:

1. Bu katsayı, test öğelerinin içsel olarak tutarlı veya homojen olduğuna dair bazı göstergeler sağlar.

2. Rasyonel denklik, bazı teorik açılardan split-yarısı tekniğinden üstündür, ancak iki yöntemin bulduğu güvenilirlik katsayılarındaki gerçek fark genellikle ihmal edilebilir düzeydedir.

3. Split-half metodu sadece denkliği ölçer ancak rasyonel denklik metodu hem denkliği hem de homojenliği ölçer.

4. Test olarak ekonomik yöntem bir kez uygulanır.

5. Ne iki eşdeğer test formunun uygulanmasını gerektirmez, ne de testleri iki eşit yarıya bölmeyi gerektirir.

Sınırlamalar:

1. Bu yöntemle elde edilen katsayı, genellikle diğer yöntemlerle elde edilen katsayılardan biraz daha düşüktür.

2. Testlerin öğeleri çok homojen değilse, bu yöntem daha düşük güvenilirlik katsayısı sağlayacaktır.

3. Kuder-Richardson ve yarı yarıya yöntem hız testi için uygun değildir.

4. Farklı KR formülü, farklı güvenilirlik indeksi sağlar.