İyi Bir Testin 4 Temel Kriteri

Bu makale, iyi bir testin dört temel kriterine ışık tutmaktadır. Kriterler: - 1. Güvenilirlik 2. Geçerlilik 3. Nesnellik 4. Kullanılabilirlik.

Kriter # 1. Güvenilirlik:

Güvenilirliğin sözlük anlamı, tutarlılık, bağımlılık veya güvendir. Bir ölçüm prosedürü, tekrarlanan ölçümlerin birey için tutarlı sonuçlar verdiği ölçüde güvenilirdir.

Bir test, ardışık yönetiminde tutarlı sonuçlar verirse güvenilir olarak kabul edilir. Bu nedenle, bir testin güvenilirliği ile testin ne kadar güvenilir veya sadık olduğunu kastediyoruz. Genel olarak ifade etmek gerekirse, bir ölçüm cihazı tutarlı bir şekilde ölçülürse güvenilirdir.

Bir test güvenilir olduğunda, aynı testle veya aynı testin alternatif formlarıyla tekrar test edildikten sonra bir grup üyeleri tarafından alınan puanlar, orijinal değerlerinden çok az veya hiç değişmeyecektir.

Örnek 1:

Eğer bir tanık, bir mahkemede bir avukat tarafından tekrar tekrar istendiğinde bir konuda aynı ifadeyi verirse, ifadesine güvenir ve ifadesinin güvenilir olmasını isteriz.

Örnek 2:

Bir saat Hindustan zamanına göre her gün 10 dakika geç kalırsa, saatin güvenilir bir araç olduğunu söyleyebiliriz.

Örnek 3:

Diyelim ki Amit'ten doğum tarihini bildirmesini rica ediyoruz. 13 Temmuz 1985 olduğunu bildirmiştir. Bir süre sonra aynı soruyu sorduk ve aynı şeyi, yani 13 Temmuz 1985'te rapor etti.

Soruyu tekrar tekrar koyabiliriz ve cevap aynıysa, Amit'in ifadesinin güvenilir olduğunu düşünüyoruz.

Tanımlar:

1. Thorndike:

Ölçülmesi gereken neyi ölçtüğü bir testin tutarlılığıdır. Test güvenilirliği genellikle testin telafi edici hatalardan kaçınılması derecesi olarak düşünülür.

2. Gronlund ve Linn:

Güvenilirlik, ölçümün tutarlılığını ifade eder - yani, test puanlarının veya diğer değerlendirme sonuçlarının bir ölçümden diğerine ne kadar tutarlı olduğu.

3. Anastasi:

Güvenilirlik, aynı kişiler tarafından aynı durumlarda farklı durumlarda veya farklı eşdeğer madde kümeleriyle veya değişken inceleme koşulları altında tekrar test edildiğinde elde edilen puanların tutarlılığını ifade eder.

4. Davis:

Bir test puanı kümesinin ölçümünün göreceli hassasiyet derecesi, güvenilirlik olarak tanımlanır.

5. Guilford:

Güvenilirlik, elde edilen test puanlarındaki gerçek varyansın oranıdır.

Yukarıdaki tartışmadan, bir testin güvenilirliğinin, aynı popülasyon üzerinde art arda uygulamada testin aynı sonucu vermesi anlamına geldiği açıkça ortaya çıktı. Sabit kalan diğer koşullar, aynı test aynı popülasyona iki farklı durumda uygulanırsa ve bireylerin her iki durumda da elde ettikleri puanlar aynı veya daha az kalırsa, testin güvenilir olduğu söylenir.

Bir testin güvenilirliği aşağıdaki soruları cevaplamaya çalışır:

(i) İki farklı durumda aynı sınava girmeleri durumunda öğrencinin puanları ne kadar benzerdir?

(ii) Farklı bir eşdeğer madde örneği seçilirse puanlar nasıl değişir?

(iii) Test farklı bir puanlayıcı tarafından puanlanırsa puanlar nasıl değişir?

(iv) Eğer test farklı zamanlarda aynı golcü tarafından atılırsa puanlar nasıl değişir?

Güvenilirliğin Özellikleri:

Güvenilirlik aşağıdaki özelliklere sahiptir:

(i) Güvenilirlik tahmini, her zaman belirli bir tutarlılık türünü ifade eder.

(ii) Bir ölçüm cihazının doğruluğunu veya kesinliğini ifade eder.

(iii) Güvenilirlik, testin kendisinden değil test sonuçlarını ifade eder.

(iv) İç tutarlılık katsayısıdır.

(v) Bir ölçüm kümesinin güvenilirliği, mantıksal olarak gerçek varyans olan varyansın oranıdır.

(vi) Değişken hata veya şans hatası veya ölçüm hatasının ölçüsüdür.

(vii) Güvenilirlik bir derece meselesidir. Bazlı veya bazsız yok.

(viii) Güvenilirlik, bir testin geçerliliğini veya doğruluğunu veya amacını garanti etmez.

(ix) Güvenirlik, geçerlilik için gerekli ancak yeterli bir şart değildir. Düşük güvenilirlik, elde edilen geçerlilik derecesini sınırlayabilir, ancak yüksek güvenilirlik, tatmin edici bir geçerlilik derecesi için hiçbir garanti vermez.

(x) Güvenilirlik, esasen ardışık iki olayda elde edilen puanların birbirleriyle korele olduğu anlamında istatistikseldir. Bu korelasyon katsayısı, kendine korelasyon olarak bilinir ve değerine 'güvenilirlik katsayısı' denir.

Güvenilirlik ve Ölçüm Hataları:

Güvenilirliğin tanımları üç başlık altında toplanabilir:

(i) Ampirik,

(ii) Mantıksal ve

(iii) Teorik.

(i) Ampirik:

Ampirik güvenilirlik tanımları, farklı durumlarda aynı kişiye uygulanan aynı testteki iki puan kümesi arasındaki korelasyonun kapsamını ifade eder.

(ii) Teorik:

Teorik anlam, test puanlarının tutarlılığını veya kesinliğini ifade eder. Bir test puanının güvenilirliği anlamına gelir.

(iii) Mantıksal:

Güvenilirliğin mantıksal anlamı ölçüm hatalarını ifade eder.

Aşağıdaki örnek, güvenilirlik kavramını ve ölçüm hatalarını anlamada bizi ilerletebilir:

Örneğin, Bay Rohit, zihinsel bir sınamada 52 güvence altına alır. 52 ne anlama geliyor? Gerçek yeteneğinden mi bahsediyor? Bu onun gerçek puanı mı? Rohit 52 şansı güvence altına almış olabilir. Öyle olabilir ki, Rohit, tesadüfen, testin 52 maddesini biliyordu ve maddeler biraz farklı olsaydı, bu puanı güvence altına almazdı.

Tüm bu sorular, ölçümün kişisel, sabit, değişken ve yorumlayıcı hataları içeren bazı hata türlerini içerdiği gerçeğiyle ilgilidir. Bu hataya ölçüm hataları denir. Bu nedenle, bir testin güvenilirliğini belirlerken, ölçümde mevcut olan hataların miktarını göz önünde bulundurmalıyız.

Güvenilirlik katsayısı mükemmel olduğunda (yani 1.00), ölçüm doğru olur ve her türlü hatadan arınmış olur. Ancak her alandaki ölçüm bir çeşit hata içerir. Bu nedenle, güvenilirlik asla mükemmel değildir.

Testteki bir puan, gerçek puanın bir indeksi ve ölçüm hataları olarak düşünülebilir.

Toplam puan veya Gerçek alınan puan = Gerçek Puan + Hata Puanı

Bir puanın büyük bir 'gerçek puan' bileşeni ve küçük bir hata bileşeni varsa, o puan yüksektir; tersine, eğer bir test puanı 'gerçek puan' ve 'hata' bileşeninin küçük bir bileşenine sahipse, güvenilirliği düşüktür.

Gerçekleşen puan, gerçek puan ve hata arasındaki ilişkiler matematiksel olarak şu şekilde ifade edilebilir:

X = X _∞ + e

X = Testte bir birey için alınan puan.

X _∞ = aynı bireyin gerçek puanı

e = değişken (şans) hataları.

Ölçüm Hataları:

Gerçek puan, bir testin sonsuz sayıda paralel formunda elde edilen puanların ortalamasıdır. Elde edilen her puan, gerçek puandan az ya da çok olacaktır. Elde edilen puanların gerçek puanlardan sapmalarına “Ölçme Hataları” denir.

Bazen ölçüm hataları daha az ve bazen daha fazla olabilir. Diğer şeyler eşit olmakla birlikte, ölçüm hataları ne kadar küçükse, ölçümün güvenilirliği de o kadar yüksek olur.

Standart Ölçüm Hatası:

Ölçüm hataları (yani, gerçek puanlardan elde edilen puanların değişimi) normal olarak dağıtılacak ve bu değişikliklerin (veya ölçüm hatalarının) standart sapması “standart ölçüm hataları” olarak adlandırılmaktadır.

Güvenilirlik katsayısı ve dağılımın standart sapması verildiğinde, Standart Ölçüm Hatası (ölçüm SE) öğrenilebilir.

Standart ölçüm hatasını hesaplayan formül aşağıdaki gibidir:

σ _sc = elde edilen puanın SE'si

σ ₁ = Test puanlarının standart sapması

r ₁₁ = aynı testin güvenilirlik katsayısı.

Örnek 4:

300 üniversite öğrencisinden oluşan grupta, Matematiksel Bir Yetenek Testinin güvenirlik katsayısı .75, M testi 80 ve puan dağılımının SD'si 16'dır. John 86 puan aldı. Bu puanın SE değeri nedir. ?

Çözüm:

Yukarıdaki formülden şunu bulduk:

ve oranlar kabaca 2: 1 olup, 300 grubundaki herhangi bir bireyin elde ettiği puanın gerçek değerini ± 8 puandan fazla kaçırmaması (yani ± 1 SE _sc ). John'un gerçek skoru için .95 güven aralığı 86 ± 1.96 x 8 veya 70 ila 102'dir.

300 öğrencinin tamamı için genelleme yaparak, puanlarının yaklaşık 1 / 3'ünün 8 veya daha fazla puan ile hata yapmasını ve 2/3'ünün bu miktardan daha az hata yapmasını bekleyebiliriz.

Kriter # 2. Geçerlilik:

Geçerliliğin sözlük anlamı “temelli”, “etkili”, “ses” tir. “Doğruluk” anlamına gelir. Dolayısıyla doğru, sağlam ve doğru amaca hizmet eden her şey geçerlidir.

Her testin kendine özgü amaçları vardır. Belirli bir amaç için inşa edilmiştir ve bu amaç için geçerlidir. Eğer bir test ölçmek istediğini ölçerse, geçerli olduğu söylenir. Geçerlilik, testin işlevlerini ne kadar iyi yerine getirdiğini doğrudan kontrol eder. Geçerlilik, evrensel bir sınavın ilk şartıdır.

Güvenilirlik gerekli olabilir ancak yeterli bir geçerlilik şartı olmayabilir. Test güvenilir olmadıkça geçerli olamaz. Güvenilir olabilir, ancak geçerli olduğu söylenemez. Bir testin ilgililiği, test önlemleri ve önlemlerin süreci ile ilgilidir.

Kısacası, bir testin tahmin işlevine hizmet etmek için tasarlandığını ve bu nedenle bunun değer veya geçerliliğinin bazı gerçek yaşam durumlarındaki performansı tahmin etmedeki derecesine bağlı olduğunu söyleyebiliriz.

Örnek 5:

Bir tanığın mahkemede hakim önünde bir açıklama yaptığını varsayalım. Ardışık çapraz incelemelerde veya çapraz sorgulamada, aynı ifadeyi tekrar tekrar eder ve güvenilir bir tanık olarak adlandırılır.

Hiç şüphe yok, ifadesi doğru ya da yanlış olabilir. İfadesi doğru olduğunda, geçerli bir tanık olduğu söylenir. Ancak ifadesi tutarlı bir şekilde yanlış ise güvenilir olmasına rağmen geçerli değil.

Örnek 6:

Bir saat 'standart zamandan' 10 dakika ileride kalırsa güvenilir bir zaman dilimidir. Çünkü her gün 10 dakika hızlı tutarlı sonuçlar veriyor. Amacımız zamanı doğru bilmektir ve bunu bilemeyiz. Öyleyse bu amaç hizmet değil. Bu nedenle, 'Standart zaman' tarafından değerlendirildiği gibi geçerli olmayacaktır.

Bu nedenle, bir testin güvenilir olabileceği, ancak geçerli olamayacağı bulunmuştur. Ancak, geçerli önlemler veya testler her zaman güvenilirdir. Belirli bir amaç için geçerli olan bir test başka bir amaç için geçerli olmayabilir.

Öğrencilerin matematikteki hesaplama becerilerini ölçmek için hazırlanmış bir test sadece bu amaç için geçerli olabilir, ancak matematiksel akıl yürütmenin ölçülmesi için geçerli olmayabilir. Dolayısıyla, geçerlilik testin amacına atıfta bulunur.

Tanımlar:

Anne Anastasi:

“Testin geçerliliği, testin neyi ölçtüğü ve bunun ne kadar iyi olduğu ile ilgili” yazıyor.

Rummel:

“Bir değerlendirme cihazının geçerliliği, ölçmek istediğini ne ölçüde ölçtüğü derecesidir.”

FS Freeman:

“Bir geçerlilik endeksi, bir testin kabul edilen kriter ile karşılaştırıldığında ölçmek istediğini ölçtüğü dereceleri gösterir.”

LJ Cronbach:

“Geçerlilik, bir testin ölçmek istediğini ne ölçüde ölçtüğüdür.”

EF Lindquist:

Geçerlilik, ölçmeyi amaçladığı şeyi ölçmek için doğruluk veya ölçmek istediğini ölçmede ölçülmezliğe yaklaşma derecesidir.

Yukarıdaki tartışmalardan geçerliliğin “testin çok amacı” anlamına geldiğini ve amacın yerine getirilmesi durumunda testin geçerli olduğu düşünülmelidir. Bu nedenle geçerli olmak için bir test yapmak istediği işi yapmalıdır.

Bu nedenle, testin geçerliliği kavramı, temel olarak testin 'temel dürüstlüğü' için bir endişe kaynağıdır. Kişinin vaat ettiği şeyi yapma anlamında dürüstlük. Kesin olmak gerekirse, geçerlilik, bir aracın ölçmek istediği şeyi ne kadar iyi ölçdüğü anlamına gelir.

Geçerliliğin Doğası:

1. Geçerlilik, test puanlarının doğruluğunu veya amacını belirtir ancak enstrümanın kendisine atıfta bulunmaz.

2. Geçerlilik derecesi meselesidir. Hepsi ya da hiç bazında yok. Belirli bir yeteneği ölçmek için tasarlanan bir aracın tamamen geçerli ya da hiç geçerli olmadığı söylenemez. Genellikle az çok geçerlidir.

3. 'Sürekli hata' ölçüsüdür, güvenilirlik ise 'değişken hata' ölçüsüdür.

4. Geçerlilik, testin güvenilirliğini sağlar. Eğer bir test geçerliyse, güvenilir olması gerekir.

5. Geçerlilik farklı türde değildir. Bu üniter bir kavramdır. Çeşitli kanıt türlerine dayanır.

6. Genel geçerlilik diye bir şey yoktur. Bir test bir amaç veya durum için geçerlidir, fakat başka amaçlar için geçerli değildir. Başka bir deyişle, bir araç belirli bir amaç için veya belirli bir durumda geçerlidir; genellikle geçerli değil.

Örneğin, bir kelime testi testinin sonuçları kelime bilgisini test etmek için oldukça geçerli olabilir ancak öğrencinin kompozisyon yeteneğini test etmek için bu kadar geçerli olmayabilir.

Kriter # 3. Nesnellik:

Nesnellik, iyi bir testin en önemli özelliğidir. Hem geçerlilik hem de güvenilirlik için ön şarttır. Bir testin nesnelliği, farklı kişilerin puanlama derecesini, aynı sonucu verir.

Özgeçmiş İyi (1973):

CV Good (1973), testte objektifliği “enstrümanın puanlayıcı kısmında öznellik olan kişisel hatalardan (kişisel önyargılardan) uzaklığı” olarak tanımlar.

Gronlund ve Linn (1995):

“Testin objektifliği, aynı derecede yetkin puanlayıcıların aynı sonuçları elde etme derecesini ifade eder.”

Bu nedenle, bir testin golcünün kişisel görüşünü ve önyargı yargısını ortadan kaldırması için yapıldığında objektif olduğu söylenebilir.

Bir testin nesnelliği, iki yönü ifade eder:

(i) Maddelerin objektifliği ve

(ii) Puanlamanın nesnelliği.

(i) Maddelerin tarafsızlığı:

Maddelerin objektifliği, öğenin kesin bir tek cevap araması gerektiği anlamına gelir. Nesnel öğelerin iki veya daha fazla cevabı olamaz. Soru farklı şekilde ifade edildiğinde, puanlamada fark olacaktır.

Örneğin:

“Kişilik kavramını açıklayın.”

Burada, puanlayıcılar tarafından verilen puanlar büyük ölçüde değişecektir, çünkü soru beklenen doğru cevabın yapısını açıkça göstermez.

Burada çocuk soruya ilişkin her şeyi yazabilir. Cevap farklı araştırmacılar tarafından puanlanırsa, puanlar kesinlikle değişecektir.

Belirsiz sorular, doğru yönlendirme eksikliği, çift namlulu sorular, çift olumsuzlu sorular, geniş kompozisyon tipi sorular vs. Bu yüzden, soruları çerçevelerken çok dikkatli olunmalıdır.

(ii) Puanlamanın nesnelliği:

Bir araç, farklı puanlayıcılar öğeyi puanlasa bile aynı puanı verirse amaçtır. Dolayısıyla puanlamadaki nesnellik, farklı puanlayıcılar tarafından yapılan puanlamada tutarlılık olarak düşünülebilir.

Oldukça sık, gerçek durumlarda, golcünün kaprisinin veya önyargılarının markalamayı etkilediğini görüyoruz. Golcünün meyilli olduğu belirli konular hakkında sorulan Sorular, diğer sorulardan daha fazla puan alabilir.

Puanlama sistemine yönelik bu tür bir irrasyonel mizaç, sırayla değerlendirme sürecini etkileyen silala yönelik öznel muamelesidir. Bu nedenle, değerlendirmede tarafsızlık, doğru değerlendirme için sağlanmalıdır.

Aynı zamanda, öznelliğin mahkum edilmesi ve tamamen dışlanması gerekmez, çünkü gerçekte çoğu değerlendirme bu şekilde yapılır. Dikkatli gözlem, önyargısız ve tarafsız düşünme ve durumların ve olayların mantıksal analizine dayalı öznel değerlendirme de doğru değerlendirme sağlayabilir. Bu tür bir disiplinli öznellik, okul durumunda bile önemli bir rol oynayabilir.

Kriter # 4. Kullanılabilirlik:

Usability — değerlendirme aracının test kullanıcıları tarafından başarılı bir şekilde kullanılabileceği derece.

Şimdiye kadar iyi bir testin üç ana kriterini okuduk: Geçerlilik, güvenilirlik ve nesnellik. Bir aletin bir diğer önemli özelliği, kullanılabilirliği ya da uygulanabilirliğidir. Değerlendirme araçlarını seçerken, kapsamlılık, yönetim ve puanlama kolaylığı, yorumlama kolaylığı, karşılaştırılabilir formların kullanılabilirliği ve test maliyeti gibi belirli pratik hususlara dikkat edilmelidir.

Bütün bu düşünceler, bir öğretmenin değerlendirme araçlarını kullanmasına neden olur ve bu tür pratik düşüncelere bir değerlendirme aracının “kullanılabilirliği” denir. Başka bir deyişle, kullanılabilirlik, değerlendirme aracının öğretmen ve okul yöneticileri tarafından başarıyla ne ölçüde kullanılabileceği anlamına gelir.

(i) Anlaşılabilirlik:

Test maddeleri belirsizlikten uzak olmalıdır. Test maddelerinin yönü ve testin diğer yönleri açık ve anlaşılır olmalıdır. Yönetim için talimatlar ve puanlama için talimatlar açıkça belirtilmeli, böylece bir kişi onları kolayca anlayabilir ve takip edebilir. Ayrıca, test yönetimi prosedürü, puanlama ve puanlama yorumlaması, test kullanıcısı anlamında olmalıdır.

(ii) İdare Kolaylığı:

Bir testin uygulanabileceği kolaylığı ifade eder. Her testin veriliş için kendi koşulları vardır. Bir test seçerken, çok fazla hazırlık ve zorluk çekmeden uygulanabilecek bir testler arasından birini seçmelisiniz.

a. Uygulama kolaylığı uygulama için açık ve özlü talimatlar içerir. Bu nedenle, bir testin kolayca yönetilmesi için yöneticiye talimatlar ve zevklere yönelik talimatlar kolay, anlaşılır ve eksiksiz olmalıdır.

b. Zaman da çok önemli bir faktördür. Okullardaki azami yönetim için, bir normal sınıf oda süresi içinde test yapılması alışılmış bir durumdur.

(iii) Puanlama Kolaylığı:

Daha iyi kullanılabilir olması için yapılan bir test puanlama kolaylığı sağlamalıdır. Puanlama anahtarı hazır olmalı ve kolayca değerlendirilebilir. Bazen, yanıt vermek için soruların sağ tarafında yerler ayrılmıştır.

Bazı durumlarda yanıtlar ayrı sayfalarda verilmektedir. İdeal bir test, herhangi bir kişi tarafından veya bir skorlama anahtarı bulunan bir makine tarafından skorlanabilir. Puanlamayı kolaylaştırmak için testteki her maddeye eşit işaretler verilmelidir.

Fizibiliteye göre, elle puanlama cihazları veya makine puanlama cihazları sağlanabilir.

(iv) Yorum Kolaylığı:

Elde edilen test puanları kolayca anlaşılıp yorumlanabiliyorsa, testin iyi olduğu söylenir. Bu amaçla, test el kitabı, yaş normları, dereceli normlar, yüzdelik normlar ve standart puan normları gibi skorların yorumlanması için eksiksiz normlar sağlamalıdır. Normlar test puanlarının yorumlanmasını kolaylaştırır.

(v) Testin alınması:

Test iyi bir sonuç almalı. Bu iyi ve çekici bir görünüm olmalı. Harfler gereksiz yere çok küçük veya çok büyük olmamalıdır. Kullanılan kağıdın kalitesi, tipografi ve baskı, mektup ebatları, boşluklar, sunulan resimler ve şemalar, ciltleme, öğrencilerin tepkisi için yer vb.

(vi) Testin Maliyeti:

Test çok pahalı olmamalıdır. Maliyet, geniş ölçüde kullanılabilmesi için mümkün olduğunca azaltılmalıdır.