İyi Bir Testin İlk 4 Özelliği

Bu makale iyi bir testin dört önemli özelliğine ışık tutuyor. Dört özellik şunlardır: 1. Güvenilirlik 2. Geçerlilik 3. Nesnellik 4. Kullanılabilirlik.

Karakteristik # 1. Güvenilirlik:

Güvenilirliğin sözlük anlamı, tutarlılık, bağımlılık veya güvendir. Bu nedenle ölçümde güvenilirlik, bir testin ölçtüğü ölçümleri yaparken aynı sonucu vermesiyle tutarlılığıdır. Skorun sabit ve güvenilir olduğuna inanmamız için bir nedenimiz olduğunda test puanına güvenilir denir. Kararlılık ve güvene değerlilik, puanın zaman-güvenirlik endeksi olduğu dereceye bağlıdır. Bu nedenle güvenilirlik, aynı şeyin iki ölçümü arasındaki tutarlılık derecesi olarak tanımlanabilir.

Örneğin, A Grubu için bir başarı testi uyguladık ve ortalama 55 puan elde ettik. Yine 3 gün sonra A Grubu için aynı testi uyguladık ve ortalama puan 55 oldu. Bu, ölçüm aracının (Başarı testi) olduğunu gösterir. kararlı veya güvenilir bir sonuç veriyor. Diğer taraftan, ikinci ölçümde test 77 civarında bir ortalama puan veriyorsa, test puanlarının tutarlı olmadığını söyleyebiliriz.

Gronlund ve Linn (1995) sözleriyle “güvenilirlik, ölçüm tutarlılığını ifade eder - yani, test puanlarının veya diğer değerlendirme sonuçlarının bir ölçümden diğerine ne kadar tutarlı olduğu”.

CV Good (1973), güvenilirliği “bir ölçüm cihazının bir şeyleri ölçmesi gereken değer; Bir testin veya bir başka değerlendirme aracının, ölçtüğü her bir şeyi tutarlı bir şekilde ne ölçüde ölçtüğü. ”

Ebel ve Frisbie (1991) 'e göre “güvenilirlik terimi, bir dizi test puanının ne ölçtüklerini ölçtüğü tutarlılığı ifade eder.”

Teorik olarak güvenilirlik, gerçek puanın ve gözlemlenen puan varyansının oranı olarak tanımlanmaktadır.

Davis'e (1946) göre “bir dizi test puanının ölçümünün göreceli hassasiyet derecesi güvenilirlik olarak tanımlanır.”

Böylece güvenilirlik aşağıdaki sorulara cevap verir:

Gronlund ve Linn (1995)

Kayıp iki kere uygulanırsa test puanları ne kadar benzer?

İki eşdeğer test formu uygulanırsa test puanları ne kadar benzer?

Herhangi bir deneme sınavının puanını ne ölçüde. Farklı öğretmenler tarafından puanlandığında farklılık var mı?

Mükemmel tutarlı sonuçlar elde etmek her zaman mümkün değildir. Çünkü bir ölçümden diğerine sonuçları etkileyebilecek fiziksel sağlık, hafıza, tahmin etme, yorgunluk, unutma vb. Gibi birkaç faktör vardır. Bu yabancı değişkenler test puanlarımıza bazı hatalar verebilir. Bu hataya ölçüm hataları denir. Bu nedenle, bir testin güvenilirliğini belirlerken, ölçümde mevcut olan hata miktarını göz önünde bulundurmalıyız.

Güvenilirliğin Doğası:

1. Güvenilirlik, bir cihazla elde edilen sonuçların tutarlılığını ifade eder ancak cihazın kendisi değildir.

2. Güvenilirlik, test puanlarının belirli bir yorumunu ifade eder. Örneğin, belirli bir süre boyunca güvenilir olan bir test puanı bir testten diğerine eşdeğer bir testten güvenilir olmayabilir. Böylece güvenilirlik genel özellikler olarak ele alınamaz.

3. Güvenilirlik, bir gruba bir veya birden fazla kez bir test uyguladığımız güvenilirliği belirleyen istatistiksel bir kavramdır. Daha sonra tutarlılık, gruptaki bir kişinin göreceli pozisyonundaki değişimler veya bir bireyin puanında beklenen değişim miktarı açısından belirlenir. Bir bireyin göreceli pozisyonunun değiştirilmesi, 'Güvenilirlik Katsayısı' olarak adlandırılan bir korelasyon katsayısı ile ilgilidir ve varyasyon miktarı, 'Standart ölçüm hatası' ile rapor edilir. Bu işlemlerin ikisi de istatistiksel.

4. Güvenilirlik gerekli ancak geçerlilik için yeterli bir şart değil. Güvenilir olmayan bir test geçerli olamaz. Ancak güvenilirliği yüksek bir testin geçerliliği yüksek olacağı değildir. Çünkü oldukça tutarlı bir test, ölçmeyi düşündüğümüzden başka bir şeyi ölçebilir.

Güvenilirliği Belirleme Yöntemleri:

Çoğu eğitim testi için güvenilirlik katsayısı, normalde mevcut olan en belirgin istatistiksel kalite endeksini sağlar. Testin güvenilirliğine ilişkin tahminler, teknik kalitelerini değerlendirmek ve bunları geliştirme çabalarını motive etmek için temel bilgiler sağlar. Bir test puanının tutarlılığı, bir bireyin grup içindeki göreceli pozisyonundaki kaymalar veya bir bireyin puanındaki çeşitlilik miktarı ile ifade edilir.

Bu güvenilirlik tahminine dayanarak iki genel sınıfa ayrılır:

(ben) Göreceli Güvenilirlik veya Güvenilirlik Katsayısı:

Bu yöntemde güvenilirlik, güvenilirlik katsayısı olarak bilinen bir korelasyon katsayısı cinsinden ifade edilir. Bu nedenle, bireyin puanının nispi pozisyonunun korelasyon katsayısına göre değişimini belirleriz.

(ii) Mutlak Güvenilirlik veya Standart Ölçüm hatası:

Bu yöntemde, güvenilirlik standart ölçüm hatası cinsinden ifade edilir. Bireyin puanındaki varyasyon miktarını gösterir.

Göreceli Güvenilirlik veya Güvenilirlik Katsayısı Belirleme Yöntemleri:

Güvenilirlik katsayısını belirlemek için aynı durumda iki ölçüm seti elde etmemiz ve sonra iki seti karşılaştırmamız gerekir. Ancak bu sadece teorik bir durumdur, çünkü bizim tarafımızdan tam olarak aynı iki koşulda iki ölçüm yapmak imkansızdır. Böylece göreceli güvenilirliği belirlemek için çeşitli yöntemler geliştirilmiştir.

Bunlar aşağıdaki gibidir (Gronlund ve Linn — 1995):

(i) Aynı test şekli aynı birey grubuna iki kez uygulanabilir.

(İi) Testin iki ayrı, ancak eşdeğer formu aynı kişilere uygulanabilir.

(iii) Tek bir testin test maddeleri iki ayrı gruba ayrılır ve iki grubun puanları ilişkilendirilir.

Yöntemler, hepsinin aynı değerlendirme cihazından veya aynı prosedürün eşdeğer formlarından elde edilen iki veri setinin ilişkilendirilmesini içermesiyle aynıdır. Bu güvenilirlik katsayısı, araştırılmakta olan tutarlılık türleri açısından yorumlanmalıdır.

Farklı tutarlılık türleri farklı yöntemlerle belirlenir. Bunlar aşağıdaki gibidir:

1. Bir süre boyunca tutarlılık.

2. Farklı enstrüman biçimlerine tutarlılık.

3. Cihazın içindeki Tutarlılık

Güvenilirlik katsayısının belirlenmesi için dört yöntem vardır, örneğin:

(a) Test-Yeniden Test Etme yöntemi.

(b) Eşdeğer formlar / Paralel formlar yöntemi.

(D) Rasyonel Denklik / Kuder-Richardson yöntemi.

(а) Test-Tekrar Test Etme Yöntemi:

Test güvenilirliğini belirlemek için en basit yöntem budur. Bu yöntemde güvenilirliği belirlemek için test aynı grupta tekrarlanır ve tekrarlanır. Daha sonra ilk puan setiyle ikinci puan set arasındaki korelasyon elde edilir.

Yüksek bir korelasyon katsayısı test puanlarının yüksek stabilitesini gösterir. Gronlund sözleriyle, .80'lerdeki ve .90'lardaki kararlılık ölçümleri, aynı yıl içindeki durumlar için standartlaştırılmış testler için yaygın olarak rapor edilmektedir. Ancak bu yöntem bazı ciddi sakıncalardan muzdariptir. Her şeyden önce iki idare arasındaki zaman aralığı ne olmalı.

Bir veya iki gün gibi kısa bir süre içinde verilirse, öğrenci ilk cevaplarını hatırlar ve zamanlarını yeni materyallere harcar. İkinci idarelerde puanlarını artırma eğiliminde olacaktır. Eğer bir yıl aralık çok uzunsa, olgunlaşma etkisi tekrar test puanlarını etkileyecek ve tekrar test puanlarını arttırma eğiliminde olacaktır.

Her iki durumda da güvenilirliği azaltma eğiliminde olacaktır. Bu nedenle, iki idare arasındaki zaman boşluğu ne olmalıdır, büyük ölçüde test puanlarının kullanımına ve yorumlanmasına bağlıdır. Tekrar test puanlarını etkileyen koşulları kontrol etmedeki zorlukları nedeniyle, test tekrar test yönteminin güvenilirlik katsayısını tahmin etmedeki kullanımını azaltır.

(b) Eşdeğer Formlar / Paralel Formlar Yöntemi:

Test puanlarının güvenilirliği, eşdeğer form yöntemiyle tahmin edilebilir. Alternatif formlar veya paralel formlar metodu olarak da bilinir. İki eşdeğer test şekli oluşturulduğunda, ikisi arasındaki korelasyon testin kendi kendine korelasyonunun ölçüsü olarak alınabilir. Bu süreçte, aynı paralel öğrenci grubuna kısa sürede iki paralel test şekli uygulanmış, daha sonra her iki testin puanları ilişkilendirilmiştir. Bu korelasyon denklik endeksini sağlar. Genellikle standart psikolojik ve başarı testlerinde eşdeğer formlar mevcuttur.

Uygulama için seçilen her iki test de içerik, zorluk, format ve uzunluk açısından paralel olmalıdır. İki test formunun yönetimi arasındaki zaman aralığı sağlandığında, test puanlarının katsayısı bir güvenilirlik ve denklik ölçüsü sağlar. Ancak bu yöntemle ilgili en büyük dezavantaj, iki paralel test şekli elde etmektir. Testler içerik açısından tam olarak eşit olmadığında, bu testlerden elde edilen puanlar arasındaki zorluk, uzunluk ve karşılaştırma hatalı kararlara yol açabilir.

(c) Bölünmüş Yarım Metodu:

Tek bir testin tek bir uygulaması tarafından güvenilirliğin belirlenebileceği yöntemler de vardır. Bu tür bir yöntemden biri yarı yarıya yöntemdir. Bu yöntemde, bir test grubuna her zamanki gibi bir test uygulanır. Daha sonra test iki eşdeğer değere bölünür ve bu yarı testler için korelasyon bulunur.

Testi bölme işleminin genel prosedürü, bir buçuk numaradaki tüm tek sayılı öğeleri yani 1, 3, 5, vb. Diğer yarıda iki numaralı numaralandırılmış tüm maddeleri, diğer bir yandaki 2, 4, 6, 8 vb. yarımlar Spearman-Brown formülü kullanılarak ilişkilendirildi.

Örneğin, her iki yarıyı da ilişkilendirerek .70 katsayısı bulduk.

(5.1) formülünü kullanarak tam testte güvenilirlik katsayısını şu şekilde elde edebiliriz:

Yarı test arasındaki korelasyon katsayısı 0, 70 olduğunda güvenilirlik katsayısı 0, 82'dir. Test maddelerinin örnekleminin ne kadar güvenilir olduğunu ölçülen içeriğin bir örneği olarak gösterir - iç tutarlılık.

Gronlund (1995), “yarı yarıya olan güvenirliklerin eşdeğer form güvenilirliklerinden daha yüksek olma eğiliminde olduğu düşüncesindedir ” çünkü yarı yarıya yöntem tek bir test formunun uygulanmasına dayanmaktadır. formdan biçimine, dikkatine, iş hızına, çabaya, yorgunluğa ve test içeriğine vb. bağlı olarak

(d) Rasyonel Eşdeğer / Kuder Richardson Yöntemi:

Rasyonel denklik, Kuder ve Richardson tarafından geliştirilen formülü kullanarak güvenilirliği belirlemek için başka bir yöntemdir. Yarım-yarıklı yöntem gibi, bu yöntem de iç tutarlılık ölçüsü sağlar. Ne iki eşdeğer test formunun uygulanmasını gerektirmez ne de testleri iki eşit yarıya bölmeyi gerektirir. Güvenilirlik katsayısı, böyle okuyan Kuder-Richardson formülü 20 kullanılarak belirlenir.

Bu yöntem, testteki maddelerin benzer özellikleri ne ölçüde ölçtüğü hakkında bilgi sağlar. Bu yöntemi uygulamanın basitliği onu yaygınlaştırmış olmasına rağmen, yine de bazı sınırlamaları vardır.

1. Kuder-Richardson yöntemi ve yarı yarıya yöntem hız testleri için uygun değildir.

2. Hem Kuder-Richardson hem de bölünmüş yarı yöntem, öğrenci yanıtının tutarlılığını günden güne ölçmez.

3. Kuder-Richardson yöntemi, geçiş oranıyla ilgili bilgi mevcut değilse, hesaplamak zahmetlidir.

Mutlak Güvenilirlik veya Standart Ölçüm Hatalarını Belirleme Yöntemleri:

Eğer bir testi tekrar tekrar uygularsak, puanlarda bazı değişiklikler bulacağız. Elde edilen puan, sınavın gerçek puanının bir indeksi olduğu için artı: ölçüm hataları. HE Garrett (1985) gerçek bir skoru “benzer koşullar altında benzer testlerde belirli bir bireyin çok sayıda ölçümünün ortalamasını alarak elde edilecek bir ölçü olarak tanımlamıştır . Elbette gerçek bir puan deneysel olarak belirlenemez ” .

Test puanları büyük bir hata bileşeni içeriyorsa güvenilirliği düşüktür ve az miktarda hata içeriyorsa güvenilirliği yüksektir. Dolayısıyla, gerçek bir puanın ne kadarını aştığı, elde edilen puanlardaki hata güvenilirlik katsayısı ile gösterilebilir.

Gerçek puan, elde edilen puanlar ile hata arasındaki bu ilişki matematiksel olarak şu şekilde ifade edilebilir:

Güvenilirlik katsayısı ve dağılımın standart sapması verildiğinde standart ölçüm hatasını (SE) öğrenebiliriz.

Standart ölçüm hatasını hesaplayan formül (Garrett-1985) aşağıdaki gibidir:

Örneğin, 200 lise öğrencisinden oluşan bir grupta matematikte başarı testinin güvenirlik katsayısı .70, Ortalama = 65 ve o = 20'dir. Lipu, 60 puan alır. Bu puanın SE değeri nedir.

Değeri formül (5.3) 'e koyarak:

Bu nedenle, Lipu'nun gerçek skoru 60 ± 10.95, yani 70.50 ila 49.05'tir.

Elde edilen hiçbir puan bize gerçek puanın ne olduğunu söylemez, ancak SE'nin bilgisi alınan puanla gerçek puan arasındaki farkı gösterir. SE küçük olduğunda, gerçek puanın elde edilen puana daha yakın olduğunu gösterir ve ayrıca iki kişinin puanları arasındaki farkın gerçek fark mı yoksa ölçüm hataları nedeniyle fark mı olduğunu gösterir.

Güvenilirliği Etkileyen Faktörler:

Güvenilirlik ölçütlerini etkileyen bir dizi faktör vardır. Bu yüzden puanları yorumlayıp kullandığımız zaman dikkatli olmalıyız ve bu faktörleri test hazırlığı ve yönetimi yoluyla manipüle etmeliyiz.

Testin güvenilirliğini etkileyen ana faktörler, skorlar üç başlıkta toplanabilir:

1. Testle ilgili faktörler.

2. Testee ile ilgili faktörler.

3. Test prosedürü ile ilgili faktörler.

1. Testle ilgili faktörler:

(а) Testin uzunluğu:

Spearman Brown formülü testin ne kadar uzun olduğunu, güvenilirliğin o kadar yüksek olduğunu gösterir. Çünkü daha uzun bir test, davranışın yeterli bir örneğini sağlayacaktır. Diğer bir neden, tahmin faktörünün daha uzun bir testte nötrleştirilmesinin uygun olmasıdır.

Örneğin, öğrencilerin sayısal yeteneklerini ölçmek için bir hesaplama yapalım. Doğru hesaplananlar, sayısal olarak mükemmeldirler, başarısız olanlar tam başarısızlıklardır. Hesaplama zor ise, öğrencilerin çoğu başarısız olur. Kolaysa, öğrencilerin çoğu doğru olarak hesaplayacaktır. Böylece, tek bir madde puanı asla güvenilir bir sonuç vermez.

(b) Testin içeriği:

Guilford'a göre test içeriğinin homojenliği, test puanlarının güvenilirliğini de arttırıyor. Vedik Medeniyet hakkındaki 50 maddeden oluşan bir test, Hindistan tarihinde yapılan 50 maddelik testten daha güvenilir puanlar sağlayacaktır. Ebel (1991) 'e göre “matematik ve yabancı dil gibi bazı derslerde ders konusu, konuyla ilgili literatüre veya tarihe göre daha fazla gerçeklere, ilkelere bağlı yeteneklere ve kazanımlara bağımlılık göstererek daha sıkı bir şekilde düzenlenir.” Aynı zamanda sonuçların güvenilirliği yüksek bir faktördür.

(c) Maddelerin özellikleri:

Test öğesinin ifadesinin zorluk seviyesi ve açıklığı test puanlarının güvenilirliğini de etkiler. Test maddeleri grup üyeleri için çok kolay veya zorsa, düşük güvenilirlikli puanlar üretme eğiliminde olacaktır. Çünkü her iki testte de sınırlı bir puan dağılımı vardır.

(d) Puanların Yayılması:

Gronlund ve Minn'e (1995) göre “diğer şeyler eşit olmakla birlikte, puanların yayılması büyüdükçe güvenilirliğin tahmini de artar.” Puanların yayılması büyük olduğunda, bireyin aynı kalması için daha büyük bir şans vardır. bir gruptan bir testten diğerine bağıl pozisyon. Puanların yayılması büyük olduğunda, ölçüm hatalarının bireyin göreceli konumuna daha az etkilediğini söyleyebiliriz.

Örneğin, A Grubu öğrencilerinde 30 ila 80 arasında değişen güvenlik notları var ve B Grubu'nda öğrenciler 65 ila 75 arasında değişen güvenlik notları almışlar. Testleri ikinci kez A Grubu'nda yapacaksak, bireylerin test puanları birkaç puan değişebilir, grup üyelerinin göreceli pozisyonunda çok az kayma olması. Bunun nedeni, A Grubundaki puanların yayılmasının büyük olmasıdır.

Öte yandan, B Grubundaki puanların testin ikinci bir idaresindeki pozisyonlarını değiştirme olasılığı daha yüksektir. Puanların yayılması, en yüksek puandan en düşük puana kadar sadece 10 puan olduğundan, birkaç puanın değişimi bireylerin göreceli pozisyonlarında radikal kaymalar getirebilir. Böylece yayılma daha fazla güvenilirliktir.

2. Testee ile ilgili faktörler:

Başarıdaki değişkenlik, bireylerin testin akıllılığı ve öğrencilerin motivasyonu test puanlarının güvenilirliğini de etkiler.

Testin güvenilirliğini etkileyen testecinin önemli faktörlerinden bazıları şunlardır:

(a) Grubun Heterojenliği:

Grup homojen bir grup olduğunda, test puanlarının yayılması daha düşük ve test edilen grup heterojen bir grup olduğunda, puanların yayılması daha fazla olacaktır. Bu nedenle, heterojen bir grup için güvenilirlik katsayısı homojen gruptan daha fazla olacaktır.

(b) Öğrencilerin bilgeliğini test etmek:

Test alma deneyimi, test puanlarının güvenilirliğini de etkiler. Öğrencilerin karmaşık testlere girmeleri, testin güvenilirliğini arttırır. Fakat bir grupta bütün öğrenciler aynı seviyede test bilgiliğine sahip olmadığında, daha büyük ölçüm hatalarına yol açar.

(c) Öğrencilerin motivasyonu:

Öğrenciler sınava girmeye motive olmadıklarında, en iyi başarılarını temsil etmeyeceklerdir. Bu, test puanlarını zorluyor.

3. Test prosedürüyle ilgili faktörler:

Teste bağlı faktörler ve teste bağlı faktörler test puanlarının güvenilirliğini etkilediğinden, test prosedürüyle ilgili faktörler de test puanlarını etkiler. Test kullanıcıları bu faktörleri kontrol edebiliyorsa, test puanlarının tutarlılığını artırabilirler.

(a) Testin Zaman Sınırı:

Ebel ve Frisbie (1991) 'e göre, “çok hızlı koşullar altında verilen bir testten elde edilen puanlar, aynı gruba daha cömert zaman sınırları altında verilen aynı testten elde edilen puanlar için elde edilenden daha yüksek bir iç tutarlılık güvenilirlik katsayısı gösterecektir.” Öğrenciler sınava girmek için daha fazla zaman kazandıklarında daha fazla tahminde bulunabilirler; bu da test puanlarını artırabilir. Bu nedenle bir testi hızlandırarak testin güvenilirliğini artırabiliriz.

(b) Öğrencilere verilen hile imkanı:

Test yönetimi sırasında öğrencilerin aldatması ölçüm hatalarına neden olur. Bazı öğrenciler hile sayfalarından kopyalayarak veya doğru cevabı bilmeden diğer öğrencilerden dinleyerek doğru cevap verebilirler. Bu, öğrencilerin hak ettiklerinden daha yüksek puan almasına neden olacaktır. Bu, gözlenen dolandırıcıların puanlarını gerçek puanlarından daha yüksek yapacaktır.

Güvenilirlik Ne Kadar Yüksek Olmalı?

Açıkçası değerlendirme cihazları hiçbir zaman tam olarak güvenilir değildir. Bir testin ne kadar güvenilmez ve hala yararlı olabileceği, temel olarak test puanlarından istenen ayrımcılığın inceliğine bağlıdır. (Remers. 1967) Güvenilirlik katsayısının derecesi, testin niteliğine, grubun büyüklüğüne ve değişkenliğine, testin uygulanma amacına ve güvenilirliğin tahmini için kullanılan yönteme bağlıdır. Güvenilirliği düşük bir testin geçerliliği daha yüksek olabilir ve bu nedenle kullanılabilir. Ancak Remmers (1967) 'in okul kullanımı için yayınlanan en standartlaştırılmış test, tasarlandıkları popülasyonda en az 0, 80 güvenirlik katsayısına sahiptir.

Birisi sonuçlarını yorumlamak için standart bir test seçerken, sadece güvenilirlik tahmininin sayısal değerine bakmak yeterli olmamakla birlikte, bu tahminin nasıl elde edildiğini de hesaba katmak gerekir. Gronlund (1976), güvenilirliği tahmin etme yöntemlerinin önemini vurgulamıştır.

Ona göre “split-half metodu güvenilirlik katsayısına en büyük sayısal değerleri verir. Eşdeğer formlar yöntemi ve test tekrar testi güvenilirlik katsayısına daha düşük sayısal değer verme eğilimindedir. Genellikle bu iki yöntem, orta ila büyük güvenilirlik katsayısı sağlar. Eşdeğer formlar yöntemi tipik olarak belirli bir test için en küçük güvenilirlik katsayısını sağlar. ”

Bu nedenle, öğretmenin güvenilirliği mümkün olduğu kadar yüksek standart bir test yapması gerektiği söylenebilir. Ancak, bu güvenirlik katsayısını, dayandığı öğrenci grupları, bu grubun değişkenliği ve güvenilirliği tahmin etme yöntemleri ışığında yorumlamalıdır.

Karakteristik # 2. Geçerlilik:

“Bir değerlendirme aracı seçerken veya oluştururken en önemli soru; Sonuçlar ne ölçüde amaçlandıkları özel kullanımlara hizmet edecek? Bu geçerliliğin özüdür. ” —GRONLUND

Geçerlilik, bir değerlendirme programının en önemli özelliğidir, çünkü bir test geçerli olmadıkça, faydalı bir işlev görmez. Psikologlar, eğitimciler, rehberlik danışmanları test sonuçlarını çeşitli amaçlar için kullanırlar. Açıkçası, eğer testler yeterince yüksek bir geçerlilik derecesine sahip değilse, kısmen de olsa hiçbir amaç yerine getirilemez. Geçerlilik, bir testin gerçekliği ile doludur. Testin ne ölçüde ölçtüğü, test yapıcının neyi ölçmek istediği anlamına gelir.

İki yönü var:

Ne ölçülür ve ne kadar tutarlı bir şekilde ölçülür. Bu bir test özelliği değildir, ancak test puanlarının anlamını ve puanları karar vermek için kullandığımız yöntemleri ifade eder. Uzmanlar tarafından verilen tanımların ardından geçerliliği açık bir şekilde göreceksiniz.

Gronlund ve Linn (1995) - “Geçerlilik, belirli bir kullanım için test puanlarından ve diğer değerlendirme sonuçlarından yapılan yorumlamanın uygunluğunu ifade eder.”

Ebel ve Frisbie (1991) - ”Geçerlilik terimi, bir dizi test puanına uygulandığında, puanların belirli bir bilişsel ilgi yeteneğini ölçtüğü tutarlılık (doğruluk) anlamına gelir.”

CV Good (1973) - Eğitim sözlüğünde geçerlilik, “bir testin veya başka bir ölçüm cihazının kullanım amacını ne ölçüde yerine getirdiği” olarak tanımlamaktadır.

Anne Anastasi (1969) “testin geçerliliği testin neyi ölçtüğü ve ne kadar iyi yaptığı ile ilgili” yazıyor.

Davis'e (1964) göre geçerlilik, sınavın uygun olduğu sınav puanlarının sıralama sırasının, sınavda ölçüm yapmak için kullanılan özellik veya özellikteki aynı sınavların sıralama sırasındaki değer ile aynıdır. . Bu özellik veya karakteristik kriter olarak adlandırılır. Herhangi bir test birçok farklı amaç için kullanılabildiğinden, her bir kritere karşılık gelen birçok geçerliliği olabileceği sonucuna varmıştır. ”

Freeman (1962), “bir geçerlilik endeksi, bir testin kabul edilen kriterler ile karşılaştırıldığında ölçmek istediğini ne ölçüde ölçtüğünü gösterir” olarak tanımlamaktadır.

Lindquist (1942), “bir testin geçerliliği, ölçmeyi amaçladığı ölçmenin doğruluğu veya ölçmek istediğini ölçmede yanılmazlığa yaklaşma derecesi olarak tanımlanabilir” dedi.

Yukarıdaki tanımlardan, bir değerlendirme cihazının geçerliliğinin, ölçmek istediğini ne ölçüde ölçtüğü açıktır. Geçerlilik daima sonuçların spesifik kullanımı ve önerilen yorumumuzun sağlamlığı ile ilgilidir.

Ayrıca güvenilir bir testin de geçerli olması gerekli değildir. Örneğin, bir saatin on dakika ileri alındığını varsayalım. Saat iyi bir zaman parçası ise, bize söylediği zaman güvenilir olacaktır. Çünkü sürekli bir sonuç verir. Ancak 'Standart zaman' tarafından değerlendirildiği şekilde geçerli olmayacaktır. Bu, “güvenilirliğin gerekli olduğu ancak geçerlilik için yeterli bir şart olmadığı” anlamına gelir.

Geçerliliğin Doğası:

1. Geçerlilik, test sonuçlarının uygunluğunu ifade eder ancak cihazın kendisine değildir.

2. Geçerlilik, hepsi ya da hiç bazında yoktur, ancak bir derece meselesidir.

3. Testler tüm amaçlar için geçerli değildir. Geçerlilik her zaman belirli yorumlara özeldir. Örneğin, bir kelime testi testinin sonuçları kelime bilgisini test etmek için oldukça geçerli olabilir ancak öğrencinin kompozisyon yeteneğini test etmek için bu kadar geçerli olmayabilir.

4. Geçerlilik farklı türde değildir. Bu üniter bir kavramdır. Çeşitli kanıt türlerine dayanır.

Geçerliliği Etkileyen Faktörler:

Güvenilirlik gibi, test puanlarının geçerliliğini etkileyen birkaç faktör vardır. Dikkat etmemiz ve kolayca kaçınmamız gereken bazı faktörler var. Ancak, bizim cahil olduğumuz bazı faktörler vardır ve test sonuçlarını amaçlanan kullanımları için geçersiz kılar.

Bu faktörlerin bazıları aşağıdaki gibidir:

1. Testteki faktörler:

(i) Öğrencilere teste cevap vermeleri konusunda net olmayan talimatlar.

(ii) Okuma kelime hazinesi ve cümle yapısının zorluğu.

(iii) Çok kolay veya çok zor test öğeleri.

(iv) Test maddelerinde belirsiz ifadeler.

(v) Belirli bir sonucu ölçmek için uygun olmayan test maddeleri.

(Vi) Teste girmek için yeterli zaman sağlanmadı.

(vii) Testin uzunluğu çok kısa.

(viii) Zorluk derecesine göre düzenlenmemiş test maddeleri.

(ix) Tanımlanabilir cevap örnekleri.

Test Yönetimi ve Puanlamadaki Faktörler:

(i) Yardım isteyen bireysel öğrencilere haksız yardım,

(ii) Test sırasında öğrencilerin aldatması.

(iii) Deneme türü cevapların güvenilmez puanlaması.

(iv) Testi tamamlamak için yeterli zaman yok.

(v) Test sırasındaki olumsuz fiziksel ve psikolojik durum.

Testee ile ilgili faktörler:

(i) Öğrencilerin test kaygısı.

(ii) Öğrencinin fiziksel ve psikolojik durumu,

(iii) Tepki seti - maddelere cevap verirken belirli bir modeli izlemeye tutarlı bir eğilim.

Karakteristik # 3. Nesnellik:

Nesnellik, iyi bir testin önemli bir özelliğidir. Test puanlarının hem geçerliliğini hem de güvenilirliğini etkiler. Bir ölçüm cihazının objektifliği, cevap makbuzunu puanlayan farklı kişilerin aynı sonuca varma derecesine iner. CV Good (1973), testte objektifliği “enstrümanın kişisel hatadan (kişisel önyargılı), yani golcünün tarafındaki öznellikten arındırılmış olduğu” olduğunu tanımlar.

Gronlund ve Linn (1995) “Bir testin nesnelliği, eşit derecede yetkin puanların aynı sonuçları elde etme derecesini ifade eder. Bu nedenle sınav, golcünün kişisel görüşünü ve önyargı kararını ortadan kaldırmak için yapıldığında amaç olarak kabul edilir. Bu bağlamda, bir test yapılırken akılda tutulması gereken iki nesnellik yönü var. ”

(i) Puanlamada nesnellik.

(ii) Test maddelerinin testist tarafından yorumlanmasında tarafsızlık.

(i) Puanlamanın Nesneliği:

Puanlamanın nesnelliği, aynı anda veya herhangi bir zamanda testi puanlayan farklı kişiler, aynı anda, şans hatası olmadan gelmek anlamına gelir. Objektif olmak için yapılan bir test mutlaka o kadar açık olmalıdır ki, ona yalnızca doğru cevap verilebilir. Diğer bir deyişle, cevap bültenini alan kişinin kişisel değerlendirmesi, test puanlarını etkileyen bir faktör olmamalıdır. Böylece, puanlama prosedürünün objektif olması durumunda, bir testin sonucunu basit ve kesin bir şekilde elde edebilirsiniz. Puanlama prosedürü, bir maddenin doğru mu yanlış mı, yoksa kısmen mi yanlış mı olduğuna dair bir şüphe olmamalıdır.

(ii) Test Öğelerinin Nesnelliği:

Maddenin nesnellik anlamında, bir maddenin kesin bir tek cevap vermesi gerektiği anlamına gelir. İyi yapılandırılmış test maddeleri, ilgili materyali bilen öğrenciler tarafından kendilerini yalnızca bir tek yoruma götürmelidir. Bu, test maddelerinin belirsizlikten arınmış olması gerektiği anlamına gelir. Belirli bir test maddesi, test yapan kişinin sormak istediği tüm öğrenciler için aynı anlama gelmelidir. İkili anlam cümlesi, birden fazla doğru cevabı olan maddeler, testi öznel kıldığından teste dahil edilmemelidir.

Karakteristik # 4. Kullanılabilirlik:

Kullanılabilirlik, ölçme araçlarının bir diğer önemli özelliğidir. Çünkü değerlendirme araçlarının pratik düşünceleri ihmal edilemez. Test zaman, ekonomi ve idare açısından pratik değere sahip olmalıdır. Bu kullanılabilirlik olarak adlandırılabilir.

Bu yüzden bir test inşa ederken ya da seçerken, aşağıdaki pratik hususlar dikkate alınmalıdır:

(i) İdare Kolaylığı:

Genel sınıf öğretmeni adaylarının kullanabilmesi için testin kolay yönetilmesi gerektiği anlamına gelir. Bu nedenle basit ve net talimatlar verilmelidir. Test çok az sayıda alt teste sahip olmalıdır. Testin zamanlaması çok zor olmamalıdır.

(ii) İdare için gereken süre:

Teste girmek için uygun zaman sınırı sağlanmalıdır. Teste girmek için yeterli zaman sağlamak için, testin güvenilirliğini azaltacağından testi kısaltacağız. Gronlund ve Linn (1995) “Yayınlanmış bir test tarafından elde edilen her bir puan için 20 ila 60 dakikalık test süresi arasında bir yerde muhtemelen oldukça iyi bir rehber” olduğu kanısındadır.

(iii) Yorum ve Uygulama Kolaylığı:

Test puanlarının bir diğer önemli yönü, test puanlarının yorumlanması ve test sonuçlarının uygulanmasıdır. Eğer sonuçlar yanlış yorumlanırsa, uygulanmazsa zararlı, o zaman yararsızdır.

(iv) Eşdeğer Formların Kullanılabilirliği:

Eşdeğer form testleri, sorgulanabilir test puanlarının doğrulanmasına yardımcı olur. Aynı zamanda, aynı öğrenme alanındaki öğrencileri tekrar test ederken hafıza faktörünü ortadan kaldırmaya yardımcı olur. Bu nedenle içerik, zorluk seviyesi ve diğer özellikler bakımından aynı testin eşdeğer formları mevcut olmalıdır.

(v) Test Maliyeti:

Bir test hazırlık, yönetim ve puanlama açısından ekonomik olmalıdır.