Değerlendirme Karakteristikleri: Değerlendirme Güvenilirliği ve Derecelendirmelerin Öngörülebilirliği

Şimdiye kadar gerçek puanlayıcıları ve performans değerlendirme sürecindeki önemini görmezden geldik. Değerlendiricilerin, karar vermede sayısız türde “hataya” maruz kaldıkları ve derecelendirme ölçeklerinin bu hataları en aza indirecek şekilde tasarlanması gerektiği belirtilmiş olmasına rağmen, bireysel puanlayıcıların özellikleri, derecelendirme süreci üzerindeki etkileri bakımından incelenmemiştir.

Derecelendirme Güvenilirliği ve Derecelendirmelerin Öngörülebilirliği:

Değerlendirici özellikleri sorunu son yıllarda oldukça fazla dikkat çekmiştir. Buckner (1959), puanlayıcıların ne kadar iyi uyuştuğu ve başka bir değişkenle derecelendirmeyi ne kadar önceden tahmin edebileceği arasındaki ilişkiyi araştırmıştır. Başka bir ifadeyle, Buckner “Son derece güvenilir derecelendirmeler yapıyor, tahmin etmesi daha kolay olacak bir kritere sahip olduğum anlamına mı geliyor?” Sorusunu sordu. Yanıtın hayır olduğu ortaya çıktı. Buckner, notlarını ne kadar iyi karar verdiğine bağlı olarak, hakimlerini dört gruba ayırdı.

1. Grup: Hakimler bu oranlar konusunda yüksek bir anlaşma yapmıştı.

Grup 2: Hakimler bu oranlar konusunda makul bir anlaşmaya vardılar.

Grup 3: Hakimler bu oranlar konusunda düşük bir anlaşmaya vardılar.

Grup 4: Hakimler bu oranlar üzerinde sıfır anlaşma içindeydiler.

Daha sonra test sonuçlarını derecelendirmeyle ilişkilendirerek iki testi doğrulamaya devam etti - bu her grup için ayrı ayrı yapıldı. Çalıştığı grubun bir işlevi olarak elde ettiği geçerliliklerin büyüklüğü arasında sistematik bir ilişki bulamamıştır. Windle ve Dingman (1960) Buckner'ın yorumunu eleştirdi ve Tablo 7.4'te verilen sonuçları buldukları ikinci bir çalışma yaptı.

Tablo 7.4'te gösterilen geçerlilik katsayılarının göreceli büyüklüklerine dikkat edin. Puanlayıcılar ne kadar güvenilir olursa, geçerlilikler de o kadar yüksek olur. Benzer şekilde, derecelendirmeler ne kadar güvenilir olursa, geçerlilikler de o kadar yüksek olur.

Bu nedenle, bir kişi mantıklı bir şekilde Windle ve Dingman'ın sonuçları gibi Buckner'ınkilerden daha bekleyebilir. Bununla birlikte, yüksek güvenilirliğin sadece yüksek geçerlilikler için gerekli bir koşul olduğunu unutmamak gerekir - bu yeterli bir koşul değildir.

Wiley, bir dizi çalışmada, aynı puanlayıcı (Wiley 1963; Wiley ve Jenkins, 1963) ile aynı karar vericiyle önceki kararlarla ne kadar iyi uyuştukları ile ilgili olarak zaman içinde puanlayıcı kararlarının tutarlılığını incelemiştir. Reyting (Wiley ve Jenkins, 1964). Genel olarak, puanlayıcıların on aylık bir zaman dilimine kadar derecelendirmelerinde tutarlı olduğu bulundu.

Buna ek olarak, bir ilk derecelendirme görevinde grup kompoziti ile çok yakından aynı fikirde olanların, bir ay sonra farklı bir derecelendirme görevinde grup kompoziti ile en çok aynı fikirde olan kişiler olduğunu da buldu. Bu bilginin, daha büyük bir puanlayıcı grubunun ortalama görüş birliğini gerçekten temsil eden puanlayıcıları seçmek için kullanılabileceğini öne sürüyor.

Ne yazık ki, grup kompoziti ile aynı fikirde olan puanlayıcıların talep edilebilecek en iyi puanlayıcılar olup olmadığı sorunu henüz belirlenmemiştir. Bununla birlikte, daha büyük bir sayı kullanılarak elde edilen kompoziti yaklaşık olarak belirleyebilecek az sayıdaki puanlayıcı kullanarak bir kompozit derecelendirme elde etmenin mümkün olması durumunda, kesinlikle zaman ve paradan tasarruf edebileceği mantığı vardır.

Çok sayıda diğer puanlayıcı özelliklerinin derecelendirmelerle elde edilen performans değerlendirmelerinde rol oynadığı gösterilmiştir. Christal ve Madden (1960), önemli bir düşüncenin, bir puanlayıcının derecelendirdiği mesleğe ne kadar aşina olduğunu ve Madden'in (1960a 1961) ek çalışmalarının desteklediği bir derece olduğunu göstermiştir. Benzer şekilde, Wiley, Harber ve Giorgia (1959a, 1959b) genelleştirilmiş puanlayıcı eğilimlerinin derecelendirmeler üzerindeki etkisinde farkedilme etkisinin etkisini göstermiştir.

Derecelendirme Ölçeği Formatı ve Performans Değerlendirme Kararı:

Madden, derecelendirme ölçeğinin etkisiyle ilgili bir dizi çalışma bildirmiştir. Bir çalışmada (Madden, 1960b) derecelendirme güvenilirliğinin ve derecelendirme kolaylığının, derecelendirme ölçeğinin tanımlanmasında örneklerin kullanılmasından ya da kullanılmamasından etkilenmediğini, ölçeğin tanımlanmamış olarak tanımlanıp tanımlanmadığını belirlemiştir. güvenilirliği ve kullanım kolaylığını etkiler.

Bir sonraki çalışmada Madden ve Bourdon (1964), yedi farklı derecelendirme ölçeği formatının, 9 farklı meslek faktörü üzerindeki 15 farklı meslek reytingi üzerindeki etkisini çalışmıştır. Sonuçlar, doğada biraz karmaşık olmasına rağmen, bir mesleğe atanan notun hem ilgili iş faktörüne hem de kullanılan özel derecelendirme formatı formatına bağlı olduğunu açıkça göstermiştir.