TEORI VALIDITAS DAN RELIABILITAS
Artha Mahindra Diputera
artha1wides@gmail.com
Validitas
Validitas berdasarkan Azwar (2010:173) berasal dari kata validity yang mempunyai arti sejauhmana ketepatan dan kecermatan suatu instrumen pengukur (tes) dalam melaksanakan fungsi ukurnya. Tes sanggup dikatakan mempunyai validitas yang tinggi apabila tes menjalankan fungsi ukurnya, atau memperlihatkan hasil ukur yang sempurna dan akurat sesuai dengan maksud dikenakannya tes.Valid berdasarkan Grounlound dalam Sukardi(2009:30) sanggup diartikan sebagai ketepatan interpretasi yang dihasilkan dari skor tes atau instrumen evaluasi.
“A test has validity if it what it purports to measure” (Allen & Yen 1979:95). Pendapat tersebut diperkuat oleh Retnawati (2016:16) bahwa validitas akan memperlihatkan dukungan fakta empiris dan alasan teoretis terhadap intepretasi skor tes atau skor suatu instrumen, dan terkait dengan kecermatan pengukuran. Widoyoko (2016:141) menyebutkan instrumen dikatakan valid apabila instrumen tersebut sanggup dengan sempurna mengukur apa yang hendak diukur. Validitas berasal dari “ketepatan” dengan alat ukur. Instrumen yang valid sanggup menghasilkan data yang valid pula. Messick dalam Retnawati (2016:16) validitas merupakan kebijakan evaluatif yang terintegrasi perihal sejauhmana fakta empiris dan alasan teoretis mendukung kecukupan dan kesesuaian inferensi dan tindakan instrumen berdasarkan skor tes atau skor suatu instrumen.Berdasarkan beberapa pendapat sanggup disimpulkan bahwa validitas tes yaitu ketepatan dan kecermatan instrumen tes sebagai alat dalam mengukur yang seharusnya diukur dengan dukungan fakta empiris dan alasan teoretis berdasarkan skor.
Pengertian validitas sangat erat berkaitan dengan tujuan pengukuran.Validitas tidak ada yang berlaku secara umum untuk semua tujuan pengukuran.Tes hanya menghasilkan ukuran yang valid untuk satu tujuan pengukuran saja yang spesifik. Tes yang valid untuk pengambilan suatu keputusan sanggup saja tidak valid sama sekali guna pengambilan keputusan lain dan bagi kelompok lain.Hasil estimasi validitas suatu pengukuran pada umumnya dinyatakan secara empirik oleh suatu koefisien yang disebut koefisien validitas dinyatakan oleh hubungan antara distribusi skor tes yang bersangkutan dengan distribusi skor suatu kriteria. Kriteria ini sanggup berupa skor tes lain yang mempunyai fungsi ukur sama dan sanggup pula berupa ukuran lain yang relevan. Bila skor tes diberi simbol X dan skor kriteria mempunyai simbol Y, maka koefisien hubungan antara tes dan kriteria itu merupakan koefisien validitas, yaitu rxy.Koefisien validitas hanya punya makna apabila mempunyai harga yang positif. Walaupun semakin tinggi mendekati angka 1,00 berarti suatu tes semakin valid hasil ukurnya namun, pada kenyataannya suatu koefisien validitas tidak pernah mencapai angka 1,00. Bahkan memperoleh koefisien validitas yang tinggi yaitu lebih sulit daripada memperoleh koefisien reliabilitas yang tinggi (Azwar, 2010:174).
Estimasi validitas dilakukan dengan memakai teknik korelasi.Namun tidak semua pendekatan validitas memerlukan analisis statistik. Tipe Validitas yang berbeda menghendaki cara analisis yang berbeda pula. Tipe validitas terbagi atas Validitas Isi (Content), Validitas Konstruk (Construct), dan Validitas Berdasar Kriteria (Criterionrelated).Validitas berdasar kriteria terbagi menjadi validitas Konkuren (Concurrent) dan Validitas Prediktif (Predictive).
Validitas Isi
Allen dan Yen (1979:95) “Content validity is established through a rational analysis of the content of a test, and its determination is based on individual, subjective judgment. There are two main types of content validity: face validity and logical validity”. Face validity dan logical validity memerlukan pertolongan pihak lain. Keputusan nalar sehat mengenai keselarasan atau relevansi aitem dengan tujuan ukur skala tidak sanggup didasarkan hanya pada penulis soal sendiri, tetapi juga memerlukan komitmen penilaian dari beberapa penilai yang kompeten (expert judgement) (Straub dkk dalam Azwar, 2016:132).
Validitas isi sebuah instrumen sanggup memperlihatkan kesesuaian instrumen dengan materi. Butir soal di dalam instrumen harus sesuai dan meliputi bahan yang hendak diukur dan tidak keluar dari tujuan pengukuran. Validitas isi instrumen tidak melalui analisis statistik, melainkan hanya analisis rasional keputusan nalar sehat dari pertimbangan para hebat untuk melihat keterwakilan dan relevansi dengan kemampuan yang hendak diukur.
1. Validitas Muka (face validity)
Validitas muka terkadang disebut “armchair” validitas, digunakan ketika seseorang meneliti tes dan menyimpulkan mengukur sesuai sifat.Seseorang menciptakan investigasi ini sanggup dilakukan oleh siapapun.Seseorang tidak setuju, maka validitas dipertanyakan. Misalnya, akan jelek bagi public relations suatu perusahaan jikalau tes digunakan untuk pelamar kerja tidak mempunyai hubungan yang terang dengan pekerjaan, bahkan jikalau tes efektif di dalam mengidenditifikasi orang-orang yang paling memungkinkan untuk menjadi pekerja yang baik. Namun, validitas muka mempunyai tingkat signifikasi yang rendah alasannya yaitu hanya melihat tampilan instrumen tes dengan keyakinan dari segi isi bahwa instrumen tes valid untuk tujuan pengukuran tertentu.
2. Validitas Logis (Logical Validity)
Validitas logis atau sample yaitu validitas rupa yang lebih canggih yang melibatkan definisi yang cermat dari domain sikap yang sanggup diukur dengan tes dan desain logis item untuk meliputi semua bidang penting dari domain. Validitas logis sanggup sangat mempunyai kegunaan dalam pengembangan tes prestasi. Cara dalam pembuktian validitas logis yaitu dengan menciptakan indikator spesifikasi tes yang sesuaidengan domain isi dari butir soal tes.
Aiken (1985) telah merumuskan formula Aiken’s V untuk menghitung content-validity coefficient yang didasarkan pada hasil panel hebat sebanyak n orang terhadap suatu butir mengenai sejauh mana butir tersebut mewakili konstruk yang diukur. Penilaian dilakukan dengan cara memperlihatkan angka antara 1 (yakni sangat tidak mewakili atau tidak relevan) hingga dengan 5 (yaitu sangat mewakili atau sangat relevan).
Validitas Konstrak
“A test’s construct validity is the degree to which it measures the theoretical construct or trait that it was designed to measure”(Allen dan Yen, 1979:108).Validitas konstrak sanggup diuji dengan analisis statistika yang kompleks menyerupai mekanisme analisis faktor. Prosedur pengujian validitas konstak yang lebih sederhana yaitu dengan melalui pendekatan multi-trait multi method. Pendekatan multi-trait multi methoddapat menguji serentak dua atau lebih trait yang diukur melalui dua atau lebih metode. Prosedur multi-trait multi methoddapat diperoleh adanya bukti validitas diskriminan dan validitas konvergen (Azwar 2010:175).
Prosedur validitas konstruk diawali dari suatu identifikasi dan batasan mengenai variabel yang hendak diukur dan dinyatakan dalam bentuk konstruk logis berdasarkan teori mengenai variabel tersebut. Teori ini ditarik dari suatu konsekuensi simpel mengenai hasil pengukuran pada kondisi tertentu, dan konsekuensi inilah yang akan diuji (Retnowati, 2016:17). Validitas konstruk merujuk kepada kualitas alat ukur yang dipergunakan apakah sudah benar-benar menggambarkan konstruk teoritis yang digunakan sebagai dasar operasionalisasi ataukah belum. Validitas konstruk secara singkat yaitu penilaian perihal seberapa baik seorang peneliti menerjemahkan teori yang dipergunakan dalam alat ukur (Widoyo, 2006).
Validitas Berdasar Kriteria
Prosedur pendekatan validitas berdasarkan kriteria menghendaki tersedianya kriteria eksternal yang sanggup dijadikan dasar pengujian skor tes. Kriteria yaitu variabel sikap yang sanggup dirediksi oleh skor tes atau berupa suatu ukuran lain yang relevan. Validitas yang tinggi sanggup dilihat dengan melaksanakan perhitungan terhadap hubungan antara skor tes dengan skor kriteria.Prosedur validitas berdasar kriteria menghasilkan dua macam validitas yaitu validitas prediktif (predictive validity) dan validitas konkuren (concurrent validity) (Rusilowati, 2017: 25).
Validitas yang memprediksi artinya kemampuan untuk meramal selalu mengenai hal yang sanggup tiba jadi kini belum terjadi. Instrumen penilaian dikatakan mempunyai validitas prediksi atau validitas ramalan apabila mempunyai kemampuan untuk meramalkan yang akan terjadi pada masa yang akan datang. Validitas concurrent lebih umum dikenal dengan validitas empiris. Instrumen penilaian dikatakan mempunyai validitas empiris jikalau kesannya sesuai dengan pengalaman (Supardi, 2015: 99).
Reliabilitas
Reliabilitas diterjemahkan dari kata reliability.Pengukuran yang mempunyai reliabilitas tinggi maksudnya yaitu pengukuran yang sanggup menghasilkan data yang reliabel. Reliabilitas mempunyai banyak sekali nama lain menyerupai kepercayaan, keterandalan, keajegan, konsistensi, kestabilan, dan sebagainya namun wangsit pokok dalam konsep reliabilitas yaitu sejauh mana hasil suatu pengukuran sanggup dipercaya.
“... a test is reliable if itsobserved score are highly correlated with its score…. or reliability can be expressed as a correlation coeficient betwen observed score on two parascores on two parallel test” (Allen dan Yen, 1979:72). Azwar (2016:111) menyebutkan pengertian reliabilitas mengacu kepada keterpercayaan atau konsistensi hasil ukur, yang mengandung makna seberapa tinggi kecermatan pengukuran.Supardi (2015:111) menyebutkan suatu butir instrumen penilaian dikatakan reliabel apabila digunakan mengukur pada waktu yang berlainan kesannya sama. Reliabilitas sanggup pula diartikan dengan keajegan atau stabilitas.Berdasarkan definisi beberapa hebat sanggup disimpulkan bahwa reliabilitas tes yaitu stabilnya skor hasil pengukuran yang mempunyai kecermatan pengukuran walaupun dilakukan penilaian berulang-ulang.
Hasil ukur yaitu sanggup mengemban amanah apabila dalam beberapa kali pengukuran terhadap kelompok subjek yang sama diperoleh hasil yang relatif sama, kalau aspek yang diukur dalam diri subjek memang belum berubah. Pengukuran dalam pendidikan tidak sanggup pribadi dilakukan pada ciri atau karakter yang akan diukur. Ciri atau karakter ini bersifat abstrak, yang sanggup diukur melalui suatu indikator.Hal ini menyebabkan sulitnya memperoleh alat ukur yang stabil untuk mengukur karakteristik seseorang.Kestabilan ini yang dikatakan reliabilitas. Reliabilitas sanggup dilihat berdasar pengukuran, yang berupa suatu nilai, sanggup dilakukan dengan penghitungan statistik. Nilai ini biasa dinamakan dengan koefisien reliabilitas (reliability coefficient) (Retnawati, 2016:84). Hasil Pengukuran sanggup mengemban amanah apabila dalam beberapa kali pengukuran terhadap kelompok subjek yang sama diperoleh hasil empiris yang relatif sama, kalau aspek yang diukur dalam diri subjek memang belum berubah.
Reliabilitas yang tinggi ataupun rendah, secara empirik ditunjukkan oleh suatu angka yang disebut koefisien reliabilitas. Pada awalnya, tinggi-rendahnya reliabilitas dicerminkan oleh tinggi-rendahnya hubungan antara dua distribusi skor dari dua alat ukur yang pararel yang dikenakan pada sekelompok individu yang sama. Koefisien hubungan antara dua variabel dilambangkan oleh karakter r. Apabila skor pada alat ukur yang pertama diberi lambang X dan skor pada alat ukur dipararelnya diberi lambang X’, maka koefisien hubungan antara keduanya diberi lambang rxy.Simbol inilah yang kemudian diadopsi sebagai simbol koefisien reliabilitas. Walaupun secara teoretik besarnya koefisien reliabilitas bersikar antara 0 hingga dengan 1,00 akan tetapi pada kenyataannya koefisien sebesar 1,00 tidak pernah dijumpai. Koefisien hubungan sanggup saja bertanda positif (+) ataupun negatif (-) akan tetapi dalam hal reliabilitas, koefisien yang besarnya kurang dari 0 tidak ada artinya alasannya yaitu intepretasi reliabilitas selalu mengacu kepada koefisien yang positif.
Estimasi reliabilitas sanggup dimaknai dengan proses penghitungan untuk mencari koefisien reliabilitas. Estimasi reliabilitas sanggup dilakukan dengan beberapa pendekatan.Konsistensi eksternal, konsistensi internal, reliabilitas komposit, reliabilitas konstruk, dan reliabilitas interrater.
1. Estimasi Konsistensi Eksternal
Penghitungan reliabilitas diperoleh dengan memakai skor hasil pengukuran yang berbeda, baik dari instrumen yang berbeda maupun sama. Dua cara untuk mengestimasi reliabilitas eksternal suatu instrumen yaitu dengan teknik pengukuran Test-Retest dan teknik paralel.
1.1 Metode Tes Ulang (Test-Retest)
Metode tes ulang yaitu cara untuk mendapat estimasi reliabilitas dengan cara memperlihatkan instrumen tes yang sama kepada kelompok yang sama dalam waktu yang berbeda sebanyak dua kali Allen & Yen (1979), Rusilowati (2017), Retnowati (2016), Azwar (2016), Sukardi (2009), Widoyoko (2016).
Reliabilitas tes-retes ini penting, khususnya ketika digunakan untuk ementukan prediktor contohnya tes kemampuan. Tes kemampuan tidak akan bermanfaat, jikalau ternyata memperlihatkan hasil yang selalu berubah-ubah secara signifikan ketika diberikan kepada responden (Sukardi, 2009:45). Widoyoko (2016:159) menyebutkan bahwa tes yang banyak mengungkap pengetahuan (ingatan dan pemahaman, metode ini kurang mengena, alasannya yaitu responden masih ingat akan butir-butir soalnya.
1.2. Metode Tes Pararel (Equivalent)
Metode tes pararel dilakukan dengan cara memperlihatkan dua atau lebih instrumen kepada satu kelompok dengan karakteristik yang sama yakni sama tujuan pengukurannya, susunan tampilan, variabel yang sama, jumlah butir, tingkat kesulitan dan cara penskoran. Namun, kelemahan dari metode tes pararel yaitu sulitnya menyusun dua instrumen yang memenuhi persyaratan pararel dengan karakteristik yang sama dan membutuhkan waktu dan biaya yang lebih lama, sehingga akan selalu terjadi kesalahan pengukuran.
2. Estimasi Konsistensi Internal
Teknik konsistensi internal hanya dengan melaksanakan satu kali pengumpulan data, reliabilitas skor perangkat pengukuran sanggup diestimasi.Komputasi koefisien reliabilitasnya dilakukan sesudah keseluruhan instrumen telah dikenakan pada subjek itu dibelah menjadi beberapa bagian. Instrumen sanggup dibelah menjadi dua, tiga, atau empat bab bahkan sanggup dibelah menjadi sebanyak jumlah butir soal. Bentuk dan sifat alat ukur serta banyaknya belahan yang dibuat sanggup memilih teknik perhitungan koefisien reliabilitasnya. Teknik komputasi reliabilitas konsistensi internal yaitu penggunaan Formula Spearman-Brown, Formula Rulon, Formula Alpha, Formula Kuder-Richardson, Formula Kristof, Formula Analisis Varians dan sebagainya (Azwar, 2010:182).
3. Reliabilitas Komposit
Skala psikologis yang mengukur suatu atribut komposit yaitu atribut yang komposisisnya dibuat oleh beberapa atribut berbeda, skor subjek pada skala tidak berasal hanya dari satu sumber saja melainkan ditentukan oleh adonan dari beberapa skor. Besarnya bobot relatif suatu komponen ditentukan oleh banyaknya sumbangan komponen tersebut dalam memilih skor akhir, contohnya suatu komponen yang berisi lebih banyak aitem sanggup lebih besar bobotnya. Besarnya bobot relatif itu mungkin pula ditentukan oleh konsep dan teori yang mendasari penyusunan skala yang bersangkutan.Skor simpulan pada skala menyerupai itu merupakan skala komposisi (paduan) yang sanggup berupa deviasi dari skor setiap bab atau komponen dengan memperhitungkan besarnya bobot masing-masing (Azwar, 2016:123).Pendapat tersebut diperjelas oleh Retnawati (2016) bahwa skor komposit yang dimaksud yakni skor simpulan merupakan adonan dari skor butir-butir penyusunan instrumen. Reliabilitas kompisit terdapat 3 formula yang sanggup digunakan untuk mengestimasi reliabilitasyaitu dengan menghitung koefisien
Cronbach, Koefisien KR-20, dan koefisien KR-21.
![](file:///C:\Users\Acer\AppData\Local\Temp\msohtmlclip1\01\clip_image006.gif)
Formula Alpha digunakan untuk mengestimasi reliabilitas instrumen yang skornya bukan hanya 1 dan 0.Namun, juga skala politomus, contohnya angket (skala Likert 1-2-3-4-5) atau soal bentuk uraian (skor maksimum sanggup tergantung peneliti. Instrumen dikatakan reliable apabila r11 ≥ 0,7.
4. Reliabilitas Konstruk
Reliabilitas konstruk ini sanggup diestimasi sesudah peneliti mengambarkan validitas konstruk dengan analisis faktor konfirmatori hingga memperoleh model yang cocok (model yang fit). Peneliti dengan analisis faktor sanggup memperoleh muatan faktor (factor loading) tiap indikator yang menyusun instrumen dan indeks kesalahan unik dari tiap indikator.
5. Reliabilitas Interrater
Instrumen jikalau penskoran butir dilakukan dengan memanfaatkan dua orang rater, peneliti sanggup mengestimasi reliabilitas dengan inter-rater agreement. Hasil estimasi reliabilitas dengan teknik ini disebut dengan reliabilitas inter-rater. Reliabilitas interrater diestimasi dengan menghitung terlebih dahulu banyaknya butir atau kasus yang cocok atau butir atau kasus yang diskor sama oleh kedua rater. Banyaknya butir yang cocok ini kemudian dibandingkan dengan butir total, kemudian disajikan dalam persentase (Retnowati, 2016:93).
DAFTAR PUSTAKA
Allen, M. J., & Yen, W. M. (1979). Introduction to Measurement Theory. Monterey, California: Broke/Cole Publishing Company.
Azwar, S. (2010). Tes Prestasi: Fungsi dan Pengembangan Pengukuran Prestasi Belajar. Yogyakarta: Pustaka Pelajar.
Azwar, S. (2016). Penyusunan Skala Psikologi. Yogyakarta: Pustaka Pelajar.
Retnawati, H. (2016). Validitas Reliabilitas dan Karakteristik Butir. Yogyakarta: Parama Publishing.
Sukardi, M. (2009). Evaluasi Pendidikan Prinsip dan Operasionalnya. Jakarta: Bumi Aksara.
Supardi. (2015). Penilaian Autentik Pembelajaran Afektif, Kognitif, dan Psikomotor. Jakarta: Rajawali Pers.
Widoyo, P. B. (2006). Reliabilitas dan Validitas Konstruk Skala Konsep Diri Untuk Mahasiswa Indonesia. Jurnal Psikologi Universitas Diponegoro, 3(1), 1–9.
Widoyoko, E. P. (2016). Teknik Penyusunan Instrumen Penelitian. Yogyakarta: Pustaka Pelajar.