Selasa, 09 Februari 2010

VALIDITAS

Alat ukur yang memenuhi standar kevalidan menjamin bahwa
alat tersebut mengukur apa yang hendak diukur. Oleh karena
itu, sebelum digunakan alat ukur sebaiknya diuji validitas dan
reliabilitasnya.

Atkin, Black, & cofey (2001) mengatakan bahwa kesahihan memiliki banyak dimensi, termasuk tiga yang akan dibahas di sini, yakni kesahihan isi (content validity), kesahihan konstruk (construct validity), dan kesahihan instruksional (instructional validity).
Kesahihan isi mengacu pada tingkatan dimana suatu peniliti mampu mengukur area isi yang diharapkan. Kesahihan konstruk mengacu pada tingkatan dimana penilaian mengukur konstruk teori atau kemampuan yang diharapkan. Terakhir, suatu penilaian menggambarkan kesahihan instruksional, apabila materi atau isi sepadan dengan apa yang benar-benar diajarkan.
A. Ciri Umum Validitas
Para ahli psikometri telah menetapkan kriteria bagi suatu alat ukur psikologis untuk dapat dinyatakan sebagai alat ukur baik dan mampu memberikan informasi yang sesuai dengan diadakannya suatu pengukuran. Kriteria itu antara lain adalah valid dan reliabel. Sifat valid dan reliabel diperlihatkan oleh tingginya reliabilitas dan validitas hasil ukur suatu tes. Suatu alat ukur yang tidak reliabel atau tidak valid akan memberikan informasi yang keliru mengenai keadaan subjek atau individu yang dikenai tes itu.
Validitas didefinisikan sebagai ukuran seberapa cermat suatu alat ukur melakukan fungsi ukurnya. Misalnya, tes hanya dapat dilakukan fungsinya dengan cermat kalau ada "sesuatu" yang diukurnya. Jadi, untuk dikatakan valid, tes harus mengukur sesuatu dan melakukannya dengan cermat (Mardapi, 2004). Penekanan definisi tersebut terletak pada seberapa cermat suatu alat ukur melakukan fingsi ukurnya, sehinngga memberikan hasil ukur sesuai dengan yang hendak diukur.
Sifat valid memberikan pengertian bahwa alat ukur yang digunakan mampu memberikan nilai yang sesungguhnya dari apa yang kita inginkan. Jika pada suatu kesempatan kita ingin memperoleh tinggi suatu meja, penggaris merupakan alat ukur yang valid, karena dengan alat ini kita akan dapatkan berapa centimeter tinggi meja tersebut. Meteran gulung juga alat yang valid. Selain itu, pengukuran dengan jengkal tangan juga merupakan cara yang bisa dilakukan. Namun tidak demikian halnya jika kita gunakan termometer badan.
Lebih lanjut, pengertian validitas suatu tes tidaklah berlaku umum untuk semua tujuan ukur. Sebuah tes biasanya hanya menghasilkan ukuran yang valid untuk satu tujuan ukur tertentu. Karena itu, predikat valid seperti dalam pernyataan "Tes ini valid" tidaklah benar. Pernyataan valid harus diiringi oleh keterangan yang menunjuk kepada tujuan, yaitu valid untuk mengukur apa. Lebih lanjut, valid bagi siapa. Karena itu, suatu tes yang sangat valid guna pengambilan suatu keputusan sangat tidak berguna dalam pengambilan keputusan lain.
Jadi, validitas di dalam pandangannya adalah suatu property yang sangat penting dan berguna dibandingkan penilaian yang nyata. Messick (Atkin, Black, & Cofey, 2001) menekankan pada penggunaan dari validitas pada pentingnya mempertimbangkan konsekuensi sosial: "Validitas tes dan nilai sosial terjalin dan bahwa konsekuensi dari evaluasi yang disengaja dan yang tidak disengaja pada beberapa ujian terintegrasi dengan pengesahan-pengesahan tes, penafsiran dan penggunaan". Dia memberi alasan bahwa validitas memerlukan pengajaran mengenai sesuatu yang jelas, termasuk di dalamnya bukti dari apa yang terjadi sehagai hasilnya. Moss (Atkin, Black, & Cofey, 2001) menghimbau bahwa tindakan-tindakan konsekuensi-konsekuensi dari tindakan-tindakan tersebut diperlukan sebagai bukti untuk menjamin kebenaran.
B. Jenis Validitas
Tergantung pada pendekatannya, validitas dapat dibagi menurut berbagai tipe. Berikut ini akan disajikan jenis-jenis validitas menurut yang ditetapkan oleh American Psycological Association, yaitu content validity, construct validity dan criterion-related validity.
1. Content Validity
Content validity (validitas isi) suatu tes harus menjawab pertanyaan "sejauh mana butir-butir tes itu mencakup keseluruhan kawasan yang ingin diukur oleh tes tersebut". Sejauh mana suatu tes memiliki content validity ditetapkan menurut analisis rasional terhadap isi tes, yang penilaiannya didasarkan atas pertimbangan subyektif individual. Prosedur validasinya tidak melibatkan perhitungan statistik apapun. Terdapat dua macam tipe content validity, yaitu face validity dan logical validity.
Face Validity tercapai apabila pemeriksaan terhadap item-item tes memberi kesimpulan bahwa tes tersebut mengukur aspek yang relevan. Dasar penyimpulannya lebih banyak diletakkan pada common sense atau akal sehat.
Logical validity disebut juga sampling validity. Tipe validitas ini menuntut batasan yang seksama terhadap kawasan (domain) perilaku yang diukur dan suatu desain logis yang dapat mencakup bagian¬-bagian kawasan perilaku tersebut. Sejauh mana tipe validitas ini telah terpenuhi dapat dilihat dari cakupan butir-butir yang ada dalam tes. Apakah keseluruhan butir tersebut telah merupakan sampel yang representative bagi seluruh butir yang mungkin dibuat, ataukah butir tersebut berisi hal-hal yang kurang relevan dan meninggalkan hal-hal yang seharusnya menjadi isi tes.
2. Construct Validity
Construct validity (validitas konstruk) menunjukkan sejauh mana suatu tes mengukur konstruk teori yang menjadi dasar penyusunan tes itu. Pengukuran validitas konstruk merupakan proses yang terus berlanjut sejalan dengan perkembangan konsep mengenai trait (sifat) yang diukur. Diantara metode yang sering digunakan adalah metode multitrait-multimethod dan analisis faktor.
Campbell dan Fiske (1959) rnengembangkan satu pendekatan untuk menguji validitas konstruk yang disebut multitrait-multimethod. Validasi dengan multitrait-multimethod digunakan dengan menggunakan lebih dari satu macam metode untuk mengukur lebih dari satu macam trait. Suatu contoh perhitungan validitas dengan pendekatan ini dikemukakan oleh Alen dan Yen (Azwar, 2005) dengan mengandaikan adanya dua trait, yaitu sifat Introversi dan Neurotisme, yang masing-masing diungkap oleh dua macam metode, yaitu pertama metode jawaban ya-tidak (YT) dan kedua metode pilihan ganda (PG). Dalam contoh ini, terdapat 4 macam tes. Hasil pelaksanaan keempat macam tes tersebut pada sekelompok siswa yang sama kemudian dikorelasikan satu sama lain dan koefisien-koefisien korelasinya dimasukkan dalam suatu matriks validasi (perhatikan Tabel 10.1).
Tabel 10.1.
Matriks validasi dengan pendekatan multitrait-multimethod
Intoversi YT Neurotisme YT Introversi PG Neurotisme PG
Intoversi YT (0.80) 0.25 0.78 0.19
Neurotisme YT (0.85) 0.16 0.72
Introversi PG (0.87) 0.24
Neurotisme PG (0.92)

Pada matriks validasi Tabel 10.1 di atas, koefisien korelasi antara skor tes dengan dirinya sendiri tidak dicantumkan (r = 1), tetapi digantikan oleh koefisien reliabilitasnya. Sebagai contoh, koefisien reliabilitas atas skala introversi yang menggunakan metode YT adalah 0.8 dan dalam matriks diletakkan dalam tanda kurung. Dasar pemikiran dalam validasi dengan pendekatan ini adalah adanya validitas yang baik diperlihatkan oleh korelasi yang tinggi antara dua pengukuran terhadap trait yang sama oleh dua metode yang berbeda, atau korelasi yang rendah antara dua pengukuran terhadap trait yang berbeda walaupun menggunakan metode yang serupa. Pada Tabel 10.1, dapat juga dijelaskan bahwa skala-skala tersebut menunjukkan hasil ukur yang memiliki validitas konstruk yang baik. Perhatikan bahwa skala introversi YT dan skala introversi PG berkorelasi 0.78; skala neurotisme YT dan neurotisme PG berkorelasi sebesar 0.72.
Tampak juga pada Tabel 10.1, bahwa korelasi masing-masing skala yang mengukur trait yang berbeda, kesemuanya rendah. Dalam istilah validitas, skala-skala tersebut memperlihatkan adanya validitas konvergen dan validitas diskriminan. Validitas konvergen ditunjukkan oleh tingginya korelasi antara skor skala-skala yang mengukur trait yang sama. Sedangkan validitas diskriminan ditunjukkan rendahnya oleh korelasi antara skor skala-skala yang mengukur trait yang berbeda. Pada contoh tersebut, validitas konvergen dan daya beda (diskriminant validity) termasuk dalam kategori baik.
Prosedur analisis faktor yang dapat digunakan tergantung pada konstruk teori yang dibangun. Jika seorang pembuat instrumen (tes atau nontes) merasa konstruk teoritis yang dibangun sudah mapan, maka analisis faktor yang digunakan adalah analisis faktor konfirmatori, tujuannya untuk mengkonfirmasi apakah teori yang dibangun untuk menyusun instrumen tersebut sesuai dengan data empirik atau tidak. Analisis faktor konfirmatori pada buku ini tidak akan dijelaskan, cukup diketahui gambaran umumnya saja. Kemudian, jika pembuat instrumen merasa konstruk teoritisnya masih belum mapan, sehingga faktor-faktor yang membangun instrumen tersebut belum teridentifikasi dengan jelas, maka prosedur analisis faktor yang digunakan adalah analisis faktor eksploratori. Pembuktian validitas konstruk dilakukan dengan menggunakan analisis faktor eksploratori. Sehubungan dengan itu, analisis faktor eksploratori digunakan untuk mengungkap trait (sifat) atau konstruk teoritis yang hendak diukur. Dalam arti, untuk megetahui apakah butir-butir yang telah disusun mengukur faktor-faktor yang membangun instrumen tersebut. Field (2000), memberikan beberapa prosedur analisis faktor eksploratori khususnya dengan program aplikasi SPSS, yaitu:
a. metode yang digunakan untuk melakukan analisis faktor eksploratori adalah maximum likelihood.
b. metode rotasi yang digunakan adalah varimax
c. mengukur kesesuaian sampling dengan melihat KMO (Kaiser- Meyer-Olkin). Jika nilai KMO > 0,5, maka sampling yang digunakan dalam uji coba instrumen sesuai.
d. Bartlett's tes of sphericity, untuk mengukur apakah setiap butir berkorelasi rendah (menuju nol) dengan butir yang lainnya, dalam arti bahwa butir-butir yang disusun saling independen. Untuk keperluan ini, digunakan signifikansi a = 0.05 dan membandingkan dengan signifikansi hasil perhitungan (sig.). Jika nilai signifikansi a = 0.05 lebih besar dari nilai signifikansi hasil perhitungan, maka setiap butir memiliki korelasi yang rendah.
e. Melihat multikolinieritas. Jika determinan > 0,00001, maka butir-butir berkorelasi rendah (< 0,8). Itu berarti bahwa, butir- butir tersebut memiliki multikolinieritas yang rendah. Dalam arti butir-butir tersebut mengukur faktor yang berbeda.
f. Muatan faktor setelah extraction yang digunakan > 0,3. Jika nilai muatan faktor > 0,3, maka butir tersebut dapat digunakan untuk mengukur faktornya.
3. Criterion-related Validity
Criterion-related validity terbagi dalam dua kategori, yaitu validitas prediktif dan validitas kongkuren. Penjelasan masing-masing validitas tersebut dapat diketahui melalui uraian berikut.
a. Validitas Prediktif
Validasi tes berdasarkan kriteria, umumnya tes yang akan diuji validitasnya disebut prediktor. Statistik yang diperlukan untuk pengujian validitas ini adalah koefisien korelasi antara skor tes sebagai prediktor dan skor suatu kriteria. Mardapi (2004) mengatakan bahwa prosedur guna mencapai criterion-related validity menghendaki adanya kriteria eksternal yang dapat dihubungkan dengan skor tes yang diuji validitasnya. Kriteria dalam hal ini adalah variable perilaku yang akan diprediksi oleh skor tes. koefisien korelasi antara skor tes (X) dengan kriteria (Y) merupakan koefisien validitas yang menunjukkan kekuatan validitas prediktif suatu tes.
Bagaimana efek restriksi sebaran in terhadap koefisien validitas? Bila skor prediktor adalah X dan skor kriteria adalah Y, maka korelasi antara X dan Y adalah rxy yang merupakan koefisien validitas predikti I tes X. Hubungan antara rxy dan kesalahan standard estimasi (standar error of estimate) dilukiskan sebagai:

Keterangan :
Syx = kesalahan standard estimasi X terhadap Y, yaitu deviasi stan¬dard distribusi Y untuk harga X tertentu
sy = Deviasi standard skor kriteria Y (distribusi marginal)
Yxy = Koefisien korelasi antara prediktor X dan kriteria Y.
Dengan asumsi homoscedasticity, maka harga s2y akan mengecil akibat restriksi sistemmatis yang terjadi, sedangkan harga s2yx tidak terpengaruh. Karena itu komponen s2Y.x/s2Y akan membesar dan r2xY akan mengecil. Jadi koefisien validitas rXY menjadi rendah. Secara umum dapat dikatakan bahwa restriksi sebaran yang menjadikan variasi skor murni prediktor mengecil akan menghasilkan underestimasi terhadap koefisien validitas yang sesungguhnya. Tabel 10.2 di bawah, menyajikan contoh perhitungan validitas prediktif, tes A yang digunakan untuk seleksi dalam penerimaan operator komputer.
Tabel 10.2
Ilustrasi pengujian Validitas Prediktif
Nama subjek yang diterima Skor
Tes Masuk (X) Hasil rating asesor setelah bekerja (Y)
Ana 112 9
Ani 107 9
Anu 98 7
Ane 99 4
Bani 112 10
Banu 105 9
Bana 107 8
Bane 100 7
Buna 105 7
Bini 110 9
Korelasi antara skor tes A dengan skor kriteria, rxy =0.81

Tampak pada Tabel 10.2, besarnya korelasi antara skor masuk tes A (X) dengan skor rating asesor (Y) adalah rXY = 0.81. Ini menunjukkan bahwa tes A memiliki validitas prediktif yang baik. Selanjutnya, dapat dihitung kesalahan standar estimasi skor X terhadap skor Y, dengan terlebih dahulu menghitung standar deviasi skor kriteria, sY = 1.73. Subtitusikan nilai rXY dan s pada persamaanm sY.X = Sy - r2xY, maka diperoleh
sY.X = (1.73) Ail — (0.81)2
= 1.0145
Jadi kesalahan standar estimasi sebesar 1.0145. Angka ini menunjukkan bahwa kesalahan standar estimasi masih tergolong dapat ditolerir.
b. Validitas Konkuren
Pada dasarnya, dalam menyusun dan mengembangkan instrumen psikologi, pengujian validitas suatu instrumen dalam menjalankan fungsi ukurnya seingkali dapat dilakukan dengan melihat sejauhmana kesesuaian antara hasil ukur instrumen tersebut dengan hasil ukur instrumen lain yang sudah teruji kualitasnya atau dengan ukuran¬ukuran yang dianggap dapat menggambarkan aspek yang diukur tersebut secara reliabel. Dalam kasus seperti ini, instrumen yang telah teruji validitasnya atau ukuran yang dianggap tepat berlaku sebagai kriteria validasi.
Untuk memperjelas konsep perhitungan validitas kongkuren, misalnya kita ingin menguji validitas konkuren instrumen sikap terhadap mata pelajaran matematika yang disusun oleh lembaga tertentu (kita sebut tes X). Sebagai kriterianya, kita ambil instrumen sikap terhadap matematika (The Attitudes Toward Mathematics Inventory - ATMI) yang dikembangkan oleh McLeod (1992) yang telah teruji validitasnya (kita sebut tes Y). Kedua instrumen tersebut diujikan pada sekelompok siswa (misalnya 10 orang siswa), dengan skor masing-masing}; seperti pada tabel 10.4.
Tabel 10.4
Ilustrasi pengujian Validitas Konkuren
Nama subjek Skor Tes X Skor Tes Y
Asma 78 64
Asmi 76 62
Asmu 68 56
Rina 42 40
Rini 58 62
Rani 70 64
Rona 56 62
Siska 64 48
Budi 54 48
Bulkis 46 38
Korelasi antara skor tes X dengan skor tes Y, rxy = 0.86

Tampak pada tabel 10.4, hasil perhitungan atas data fiktif untuk kedua tes X dan tes Y, diperoleh korelasi antara tes X dan tes Y sebagai kriteria, yaitu rxY = 0.86. Angka 0.86 merupakan koefisien validitas tes X. Azwar (2004) menyatakan bahwa ada perbedaan antara validitas prediktif dengan validitas konkuren, yaitu pertama, waktu pengambilan data, pada validitas prediktif, data yang dijadikan sebagai kriteria diperoleh setelah tenggang waktu tertentu sedangkan data validasi konkuren diperoleh bersama dengan data prediktornya. Kedua, fungsi dari kriterianya, pada validasi prediktif, kriterianya merupakan variabel perilaku yang hendak diprediksikan oleh tes sedangkan pada validasi konkuren kriterianya merupakan ukuran kesesuaian fungsi ukur tes yang bersangkutan.
C. Pendekatan Internal Consistency dalam Validasi Butir
Telah kita ketahui bahwa, validitas prediktif dan konkuren, kriteria yang digunakan adalah skor tes atau skor pengukuran lain yang disebut kriteria eksternal. Dalam prosedur seleksi butir pada suatu tes prestasi, berbagai skala sikap dan tes kemampuan lain, umumnya butir-butir dipilih menurut daya diskriminasinya. Daya diskriminasi ini diperlihatkan oleh indeks atau koefisien yang dihitung menurut formula tertentu. Untuk menguji signifikasi daya beda ini, maka dapat digunakan formula
Dimana :
tt = Nilai t sebagai indeks diskriminasi butir ke-i.

XiA = Rata-rata distribusi skor kelompok "atas", yang biasanya diambil dari 25% subjek yang mempunyai skor total tertinggi, untuk butir ke-i.
XiA = Rata-rata skor subjek kelompok "bawah" untuk butir i. Varians skor subjek kelompok "atas" untuk butir i.
S2iA = Varians skor subjek kelompok "bawah" untuk butir i.
nA = Jumlah subjek kelompok "atas".
nB = Jumlah subjek kelompok "bawah".
Nilai ti yang diperoleh kemudian dibandingkan pada tabel nilai kritis t dengan derajat kebebasan (db) = nA + nB - 2. Kriteria suatu butir dikatakan baik jika nilai mutlak ti lebih besar dari nilai kritis t pada taraf sign ifikansi yang dipilih dengan derajat kebebabasan (db), artinya
Jika ti >ttabel maka butir i memiliki daya beda yang baik atau
Jika ti ≤ttabel maka butir i memiliki daya beda yang kurang baik.
Jika seandainya jumlah subjek pada masing-masing kelompok "atas" dan kelompok "bawah" lebih 25 orang, maka t, 1.75 dapat dianggap sebagai batas minimal indeks diskriminasi yang seharusnya (Mardapi, 2004).
Bila butir tes diberi skor dikotomi, yaitu 0 atau 1, maka teknik
korelasi yang digunakan adalah teknik korelasi point biserial (rpbis),
Xt-Xt√p
st q
X. Mean skor subjek yang mendapat nilai 1 pada butir i.
Xt = Mean skor seluruh subjek
st = Deviasi standar skor seluruh subjek.
p =Proporsi subjek yang mendapat nilai 1 pada butir. Bila N
adalah jumlah seluruh subjek, maka p adalah jumlah subjek yang mendapat skor 1 pada butir I dibagi oleh N.
q = 1-p
Kalau skor butir bukan dikotomi, tetapi dapat dianggap berskala interval, maka teknik korelasi product moment dapat digunakan. Untu k koreksi akibat terikutnya skor butir kedalam skor total, kemudian dilakukan koreksi yang disebut the correction of Gulir rohrl (orrelaliou .for spurious overlap (Guilford, 1956).
V62X F6~1-2rxix6r6x
Dimana :
rx1x =Koefisien korelasi antara butir dengan total atau antara
subtest dengan total
Q,i = Deviasi standar skor butir atau skor subtes
QX = Deviasi standar skor total
Koefisien korelasi antara butir dan skor total merupakan indeks validitas butir dalam arti kesesuaian butir dengan skor total dalam membedakan subjek yang mendapat skor tinggi dan yang mendapat skor rendah. Koefisien korelasi yang relatif tinggi tentu merupakan indikator kualitas butir yang diinginkan. Apalagi kalau sebagian besar butir dalam test mempunyai korelasi tinggi dengan skor total, hal demikian dapat pula dianggap sebagai homogenitas butir.

Tidak ada komentar:

Posting Komentar