Penilaian terhadap butir soal intinya merupakan analisis butir soal, dan selama ini pada umumnya para andal pengukuran menyampaikan bahwa analisis butir soal maksudnya yakni evaluasi terhadap soal. Telah diketahui bersama bahwa penyusunan tes sangat mempengaruhi kualitas butir soal. Analisis butir soal meliputi telaah soal atau analisis kualitatif dan analisis terhadap data empirik hasil ujicoba atau analisis kuantitatif. Analisis Karakteristik Soal yakni analisis wacana karakteristik yang terdiri atas aspek tingkat kesukaran (P) dan aspek daya beda soal (DB).
Analisis butir soal secara kualitatif menekankan evaluasi dari ketiga segi yaitu materi, konstruksi, dan bahasa. Namun demikian dalam pembahasan ini dikhususkan untuk menjelaskan analisis butir soal secara kuantitatif. Analisis ini dilakukan berdasarkan data yang diperoleh secara empiris melalui ujicoba dari suatu perangkat tes. Analisis kuantitatif sering disebut dengan analisis item yang menghasilkan karakteristik atau parameter butir dan tes, yaitu: tingkat kesukaran, daya beda dan distribusi tanggapan dan kunci setiap butir, serta reliabilitas dan kesalahan pengukuran (SEM) dalam tes.
Menurut Asmawi Zainul, dkk (1997) tingkat kesukaran butir soal yakni proporsi penerima tes menjawab benar terhadap butir soal tersebut. Tingkat kesukaran butir soal biasanya dilambangkan dengan p. Makin besar nilai p yang berarti makin besar proporsi yang menjawab benar terhadap butir soal tersebut, makin rendah tingkat kesukaran butir soal itu. Hal ini mengandung arti bahwa soal itu makin mudah, demikian pula sebaliknya.
Pada analisis butir soal secara klasikal, menyerupai yang dijelaskan oleh Depdikbud (1997) tingkat kesukaran sanggup diperoleh dengan beberapa cara antara lain : a). skala kesukaran linier; b). skala bivariat; c). indeks davis; d). proporsi menjawab benar.
Cara yang paling umum digunakan yakni proporsi menjawab benar atau proportion correct, yaitu jumlah penerima tes yang menjawab benar pada soal yang dianalisis dibandingkan dengan penerima tes seluruhnya. Dalam analisis item ini digunakan proportion correct (p), untuk menilai tingkat kesukaran butir soal. Besarnya tingkat kesukaran berkisar antara 0,00 hingga 1,00. Untuk sederhananya, tingkat kesukaran butir dan perangkat soal sanggup dibagi menjadi tiga kelompok, yaitu mudah, sedang dan sukar. Sebagai patokan berdasarkan sanggup digunakan tabel sebagai berikut:
Tingkat Kesukaran | Rentang Nilai |
---|---|
Sukar | 0,00 – 0,25 |
Sedang | 0,26 – 0,75 |
Mudah | 0,76 – 1,00 |
Untuk menyusun suatu naskah ujian sebaiknya digunakan butir soal yang mempunyai tingkat kesukaran berimbang, yaitu : soal berkategori sukar sebanyak 25%, kategori sedang 50% dan kategori gampang 25%.
Dalam penggunaan butir soal dengan komposisi menyerupai di atas, maka sanggup diterapkan evaluasi berdasar teladan norma atau teladan patokan. Bila komposisi butir soal dalam suatu naskah ujian tidak berimbang, maka penggunaan evaluasi teladan norma tidaklah tepat, alasannya isu kemampuan yang dihasilkan tidaklah akan berdistribusi normal.
Walaupun demikian ada yang beropini bahwa soal-soal yang dianggap baik yakni soal-soal yang sedang, yaitu soal-soal yang mempunyai indeks kesukaran berkisar antara 0,26 – 0,75. Berbagai kriteria tersebut mempunyai kecenderungan bahwa butir soal yang mempunyai indeks kesukaran kurang dari 0,25 dan lebih dari 0,75 sebaiknya dihindari atau tidak digunakan, alasannya butir soal yang demikian terlalu sukar atau terlalu mudah, sehingga kurang mencerminkan alat ukur yang baik.
Contoh Analisis Tingkat Kesukaran Soal
Rumus Tingkat Kesukaran :
Berikut ini contoh analisis tingkat kesukaran soal dari hasil ulangan siswa yang berjumlah 20 orang siswa dengan jumlah soal 10 butir soal
Rumus Tingkat Kesukaran :
Tingkat kesukaran (P) = | Jumlah Peserta test yang menjawab benar |
Jumlah penerima test |
Berikut ini contoh analisis tingkat kesukaran soal dari hasil ulangan siswa yang berjumlah 20 orang siswa dengan jumlah soal 10 butir soal
Air Panas akan bertahan panas bila disimpan dalam baskom yang dilapisi dengan …. A. Kain B. Seng C. Keramik D. Tembaga * Keterangan :* kunci tanggapan | ||||
Kelompok Pilihan | A | B | C | D* |
---|---|---|---|---|
Kelompok Atas (KA) | 1 | 4 | 0 | 5 |
Kelompok Bawah (KB) | 6 | 2 | 2 | 0 |
Jumlah (J) | 7 | 6 | 2 | 5 |
Hasil analisis Tingkat Kesukaran
P = | 5 | = 0,25 |
20 |
2. Daya Beda
Daya beda butir soal ialah indeks yang menyampaikan tingkat kemampuan butir soal membedakan kelompok yang berprestasi tinggi (kelompok atas) dari kelompok yang berprstasi rendah (kelompok bawah) diantara para penerima tes (Asmawi Zainul, dkk : 1997). Suryabrata (1999) menyatakan tujuan pokok mencari daya beda yakni untuk menentukan apakah butir soal tersebut mempunyai kemampuan membedakan kelompok dalam aspek yang diukur, sesuai dengan perbedaan yang ada pada kelompok itu.
Daya beda butir soal yang sering digunakan dalam tes hasil berguru yakni dengan memakai indeks hubungan antara skor butir dengan skor totalnya. Daya beda dengan cara ini sering disebut validitas internal, alasannya nilai hubungan diperoleh dari dalam tes itu sendiri. Daya beda sanggup dilihat dari besarnya koefisien hubungan biserial maupun koefesien hubungan point biserial.
Dalam analisis ini digunakan nilai koefisien hubungan biserial untuk menentukan daya beda butir soal. Koefisien hubungan biserial menyampaikan hubungan antara dua skor, yaitu skor butir soal dan skor keseluruhan dari penerima tes yang sama.
Koefisien daya beda berkisar antara –1,00 hingga dengan +1,00. Daya beda +1,00 berarti bahwa semua anggota kelompok atas menjawab benar terhadap butir soal itu, sedangkan kelompok bawah seluruhnya menjawab salah terhadap butir soal itu. Sebaliknya daya beda –1,00 berarti bahwa semua anggota kelompok atas menjawab salah butir soal itu, sedangkan kelompok bawah seluruhnya menjawab benar terhadap soal itu.
Daya beda yang dianggap masih memadahi untuk sebutir soal ialah apabila sama atau lebih besar dari +0,30. Bila lebih kecil dari itu, maka butir soal tersebut dianggap kurang bisa membedakan penerima tes yang mempersiapkan diri dalam menghadapi tes dari penerima yang tidak mempersiapkan diri. Bahkan bila daya beda itu menjadi negatif, maka butir soal itu sama sekali tidak sanggup digunakan sebagai alat ukur prestasi belajar. Oleh alasannya itu butir soal tersebut harus dikeluarkan dari perangkat soal. Makin tinggi daya beda suatu butir soal, maka makin baik butir soal tersebut, dan sebaliknya makin rendah daya bedanya, maka butir soal itu dianggap tidak baik (Asmawi Zainul, dkk : 1997).
Menurut Dali S Naga (1992) kriteria besarnya koefesien daya beda diklasifikasikan menjadi empat kategori. Secara lebih rinci dijelaskan dalam tabel di bawah ini
Kategori Daya Beda | Koefisien Korelasi |
---|---|
Baik | 0,40 – 1,00 |
Sedang (tidak perlu revisi) | 0,30 – 0,39 |
Perlu direvisi | 0,20 – 0,29 |
Tidak baik | -1,00 – 0,19 |
Contoh Analisis Daya Beda :
Rumus : Daya Beda (DB) = (KA – KB)/0.5 x J
Keterangan :
DB:Daya Beda
KA: jumlah penerima dalam kelompok atas
KB: jumlah penerima dalam kelompok bawah
J: jumlah seluruh peserta
Air Panas akan bertahan panas bila disimpan dalam baskom yang dilapisi dengan …. A. Kain B. Seng C. Keramik D. Tembaga * Keterangan :* kunci tanggapan | |||||
Kelompok Pilihan | A | B | C | D | Jumlah |
---|---|---|---|---|---|
Kelompok Atas (KA) | 1 | 4 | 0 | 5 | 10 |
Kelompok Bawah (KB) | 6 | 2 | 2 | 0 | 10 |
Jumlah (J) | 7 | 6 | 2 | 5 | 20 |
P=(KA+KB):Σ J | 0,35 | 0,30 | 0,10 | 0,25 | 1,00 |
DB = (KA-KB):0,5. Σ J | -0,50 | 0,20 | -0,20 | 0,50 | 0,00 |
Untuk memudahkan kita gunakan daya beda pengecoh A dengan akronim DBA, daya beda pengecoh B dengan akronim DBB, dan untuk pengecoh C dengan DBC. Untuk mengetahui keberfungsian pengecoh kita perlu menghitung daya beda setiap pengecoh.
DBA = (KA – KB)/0.5 x J
= (1 – 6)/ 0.5 x 20
= -5/10 = -0.50
DBB = (KA – KB)/0.5 x J
= (4 – 2)/ 0.5 x 20
= 2/10 = 0.20
DBC = (KA – KB)/0.5 x J
= (0 – 2)/ 0.5 x 20
= -2/10 = -0.20.
Dari nilai DBA = -0.50, sanggup disimpulkan bahwa tanda negatif di depan angka 0.50 berarti lebih banyak siswa pintar yang terkecoh. Angka 0.50 menyampaikan kinerja pengecoh belum cukup baik alasannya masih agak jauh dari nilai minimun untuk kategori DB yang baik atau sanggup diterima yaitu 0,25.
DBB = 0.20, sanggup kita simpulkan bahwa siswa yang kurang berguru (kelompok bawah) lebih banyak yang terkecoh. Angka 0.20 menyampaikan pengecoh berfungsi dengan cukup efektif (karena bersahabat dengan angka 0.25, yaitu DB minimum yang sanggup diterima atau dikatakan sebagai baik).
Dari nilai DBC = -0.20, kita bisa menyimpulkan bahwa justru banyak siswa pintar yang terkecoh yang ditunjukkan dari tanda negatif. Angka 0.20 mendekati angka minimum untuk mengkategorikan DB yang sanggup diterima. Oleh alasannya ada tanda negatif, sekalipun angkanya 0,20 pilihan tanggapan ini harus dipertimbangkan untuk direvisi.
DBD=(KA-KB) : 0,5 x J
DBD = (5-0) : 0,5 x 20
DBD = 0,5
DB ideal yakni 0,25 hingga 1,00. Makara Hasil yang diperoleh ( 0,50) sudah masuk ideal
3. Distribusi Jawaban (Distraktor)
Dilihat dari konstruksi butir soal terdiri dari dua bagian, yaitu pokok soal dan alternatif jawaban. Alternatif tanggapan jawaban juga terdiri dari dua bagian, yaitu kunci tanggapan dan pengecoh. Pengecoh dikatakan berfungsi apabila semakin rendah tingkat kemampuan penerima tes semakin banyak menentukan pengecoh, atau makin tinggi tingkat kemampuan penerima tes akan semakin sedikit menentukan pengecoh.
Hal demikian sanggup ditunjukkan dengan adanya hubungan yang tinggi, rendah atau negatif pada hasil analisis. Apabila proporsi penerima tes yang menjawab dengan salah atau menentukan pengecoh kurang dari 0,025 maka pengecoh tersebut harus direvisi. Dan untuk pengecoh yang ditolak apabila tidak ada yang menentukan atau proporsinya 0,00 (Depdikbud : 1997).
Proporsi alternatif tanggapan masing-masing butir soal sanggup dilihat pada kolom proportion endorsing pada hasil analisis iteman.
Selain memperhatikan fungsi daya tarik untuk dipilih oleh penerima tes, pengecoh soal juga perlu memperhatikan daya beda (koefisien korelasi) yang ditunjukkan oleh masing-masing alternatif jawaban. Setiap pengecoh diperlukan mempunyai daya beda negatif, artinya suatu pengecoh diperlukan lebih sedikit dipilih oleh kelompok tinggi dibandingkan dengan kelompok bawah. Atau daya beda pengecoh tidak lebih besar dari daya beda kunci tanggapan setiap butir soal.
Menurut Depdikbud (1997) untuk menilai pengecoh (distraktor) dari masingmasing butir soal sanggup dikategorikan sebagai berikut:
Kategori Distraktor | Nilai Proportion Endorsing |
---|---|
Baik | ≥ 0,025 |
Revisi | < 0,025 |
Tidak Baik / Tolak | 0,000 |
Kriteria Kualitas Butir Soal
Berdasarkan uraian di atas, berdasarkan pandangan teori tes klasik secara empiris mutu butir soal ditentukan oleh statistik butir soal yang meliputi : tingkat kesukaran, daya beda dan efektifitas distraktor. Menurut statistik butir, kualitas butir soal secara keseluruhan sanggup dikategorikan sebagai berikut :
Kategori | Kriteria Penilaian |
---|---|
Baik | Apabila (1). Tingkat kesukaran 0,25 ≤ p ≤ 0,75, (2). Korelasi biserial butir soal ≥ 0,40 dan (3). Korelasi biserial alternatif tanggapan (distraktor) bernilai negatif. |
Revisi | Apabila (1). Tingkat kesukaran p < 0,25 atau p > 0,75 tetapi hubungan biserial butir ≥ 0,40 dan hubungan biserial distraktor bernilai negatif, (2). Tingkat kesukaran 0,25 ≤ p ≤ 0,75 dan hubungan biserial butir soal ≥ 0,40 tetapi ada hubungan biserial pada distraktor yang bernilai positif, (3). Tingkat kesukaran 0,25 ≤ p ≤ 0,75 dan hubungan biserial butir soal antara 0,20 hingga 0,30 tetapi hubungan distraktor bernilai negatif selain kunci atau tidak ada yang lebih besar nilainya dari kunci jawaban. |
Tidak Baik / Tolak | Apabila (1). Tingkat kesukaran p < 0,25 atau p > 0,75 dan ada hubungan biserial pada distraktor bernilai positif, (2). Korelasi biserial butir soal < 0,20, (3). Korelasi biserial butir soal < 0,30 dan hubungan biserial distraktor bernilai positif. |
Reliabilitas
Reliabilitas yakni suatu hal yang sangat penting pada alat pengukuran standar. Reliabilitas dihubungkan dengan pengertian adanya ketepatan tes dalam pengukurannya. Reliabilitas yakni kestabilan skor yang diperoleh penerima tes yang sama saat diuji ulang dengan tes yang sama pada situasi yang berbeda atau dari suatu pengukuran ke pengukuran lainnya. Dengan kata lain reliabilitas merupakan tingkat konsistensi atau kemantapan hasil terhadap hasil dua pengukuran hal yang sama. Dapat juga diartikan sebagai tingkat kepercayaan dari suatu alat ukur (Depdikbud : 1997).
Hasil pengukuran diperlukan akan sama apabila pengukuran itu diulangi. Dengan perangkat tes yang reliabel, apabila tes itu diberikan dua kali pada penerima yang sama tetapi dalam selang waktu yang berbeda sepanjang tidak ada perubahan dalam kemampuan maka skor yang diperoleh akan konstan. Kriteria untuk menentukan tinggi rendahnya reliabilitas sebuah perangkat tes, berdasarkan (Suharsimi Arikunto : 2001) dilihat pada rentangan koefesien hubungan sebagai berikut :
Kategori Reliabilitas Tes | Nilai Koefesien Korelasi |
---|---|
Sangat Tinggi | 0,800 – 1,000 |
Tinggi | 0,600 – 0,799 |
Cukup | 0,400 – 0,599 |
Rendah | 0,200 – 0,399 |
Sangat Rendah | 0,000 – 0,199 |
Perencanaan dalam pengujian sangat penting alasannya tes gres akan berarti bila terdiri dari butir-butir soal yang menguji tujuan yang penting dan mewakili ranah pengetahuan, kemampuan dan keterampilan secara representatif. Ada enam hal yang perlu dipertimbangkan dalam perencanaan tes yaitu: pengambilan sampel dan pemilihan butir soal, tipe tes yang akan digunakan, aspek yang akan diuji, format butir soal, jumlah butir soal dan distribusi tingkat kesukaran butir soal
Analisis Karakteristik Soal
Reviewed by dannz
on
3:49 PM
Rating: