BAGIAN 3 Β· MEMASAK PENILAIAN MODUL 3–1

Merancang
Instrumen
Penilaian

Tes pilihan ganda, uraian, biner β€” setiap jenis butir soal punya aturan desain tersendiri. Satu kesalahan kecil dalam penulisan soal bisa merusak validitas seluruh penilaian.

πŸ“— Gray ch.7 πŸ“˜ Popham ch.6 πŸ“˜ Popham ch.7
Β§ 1 Β· Gray ch.7 β€” Memilih Metode yang Tepat

Metode = Cara Mendapat Bukti

Gray menegaskan: metode penilaian harus dipilih berdasarkan jenis bukti yang dibutuhkan β€” bukan kebiasaan atau kemudahan guru. Pertanyaan kuncinya: "Bukti apa yang paling langsung membuktikan kemampuan siswa?"

🎯
Prinsip Gray: Jika kamu ingin menilai kemampuan membuat omelette β€” lihat langsung omelette-nya dibuat. Bukan minta siswa menulis tentang cara membuat omelette. Metode harus selaras langsung dengan bukti yang dibutuhkan.
Metode Paling Cocok Untuk Kelebihan Keterbatasan Contoh
Lisan Pengetahuan, komunikasi, bahasa Langsung, fleksibel, dapat menggali lebih dalam Tidak efisien untuk banyak siswa sekaligus Tanya-jawab kelas, diskusi terarah
Performa Keterampilan yang harus didemonstrasikan Bukti autentik, sesuai dengan kondisi nyata Sulit menilai secara konsisten, membutuhkan waktu Drama, olahraga, presentasi, simulasi
Praktis Keterampilan produksi dan eksperimen Bukti nyata dari kemampuan prosedural Tidak menguji pengetahuan konseptual yang mendasarinya Eksperimen sains, memasak, membuat benda
Proyek Penalaran mendalam, penelitian, analisis kasus Menilai proses berpikir kompleks Sulit dibandingkan antar-siswa, membutuhkan waktu panjang Riset, case study, laporan investigasi
Portofolio Perkembangan waktu, karya terbaik Gambaran holistik atas kemajuan siswa "Membandingkan apel dengan jeruk" jika isinya berbeda Kumpulan karya, refleksi, rekaman perkembangan
Tes & Ujian Pengetahuan, kognitif, efisiensi cakupan luas Efisien untuk banyak siswa, sampling luas, bisa distandarisasi Mendorong hafalan, tidak cocok untuk keterampilan praktis, bisa menimbulkan kecemasan Pilihan ganda, isian, esai tertulis
🌊

Mengumpulkan (Gather)

Bukti terjadi secara alami selama proses belajar dan kamu cukup mengamati + menilai. Efisien untuk formatif.

Observasi, pekerjaan kelas, diskusi spontan
atau
⚑

Membangkitkan (Generate)

Kamu butuh tugas penilaian khusus untuk memunculkan bukti yang tidak akan muncul secara alami.

Tes, ujian, proyek, tugas spesifik
Β§ 2 Β· Popham ch.6 β€” 5 Prinsip Umum Menulis Butir Soal

Lima Perintah yang Berlaku untuk Semua Jenis Soal

Popham menyebutnya "Thou shalt not" β€” lima hal yang wajib dihindari saat menulis soal apa pun. Melanggar satu saja dapat merusak validitas seluruh tes.

I
🚫

Jangan Beri Instruksi yang Tidak Jelas

Siswa tidak tahu cara menjawab β†’ nilai tidak mencerminkan kemampuan. Buat instruksi eksplisit β€” jangan asumsikan siswa tahu formatnya.

Contoh Buruk
"Jawab pertanyaan berikut." (Bagaimana? Panjang berapa? Dalam kotak mana?)
II
🌫️

Jangan Gunakan Kalimat Ambigu

Jika siswa bisa menafsirkan soal dengan cara yang berbeda-beda, jawaban mereka tidak bisa dibandingkan secara valid.

Contoh Buruk
"Pemimpin negara berkembang tidak mempercayai pemimpin negara maju karena sifat imperialis mereka." β€” Siapa "mereka"?
III
πŸ”

Jangan Beri Petunjuk Tidak Sengaja

Jawaban yang benar lebih panjang dari yang salah, penggunaan artikel "an" yang mengisyaratkan jawaban dimulai vokal β€” semua itu adalah clue yang tidak valid.

Contoh Buruk
"Burung dalam cerita itu adalah an..." β†’ Siswa langsung tahu jawaban dimulai huruf vokal!
IV
πŸ”€

Jangan Gunakan Sintaks yang Rumit

Soal dengan banyak anak kalimat bersarang mengukur kemampuan memproses bahasa, bukan konten yang ingin dinilai. Construct-irrelevant variance!

Contoh Buruk
Kalimat yang, dengan menyertakan banyak klausa relatif yang sebenarnya tidak perlu, membuat siswa bingung menentukan apa sebenarnya yang ditanyakan.
V
πŸ“š

Jangan Pakai Kosakata yang Terlalu Tinggi

Kosakata di atas level siswa mengukur penguasaan bahasa, bukan kompetensi yang ingin dinilai. "Simple wins."

Contoh Buruk
Popham: "Eschew obfuscative verbiage" β€” yaitu, gunakan kata-kata yang mudah dipahami siswa!
Β§ 3 Β· Empat Jenis Butir Soal Utama

Pilih Tools yang Tepat

β˜‘

Binary Choice (Biner)

Siswa memilih dari dua opsi: Benar/Salah, Ya/Tidak, Fakta/Opini. Cepat dijawab, tapi mudah ditebak (50% chance).

βœ… Kelebihan
Sangat efisien β€” banyak topik dalam waktu singkat
Mudah dibuat dan diskor
Bisa mengukur lebih dari sekadar hafalan jika dirancang dengan baik
⚠️ Kelemahan
50% peluang menebak β€” kurangi bobot jika digunakan sedikit
Rentan terhadap "blatant" items yang terlalu jelas
Sulit menguji penalaran kompleks
5 Panduan Menulis Butir Biner (Popham)
1
Frasa yang mendorong berpikir β€” jangan blatantly true/false. Buat siswa benar-benar berpikir sebelum menjawab, bukan hanya reaksi instan.
2
Minimalkan negasi β€” jangan masukkan "tidak" ke dalam pernyataan yang seharusnya benar. Ini membingungkan siswa dan mengukur kemampuan membaca teliti, bukan konten.
3
Satu konsep per butir β€” jangan gabungkan dua hal dalam satu pernyataan. Jika setengah benar setengah salah, siswa tidak tahu harus menjawab apa.
4
Proporsi B/S seimbang β€” jangan buat terlalu banyak "Benar" atau "Salah." Siswa akan menebak berdasarkan pola, bukan pengetahuan.
5
Panjang pernyataan seragam β€” jangan buat pernyataan Benar lebih panjang dari yang Salah. Itu petunjuk tidak sengaja!
βŠ™

Multiple Choice (Pilihan Ganda)

Mendominasi tes selama puluhan tahun. Bisa mengukur mulai dari hafalan hingga berpikir tingkat tinggi jika dirancang dengan baik.

πŸ”¬ Anatomi Butir Pilihan Ganda
Anatomi butir pilihan ganda: stem, alternatif, jawaban benar, dan distraktor Metode penilaian yang paling langsung untuk mengukur kemampuan berdansa adalah... A. Menulis esai tentang teknik-teknik tarian B. Tes pilihan ganda tentang sejarah tari β˜… C. Demonstrasi langsung di hadapan penilai D. Kuis benar/salah tentang jenis-jenis tari STEM DISTRAKTOR DISTRAKTOR JAWABAN DISTRAKTOR ALTERNATIF
βœ… Kelebihan
Bisa mengukur penalaran dan berpikir tingkat tinggi
Dapat membedakan level pemahaman dengan pilihan yang halus (best-answer)
Efisien dan mudah diskor secara konsisten
⚠️ Kelemahan
Siswa hanya mengidentifikasi, tidak menghasilkan jawaban
Mudah mengandung petunjuk tidak sengaja jika tidak hati-hati
Butuh waktu lebih lama untuk membuat distraktor yang baik
5 Panduan Menulis Butir Pilihan Ganda (Popham)
1
Stem harus self-contained β€” muat sebanyak mungkin konten di stem, bukan di alternatif. Stem yang berdiri sendiri β†’ alternatif singkat β†’ lebih mudah dibaca.
2
Hindari stem negatif β€” kata "bukan" atau "tidak" dalam stem membingungkan dan siswa sering melewatkannya. Jika terpaksa, beri cetak tebal/kapital.
3
Panjang alternatif seragam β€” jawaban benar yang lebih panjang dari distraktor adalah petunjuk gratis. Semua alternatif harus kira-kira sama panjangnya.
4
Acak posisi jawaban benar β€” jangan selalu letakkan jawaban benar di posisi C. Siswa pintar akan menyadari polanya.
5
Hindari "semua benar di atas" β€” tapi boleh pakai "tidak ada yang benar" untuk meningkatkan kesulitan. "Semua benar" mendorong tebakan dan tidak mendapat bukti valid.
✎

Short Answer (Isian Singkat)

Siswa memproduksi jawaban, bukan memilihnya. Keunggulan utama: menghindari efek tebakan β€” perlu tahu, bukan hanya mengenali.

βœ… Kelebihan
Siswa harus menghasilkan jawaban β€” tidak bisa menebak dengan mudah
Cocok untuk mengukur pengetahuan faktual dan konseptual tingkat menengah
Lebih mudah diskor daripada esai
⚠️ Kelemahan
Lebih sulit diskor secara konsisten dibanding pilihan ganda
Rentan terhadap "Swiss-cheese items" β€” terlalu banyak titik-titik
Tidak cocok untuk mengukur kemampuan analisis kompleks
5 Panduan Menulis Butir Isian Singkat (Popham)
1
Gunakan pertanyaan langsung (bukan pernyataan tidak lengkap), terutama untuk siswa muda. Pertanyaan langsung lebih familiar dan mengurangi ambiguitas.
2
Rancang untuk jawaban singkat β€” struktur soal agar jawaban yang tepat benar-benar pendek. Jika bisa ada banyak jawaban yang panjang, soalnya terlalu umum.
3
Posisikan titik-titik di akhir kalimat β€” untuk pernyataan tidak lengkap, jangan letakkan titik-titik di awal. Itu membingungkan siswa saat membaca kalimatnya.
4
Maksimal 1–2 titik-titik per soal β€” lebih dari 2 adalah "Swiss-cheese item." Terlalu banyak lubang membuat tidak jelas apa yang dicari.
5
Semua titik-titik sama panjang β€” jangan buat titik yang pendek untuk jawaban pendek dan panjang untuk jawaban panjang. Itu petunjuk tidak sengaja tentang panjang jawaban.
✍

Essay (Uraian)

Cocok untuk mengukur kemampuan sintesis, evaluasi, dan komposisi. Sulit dibuat dengan baik β€” dan lebih sulit lagi diskor dengan konsisten.

RESTRICTED RESPONSE

Uraian Terbatas

Panjang dan format jawaban dibatasi secara eksplisit. Lebih mudah diskor, tapi kurang cocok untuk menilai sintesis mendalam.

"Jelaskan 3 cara utama penyebaran HIV. Maksimal 25 kata untuk setiap cara."
β†’
EXTENDED RESPONSE

Uraian Bebas

Siswa punya banyak kebebasan dalam menjawab. Lebih valid untuk mengukur kemampuan analisis, argumen, dan sintesis yang kompleks.

"Identifikasi faktor utama defisit keuangan AS, evaluasi respons pemerintah, dan nilai kemungkinan berhasilnya solusi yang ada."
5 Panduan Membuat Butir Esai (Popham)
1
Jelaskan panjang jawaban yang diharapkan β€” siswa tidak tahu isi kepala guru. Sebutkan: paragraf berapa, kata maksimal berapa, atau restricted/extended.
2
Deskripsikan tugas secara eksplisit β€” prompt yang kabur seperti "Diskusikan demokrasi di Asia" menghasilkan jawaban yang tidak bisa dinilai secara konsisten. Jadikan tugas sangat spesifik.
3
Berikan informasi batas waktu dan bobot nilai β€” siswa tidak tahu soal mana yang perlu lebih banyak perhatian. Beritahu mereka secara eksplisit.
4
Jangan beri opsi soal β€” "pilih 3 dari 5 soal" berarti siswa mengerjakan ujian yang berbeda. Tidak bisa dibandingkan secara adil dan konsisten.
5
Preview jawaban yang akan diterima β€” sebelum menggunakan soal, bayangkan/tulis jawaban yang akan diberikan siswa. Ini mengidentifikasi kelemahan soal sebelum terlambat.
5 Panduan Menskor Jawaban Esai (Popham)
1
Holistik &/atau Analitik
Holistik = kesan keseluruhan (gestalt). Analitik = skor per kriteria. Analitik memberi umpan balik lebih spesifik tapi membutuhkan waktu lebih.
2
Buat kunci skoring sebelum menilai
Tentukan dulu kriteria dan standar nilainya. Jangan menyesuaikan kriteria setelah membaca jawaban siswa.
3
Putuskan peran mekanika penulisan
Apakah ejaan/tata bahasa masuk nilai? Putuskan sebelum menilai, bukan setelah. Jangan berubah-ubah.
4
Nilai semua jawaban satu soal sebelum lanjut
Jangan menilai satu siswa dari awal ke akhir. Nilai soal 1 semua siswa, baru soal 2 β€” ini meningkatkan konsistensi.
5
Nilai secara anonim jika memungkinkan
Pengetahuan tentang identitas siswa mempengaruhi penilaian. Tutup nama atau kode-kan jawaban sebelum menilai.
πŸ”¬ Aktivitas β€” Item Clinic

Diagnosa: Ada yang Salah dengan Soal Ini

Setiap butir soal berikut melanggar salah satu dari prinsip yang telah dipelajari. Baca, identifikasi masalahnya, lalu klik untuk melihat diagnosis.

Pasien A
True/False
"Fotosintesis, yang merupakan proses biokimia kompleks yang terjadi di dalam kloroplas dengan menggunakan energi cahaya untuk mengkonversi karbon dioksida dan air menjadi glukosa, tidak hanya dilakukan oleh tumbuhan."
Pasien B
Multiple Choice
"Mana yang bukan contoh dari penilaian formatif?
A. Kuis singkat di akhir pelajaran
B. Tanya jawab lisan selama diskusi
C. Ujian akhir semester yang dicatat di rapor
D. Refleksi singkat yang ditulis siswa"
Pasien C
Short Answer
"Setelah ________ ditemukan oleh ________, pada tahun ________, proses ________ mulai dipahami oleh para ________."
Pasien D
Multiple Choice
"Ibu kota Indonesia adalah...
A. Surabaya
B. Bandung
C. Jakarta, kota metropolitan terbesar di Asia Tenggara yang menjadi pusat pemerintahan, ekonomi, dan budaya Indonesia sejak kemerdekaan tahun 1945
D. Medan"
Β§ 4 Β· Perbandingan Cepat

Mana yang Harus Dipilih?

Kriteria Biner Pilihan Ganda Isian Singkat Esai
Efisiensi (banyak konten/waktu singkat) β˜…β˜…β˜…β˜…β˜…β˜…β˜…β˜…β˜…
Menghindari efek tebakan β˜…β˜…β˜…β˜…β˜…β˜…β˜…β˜…β˜…
Mengukur berpikir tingkat tinggi β˜…β˜…β˜…β˜…β˜…β˜…β˜…β˜…
Kemudahan menskor secara konsisten β˜…β˜…β˜…β˜…β˜…β˜…β˜…β˜…β˜…
Bukti kemampuan produktif (generate) β˜…β˜…β˜…β˜…β˜…β˜…β˜…
β˜…β˜…β˜… = Sangat Kuat  |  β˜…β˜… = Moderat  |  β˜… = Terbatas
Sebelum ke Modul 3-2

4 Hal yang Harus Kamu Bawa

🎯

Metode mengikuti bukti, bukan kebiasaan

Pilih metode berdasarkan jenis bukti yang paling langsung membuktikan kemampuan siswa β€” bukan karena itu yang selalu kamu lakukan.

πŸ“‹

5 Prinsip Umum berlaku untuk semua jenis soal

Tidak peduli soal apa yang kamu buat β€” instruksi jelas, tidak ambigu, tidak ada petunjuk tak sengaja, sintaks sederhana, kosakata sesuai level.

βš™οΈ

Setiap jenis soal punya guidelines khusus sendiri

Pilihan ganda β‰  esai β‰  isian singkat β‰  biner. Kuasai guideline spesifik setiap tipe sebelum menggunakannya.

πŸ”¬

Review soalmu sebelum digunakan

Masuk ke kepala siswa: apakah instruksinya jelas? Apakah ada clue tidak sengaja? Apakah sintaksnya sederhana? Pencegahan lebih mudah dari perbaikan.

Lanjut ke Modul 3-2 β€” Beragam Metode Pengumpulan Bukti β†’