Jak vytvořit efektivní test
Stránky: | POSTUDIUM - DEV portál |
Kurz: | Učitel na lékařské fakultě |
Kniha: | Jak vytvořit efektivní test |
Vytiskl(a): | Nepřihlášený host |
Datum: | pátek, 2. května 2025, 03.57 |
1. Jaké druhy otázek v medicíně používat?
Výsledky mnohých kognitivně psychologických studií prokázaly, že použití "klasických" otázek s výběrem odpovědí (multiple-choice, multiple true/false) není při výuce ve zdravotnických oborech efektivní. Netestují znalosti a dovednosti, které testovat chceme. Často byly otázky buď nejednoznačné nebo procesem postupného "vylepšování" a zjednoznačnění se z nich styl otázky primitivní.
Nejlépe splní náš účel Single Best Answer (SBA) a Enhanced Matching Question (EMQ) otázky.
SBA
Otázku tvoří delší úvod do situace, typicky stručná kazuistika nebo popis kontextu, anamnézy, fyzikálního vyšetření, prodělaných vyšetření apod. Za úvodem následuje vlastní jasná otázka a obvykle 4 možnosti odpovědí, z nichž jedna je jednoznačně nejlepší.
Ukázka
EMQ
Je to stejná otázka jako SBA jen koncovka je jiná - místo několika možností na výběr se přiřazuje k možnostem nalevo jedna z vybíraných možností napravo.
Ukázka
2. Pravidla dobré testové otázky
Otázka
- Zkouší podstatnou znalost
- Zkouší aplikaci znalostí, nikoli jen vybavení izolovaných údajů
- Odpovídá požadované úrovni znalostí
- Zadání je jasně formulované
- Zadání neobsahuje "chytáky" (např. dvojí zápor)
- Je možné správně odpovědět se zakrytými možnostmi
- Nemá podobu "které tvrzení není správné" nebo " všechna tvrzení jsou správná kromě"
- Neobsahuje slova "vždy", "obvykle", zřídka", "nikdy" apod.
Odpovědi
- Nesprávné odpovědi jsou homogenní
- = jsou ze stejné logické množiny (např. když 3 odpovědi se pohybují okolo tématu "příznaky peritonitidy" a 4. nabízí možnost "diplopie", není tato možnost homogenní)
- Formulace možností nenapovídá správnou odpověď
- Žádná možnost není nepřiměřeně obtížná
- Právě jedna z nabídnutých možností je nejlepší (u SBA otázek)
- Nabídnuté možnosti nejsou seřazené abecedně či v jiném "logickém" pořadí
- Možnosti mají podobnou délku a obsah
- Možnosti jsou kompatibilní s otázkou
3. Další zajímavé druhy otázek
Velmi krátká odpověď
Klinický medailonek (kazuistický úvod) zůstává stejný jako u otázek s jednou správnou odpovědí (viz tam). Avšak student odpovídá volně tvořenou (a velmi krátkou) odpovědí - obvykle jen jedno nebo dvě slova, výjimečně celá věta. Tento typ otázek je blíže klinické realitě (nad pacientem také nejsou napsané možnosti na výběr). Mezi nevýhody patří:
- obtížné nastavení úrovně otázky - bez ohraničení možnostmi na výběr může být odpověď pro studenta příliš těžká
- obtížnější hodnocení - obvykle je správná celá řada různých variant odpovědí, které je nutné prospektivně sbírat a postupně zařazovat do seznamu uznávaných správných odpovědí. Obvykle je nutné část odpovědí hodnotit ručně.
Přiřazovací (Matching)
K možnostem na levé straně přiřazujete z výběru odpovědí na pravé straně. V kombinaci s delším úvodem do kontextu v zadání otázky nazýváme EMQ.
Doplňovací (cloze), Vyber chybějící slova
V souvislém textu student doplňuje pole s výběrem odpovědí nebo volný text (číslo). Nevýhodou cloze je hůře zapamatovatelná syntaxe psaní otázek. U otázky typu Vyber chybějící slova je rozhraní pro zadávání o něco jednodušší, ale nelze zadávat volný text (čísla).
Ukázka
Přesunout do obrázku, Přesunout do textu
Na určená místa v podkladovém obrázku přesouváte popisky (text) ev. i další obrázek. Varianta přesunout do textu má místo podkladového obrázku jen text. Hodí se k identifikaci něčeho na obrázku, označení místa ve schématu, seřazení dle správného pořadí ...
Ukázka
Vypočítaná úloha
Speciální úloha, kde se testuje znalost nějakého výpočtu. Jednotlivá čísla, která se do výpočtu dosazují se generují z předem nadefinovaných sad možností. Ty se vytvářejí automaticky podle zadaného rozmezí a rozložení.
4. Cyklus tvorby testu
Než se pustíme do tvorby otázek, je nutné ujasnit si plán testu, resp. celý plán výuky. Jaké znalosti/dovednosti chceme testovat? Do jaké hloubky (na jaké úrovni)? Bude test sloužit k výuce (zopakování látky, poskytnutí zpětné vazby studentům) nebo je hlavním účelem studenta oznámkovat (zkouškový test)?
Proto je nutné před započetím tvorby otázek mít dobře nadefinované výsledky učení (cíle výuky) - viz tam.
Cyklus tvorby testu shrnuje následující obrázek: nejprve otázky vytvoříme, pak je necháme zrecenzovat (kolegové, studenti), sestavíme test podle plánu a výsledky testů podrobíme položkové analýze, abychom zjistili, jestli otázky fungují tak, jak jsme předpokládali. Pokud ne, upravíme je nebo vyřadíme/nahradíme. Metody, jak určit cut-off (rozhodovací mez) testu probereme v následující kapitole.
5. Určení cut-off (rozhodovací meze) testu
Jde o postup, kdy se objektivně snažíme nadefinovat, kde bude hranice mezi úspěšným a neúspěšným absolvováním testu. U nás převažuje intuitivní nebo "zvykový" (mez odhadneme dle našich zkušeností nebo nastavíme dle zvyklostí na příslušném pracovišti) přístup. Doporučuje se objektivní způsob alespoň jednou vyzkoušet. Existují 2 základní objektivní metody:
Angoffova metoda
Sestavíme skupinu několika expertů příslušného oboru (obvykle vyučující) a požádáme je o expertní odhad pravděpodobnosti správného zodpovězení každé otázky v testu minimálně kompetentním studentem. Minimálně kompetentního studenta si představíme jako studenta, který by ještě (s "odřenýma ušima" ) prošel.
Pravděpodobnost uhodnutí je u otázky ano/ne 50 %, u otázky se 4 odpověďmi 25 % apod. Představme si, že máme 3 experty, kteří hodnotí pravděpodobnost správné odpovědi minimálně kompetentním studentem:
Otázka | Expert 1 | Expert 2 | Expert 3 | Průměr |
---|---|---|---|---|
1 | 0,58 | 0,62 | 0,65 | 0,62 |
2 | 0,71 | 0,75 | 0,69 | 0,72 |
3 | 0,80 | 0,70 | 0,70 | 0,73 |
... | ... | ... | ... | |
Průměr | 0,69 tedy 69 % |
Rozhodovací mez dle Cohenové
Zde potřebujeme výsledky pilotního testování - test předložíme cílové skupině a až na základě výsledků se rozhodneme, jaké bude skóre pro úspěšné absolvování. Používáme následující vztah:
rozhodovací mez = 0,6 * (skóre dosažené na 95. percentilu mínus skóre, kterého lze dosáhnout tipováním) + skóre, kterého lze dosáhnout tipováním
Jinými slovy: projdou ti studenti, kteří budou mít alespoň 60 % bodů nejlepších studentů. Nevýhodou je relativní nastavení vzhledem k výkonu studentů v pilotní skupině.
6. Analýza testu
Moodle má jednoduché možnosti, jak analyzovat odpovědi studentů na otázky v testu a zjistit tak, jak kvalitní otázky jsou a jak funguje test jako celek. Můžete tak snadno odhaliti chyby v testu (např. označení špatné odpovědi jako správné nebo přiřazení špatného bodování nebo špatně formulovaná otázka apod.) Doporučujeme používat následující 4 statistiky:
Statistiky kvality celého testu
Koeficient vnitřní konzistence (Kronbachovo alfa)
Vypovídá o tom, jak moc všechny otázky testu směřují k jednomu cíli. Pokud je hodnota nízká, test není vnitřně konzistentní a část otázek testuje nějaký jiný okruh než zbytek otázek. Čím vyšší hodnota, tím lépe.Hodnocení není pevně dané, obvykle můžeme považovat hodnoty:
- pod 50 % za nepřijatelné
- > 70 % za použitelné
- > 90 % za excelentní
Směrodatná chyba
Jde o rozptyl, se kterým musíme počítat u každého přiděleného skóre z testu. Dostane-li student 60 % z testu a směrodatná chyba je 5 %, jeho reálné skóre se pohybuje mezi 55 a 65 %. S nárůstem směrodatné chyby stoupá nespolehlivost výsledku z testu.
Statistiky kvality otázky
Snadnost (Facility index)
Vyjadřuje, kolik procent studentů zodpovědělo otázku správně. Nízké hodnoty svědčí pro nepřiměřenou obtížnost, vysoké hodnoty mohou značit "vynesení" otázky či přílišnou snadnost.
Diskriminační index
Vyjadřuje korelaci mezi výsledkem příslušné otázky a celkovým výsledkem z testu u konkrétního studenta. Pokud je tedy diskriminační index nízký, špatně rozlišuje mezi špatnými a dobrými studenty. Několik příkladů:
- záporný diskriminační index = zcela špatná otázka, je nutná revize
- diskriminační index 0 nerozlišuje mezi dobrými a špatnými studenty
- diskriminační index < 0,2 = zvažte revizi otázky
Hodnotíme oba parametry dohromady - např. je-li otázka velmi snadná a ještě nerozlišuje mezi dobrými a špatnými studenty, nemá v testu co dělat. Pokud je však snadná a dobře rozlišuje, může být přínosná. Podobně těžká a nerozlišující otázka je k ničemu.
7. Testování praktických dovedností
Písemné testování nedokáže postihnout všechny aspekty hodnocení znalostí a zejména dovedností při studiu medicíny. Pro testování praktických dovedností bylo vyvinuto několik široce používaných systémů.
OSCE (Objective Structured Clinical Examination)
Mini-CEX (Mini-Clinical Evaluation Exercise)
DOPS (Direct Observation of Procedural Skills)
- rozuměl tomu, co dělá
- získal informovaný souhlas
- demonstroval – přípravu; vědomí kontextu/situace; technickou schopnost; aseptičnost, vyhledání pomoci, když je potřeba; komunikace, profesionalismus
- + volný formativní komentář
One-minute perceptor (OMP)
- poslouchá, jen si zapisuje poznámky (nepřerušuje, nesměřuje …)
- z něj dostane názor na diagnózu, léčbu …
- vyžádá si podpůrné důkazy (proč k takovému závěru dospěl, co zvažoval)
- řekne obecný závěr, poučení
- řekne, co student udělal dobře
- opraví, co udělal špatně