Jak vytvořit efektivní test

Stránky: POSTUDIUM - DEV portál
Kurz: Učitel na lékařské fakultě
Kniha: Jak vytvořit efektivní test
Vytiskl(a): Nepřihlášený host
Datum: pátek, 2. května 2025, 03.57

1. Jaké druhy otázek v medicíně používat?

Výsledky mnohých kognitivně psychologických studií prokázaly, že použití "klasických" otázek s výběrem odpovědí (multiple-choice, multiple true/false) není při výuce ve zdravotnických oborech efektivní. Netestují znalosti a dovednosti, které testovat chceme. Často byly otázky buď nejednoznačné nebo procesem postupného "vylepšování" a zjednoznačnění se z nich styl otázky primitivní.

Nejlépe splní náš účel Single Best Answer (SBA) a Enhanced Matching Question (EMQ) otázky. 

SBA

Otázku tvoří delší úvod do situace, typicky stručná kazuistika nebo popis kontextu, anamnézy, fyzikálního vyšetření, prodělaných vyšetření apod. Za úvodem následuje vlastní jasná otázka a obvykle 4 možnosti odpovědí, z nichž jedna je jednoznačně nejlepší. 

Ukázka

SBA ukázka

EMQ

Je to stejná otázka jako SBA jen koncovka je jiná - místo několika možností na výběr se přiřazuje k možnostem nalevo jedna z vybíraných možností napravo.

Ukázka

EMQ ukázka

2. Pravidla dobré testové otázky

Otázka

  • Zkouší podstatnou znalost
  • Zkouší aplikaci znalostí, nikoli jen vybavení izolovaných údajů
  • Odpovídá požadované úrovni znalostí 
  • Zadání je jasně formulované
  • Zadání neobsahuje "chytáky" (např. dvojí zápor)
  • Je možné správně odpovědět se zakrytými možnostmi
  • Nemá podobu "které tvrzení není správné" nebo " všechna tvrzení jsou správná kromě"
  • Neobsahuje slova "vždy", "obvykle", zřídka", "nikdy" apod.

Odpovědi

  • Nesprávné odpovědi jsou homogenní
    • = jsou ze stejné logické množiny (např. když 3 odpovědi se pohybují okolo tématu "příznaky peritonitidy" a 4. nabízí možnost "diplopie", není tato možnost homogenní)
  • Formulace možností nenapovídá správnou odpověď
  • Žádná možnost není nepřiměřeně obtížná
  • Právě jedna z nabídnutých možností je nejlepší (u SBA otázek)
  • Nabídnuté možnosti nejsou seřazené abecedně či v jiném "logickém" pořadí
  • Možnosti mají podobnou délku a obsah
  • Možnosti jsou kompatibilní s otázkou

3. Další zajímavé druhy otázek

Velmi krátká odpověď

Klinický medailonek (kazuistický úvod) zůstává stejný jako u otázek s jednou správnou odpovědí (viz tam). Avšak student odpovídá volně tvořenou (a velmi krátkou) odpovědí - obvykle jen jedno nebo dvě slova, výjimečně celá věta. Tento typ otázek je blíže klinické realitě (nad pacientem také nejsou napsané možnosti na výběr). Mezi nevýhody patří:

  • obtížné nastavení úrovně otázky - bez ohraničení možnostmi na výběr může být odpověď pro studenta příliš těžká
  • obtížnější hodnocení - obvykle je správná celá řada různých variant odpovědí, které je nutné prospektivně sbírat a postupně zařazovat do seznamu uznávaných správných odpovědí. Obvykle je nutné část odpovědí hodnotit ručně.

Přiřazovací (Matching)

K možnostem na levé straně přiřazujete z výběru odpovědí na pravé straně. V kombinaci s delším úvodem do kontextu v zadání otázky nazýváme EMQ.

Matching ukázka

Doplňovací (cloze), Vyber chybějící slova

V souvislém textu student doplňuje pole s výběrem odpovědí nebo volný text (číslo). Nevýhodou cloze je hůře zapamatovatelná syntaxe psaní otázek. U otázky typu Vyber chybějící slova je rozhraní pro zadávání o něco jednodušší, ale nelze zadávat volný text (čísla).

Ukázka

Close ukázka

Přesunout do obrázku, Přesunout do textu

Na určená místa v podkladovém obrázku přesouváte popisky (text) ev. i další obrázek. Varianta přesunout do textu má místo podkladového obrázku jen text. Hodí se k identifikaci něčeho na obrázku, označení místa ve schématu, seřazení dle správného pořadí ...

Ukázka

Přesunout do obrázku

Vypočítaná úloha

Speciální úloha, kde se testuje znalost nějakého výpočtu. Jednotlivá čísla, která se do výpočtu dosazují se generují z předem nadefinovaných sad možností. Ty se vytvářejí automaticky podle zadaného rozmezí a rozložení. 

4. Cyklus tvorby testu

Než se pustíme do tvorby otázek, je nutné ujasnit si plán testu, resp. celý plán výuky. Jaké znalosti/dovednosti chceme testovat? Do jaké hloubky (na jaké úrovni)? Bude test sloužit k výuce (zopakování látky, poskytnutí zpětné vazby studentům) nebo je hlavním účelem studenta oznámkovat (zkouškový test)?

Proto je nutné před započetím tvorby otázek mít dobře nadefinované výsledky učení (cíle výuky) - viz tam.

Cyklus tvorby testu shrnuje následující obrázek: nejprve otázky vytvoříme, pak je necháme zrecenzovat (kolegové, studenti), sestavíme test podle plánu a výsledky testů podrobíme položkové analýze, abychom zjistili, jestli otázky fungují tak, jak jsme předpokládali. Pokud ne, upravíme je nebo vyřadíme/nahradíme. Metody, jak určit cut-off (rozhodovací mez) testu probereme v následující kapitole.

Cykus tvorby testu

5. Určení cut-off (rozhodovací meze) testu

Jde o postup, kdy se objektivně snažíme nadefinovat, kde bude hranice mezi úspěšným a neúspěšným absolvováním testu. U nás převažuje intuitivní nebo "zvykový" (mez odhadneme dle našich zkušeností nebo nastavíme dle zvyklostí na příslušném pracovišti) přístup. Doporučuje se objektivní způsob alespoň jednou vyzkoušet. Existují 2 základní objektivní metody:

Angoffova metoda

Sestavíme skupinu několika expertů příslušného oboru (obvykle vyučující) a požádáme je o expertní odhad pravděpodobnosti správného zodpovězení každé otázky v testu minimálně kompetentním studentem. Minimálně kompetentního studenta si představíme jako studenta, který by ještě (s "odřenýma ušima" úsměv) prošel.

Pravděpodobnost uhodnutí je u otázky ano/ne 50 %, u otázky se 4 odpověďmi 25 % apod. Představme si, že máme 3 experty, kteří hodnotí pravděpodobnost správné odpovědi minimálně kompetentním studentem:


Otázka Expert 1 Expert 2 Expert 3 Průměr
1 0,58 0,62 0,65 0,62
2 0,71 0,75 0,69 0,72
3 0,80 0,70 0,70 0,73
 ...  ...  ...  ...  
 Průměr        0,69 tedy 69 %

Rozhodovací mez dle Cohenové

Zde potřebujeme výsledky pilotního testování - test předložíme cílové skupině a až na základě výsledků se rozhodneme, jaké bude skóre pro úspěšné absolvování. Používáme následující vztah:

rozhodovací mez = 0,6 * (skóre dosažené na 95. percentilu mínus skóre, kterého lze dosáhnout tipováním) + skóre, kterého lze dosáhnout tipováním

Jinými slovy: projdou ti studenti, kteří budou mít alespoň 60 % bodů nejlepších studentů. Nevýhodou je relativní nastavení vzhledem k výkonu studentů v pilotní skupině.


6. Analýza testu

Moodle má jednoduché možnosti, jak analyzovat odpovědi studentů na otázky v testu a zjistit tak, jak kvalitní otázky jsou a jak funguje test jako celek. Můžete tak snadno odhaliti chyby v testu (např. označení špatné odpovědi jako správné nebo přiřazení špatného bodování nebo špatně formulovaná otázka apod.) Doporučujeme používat následující 4 statistiky:

Statistiky kvality celého testu

Koeficient vnitřní konzistence (Kronbachovo alfa)
Vypovídá o tom, jak moc všechny otázky testu směřují k jednomu cíli. Pokud je hodnota nízká, test není vnitřně konzistentní a část otázek testuje nějaký jiný okruh než zbytek otázek. Čím vyšší hodnota, tím lépe.

Hodnocení není pevně dané, obvykle můžeme považovat hodnoty:

  • pod 50 % za nepřijatelné
  • > 70 % za použitelné
  • > 90 % za excelentní
Směrodatná chyba

Jde o rozptyl, se kterým musíme počítat u každého přiděleného skóre z testu. Dostane-li student 60 % z testu a směrodatná chyba je 5 %, jeho reálné skóre se pohybuje mezi 55 a 65 %. S nárůstem směrodatné chyby stoupá nespolehlivost výsledku z testu.

Statistiky kvality otázky

Snadnost (Facility index)

Vyjadřuje, kolik procent studentů zodpovědělo otázku správně. Nízké hodnoty svědčí pro nepřiměřenou obtížnost, vysoké hodnoty mohou značit "vynesení" otázky či přílišnou snadnost.

Diskriminační index

Vyjadřuje korelaci mezi výsledkem příslušné otázky a celkovým výsledkem z testu u konkrétního studenta. Pokud je tedy diskriminační index nízký, špatně rozlišuje mezi špatnými a dobrými studenty. Několik příkladů:

  • záporný diskriminační index  = zcela špatná otázka, je nutná revize
  • diskriminační index 0 nerozlišuje mezi dobrými a špatnými studenty
  • diskriminační index < 0,2 = zvažte revizi otázky

Hodnotíme oba parametry dohromady - např. je-li otázka velmi snadná a ještě nerozlišuje mezi dobrými a špatnými studenty, nemá v testu co dělat. Pokud je však snadná a dobře rozlišuje, může být přínosná. Podobně těžká a nerozlišující otázka je k ničemu.

7. Testování praktických dovedností

Písemné testování nedokáže postihnout všechny aspekty hodnocení znalostí a zejména dovedností při studiu medicíny. Pro testování praktických dovedností bylo vyvinuto několik široce používaných systémů.

OSCE (Objective Structured Clinical Examination)

Obvykle jde o zkoušky s velkou váhou (např. státnice); uspořádané jsou do „kolečka“ několika (např. 6) stanic, na každé student stráví 5-15 minut. Na každé stanici 1 až 2 zkoušející (na každé jiný). Student provádí specifické zadání (např. odebírá anamnézu, dělá neurologické vyšetření ...) a zkoušející vyplňuje strukturovaný formulář. Zadání může být reálný pacient, standardizovaný pacient, simulátor, video nebo např. výsledek zobrazovací metody.

Mini-CEX (Mini-Clinical Evaluation Exercise)

Způsob testování studentů (i postgraduálních) v reálné praxi. Probíhá tak, že zkoušející vybere pacienta a co bude testovat (anamnéza, fyzikální, komunikace, kritické rozhodování, profesionalismus, organizace a efektivnost). Zkoušející pozoruje adepta a a pak hodnotí škálou 1 až 9; + volný formativní text formativní (co zlepšit). Typicky jde o 15 minut provádění + 5 minut zpětná vazba. Ideálně hodně hodnotitelů (na různých oddělení), mnoho (několik stovek) hodnocení během tréninku.

DOPS (Direct Observation of Procedural Skills)

Zkoušející se dívá, jak student dělá nějakou proceduru, která má jasně definovaný postup. Hodnocení na škále 1 až 6 probíhá v těchto otázkách:
  • rozuměl tomu, co dělá
  • získal informovaný souhlas
  • demonstroval – přípravu; vědomí kontextu/situace; technickou schopnost; aseptičnost, vyhledání pomoci, když je potřeba; komunikace, profesionalismus
  • + volný formativní komentář
Obvykle uspořádáno do formy: 10 minut pozorování, 5 minut zpětná vazba.

One-minute perceptor (OMP)

Student (obvykle) prezentuje nějakého pacienta, kterého vyšetřil; zkoušející:
  • poslouchá, jen si zapisuje poznámky (nepřerušuje, nesměřuje …)
  • z něj dostane názor na diagnózu, léčbu …
  • vyžádá si podpůrné důkazy (proč k takovému závěru dospěl, co zvažoval)
  • řekne obecný závěr, poučení
  • řekne, co student udělal dobře
  • opraví, co udělal špatně

Populární jsou různé kombinace hodnocení, např. 360° evaluace (hodnocení z různých pohledů – lékař, sestra, pacient, kolega; i otázky typu doporučil byste adepta jako lékaře pro své nejbližší …). Vždy je součástí nějaká forma reflexe a sebereflexe studenta, která mu pomáhá budovat si reálnou představu o svých pokrocích a limitech. Jasným trendem je také velké množství průběžných hodnocení studenta (stovky), které jsou elektronicky zaznamenávány, sdíleny napříč výukovými pracovišti a zpracovány do formativní zpětné vazby nebo dokonce i jako podklad sumativního hodnocení (i například jako podklad k udělení atestační zkoušky).