Uporaba generativne umetne inteligence je močno prodrla tudi na področje izobraževanja. Največ skrbi je vzbudila njena uporaba pri pisanju esejev, odgovarjanju na esejska vprašanja in podobnih nalogah. Le malo pozornosti pa je bilo zaenkrat usmerjene v goljufanje na testih z izbirnimi odgovori. Če si mislil, da je tu uporabo umetne inteligence nemogoče prepoznati, te bodo rezultati nedavne raziskave šokirali.
a), b), c) ali d)?
Raziskovalci ter zaposleni v vzgoji in izobraževanju so že pričeli izkoriščati orodja za prepoznavanje rabe umetne inteligence, kot je Turnitin. Vendar so se do sedaj bolj ukvarjali s tem, kako goljufanje s ChatGPT prepoznati pri pisanju esejev in odgovorov na vprašanja odprtega tipa. Raziskava, objavljena v znanstveni reviji Journal of Chemical Education, pa predstavlja prvi poskus zaznave goljufije na testu, kjer je treba med podanimi odgovori le obkrožiti pravilnega. S specifičnimi statističnimi metodami so dosegli presenetljivo dobre rezultate.
Na verjetnost pravilnega odgovora vplivata dva dejavnika
Osnova modela je predpostavka, da na verjetnost pravilnega odgovora na testu vplivata dva dejavnika: kako težko je vprašanje in kakšne so sposobnosti študenta. Raziskovalca sta nato zbrala rezultate izpitov v obsegu petih semestrov – preko 1.000 izpitnih vprašanj sta vnesla v ChatGPT in nato primerjala rezultate študentov z odgovori ChatGPT. Podroben pregled rezultatov izpita je pripeljal do pomembnih ugotovitev.
Povprečno število točk ne pove dosti
Povprečno število zbranih točk na izpitu ali kak drug preprost statistični parameter ni dovolj za prepoznavo uporabe ChatGPT. Ta je namreč nekatera vprašanja vedno odgovoril pravilno, druga vedno napačno. Skupno oceno ChatGPT je tako nemogoče razločiti od odgovorov študentov. Kot pojasnjujeta raziskovalca, ChatGPT le generira vsebino – a ta ni nujno pravilna. Gre za preprost generator odgovorov in osebi, ki vsebine predavanj ne razume, se zdi, da gre za pravilne odgovore.
Povprečen študent ima manj težav z lažjimi odgovori
Z nekaj statistične analize sta raziskovalca vendarle uspela jasno razločiti med vzorci, ki so značilni za ChatGPT, in tistimi, ki so posledica običajnih odgovorov študentov. Na izpitih je na primer običajno, da najboljši študentje večino lahkih in večino težkih vprašanj rešijo pravilno. Povprečni študentje pa pravilno odgovorijo le na nekaj težkih in na večino lahkih vprašanj. Izkaže se, da ChatGPT včasih odgovori napačno na vsa lahka vprašanja in pravilno na vsa težka – nekaj kar je za študente povsem neznačilno. S pomočjo teh razlik sta raziskovalca lahko zaznala uporabo ChatGPT s skoraj 100-odstotno natančnostjo.
Novinar