Kako statistična analiza prepozna uporabo ChatGPT?

Closeup of teenager sitting at desk holding phone in her hand and taking exam test. Focused guy preparing for test or college exam
Foto: Nadzeya Haroshka iz iStock

Uporaba generativne umetne inteligence je močno prodrla tudi na področje izobraževanja. Največ skrbi je vzbudila njena uporaba pri pisanju esejev, odgovarjanju na esejska vprašanja in podobnih nalogah. Le malo pozornosti pa je bilo zaenkrat usmerjene v goljufanje na testih z izbirnimi odgovori. Če si mislil, da je tu uporabo umetne inteligence nemogoče prepoznati, te bodo rezultati nedavne raziskave šokirali.

a), b), c) ali d)?

Raziskovalci ter zaposleni v vzgoji in izobraževanju so že pričeli izkoriščati orodja za prepoznavanje rabe umetne inteligence, kot je Turnitin. Vendar so se do sedaj bolj ukvarjali s tem, kako goljufanje s ChatGPT prepoznati pri pisanju esejev in odgovorov na vprašanja odprtega tipa. Raziskava, objavljena v znanstveni reviji Journal of Chemical Education, pa predstavlja prvi poskus zaznave goljufije na testu, kjer je treba med podanimi odgovori le obkrožiti pravilnega. S specifičnimi statističnimi metodami so dosegli presenetljivo dobre rezultate.

Adult man using a laptop tick correct sign mark for document approval and checklist planning concept. Take an assessment, evaluation, test, education, questionnaire, online survey online exam.
Foto: jpkirakun iz iStock

Na verjetnost pravilnega odgovora vplivata dva dejavnika

Osnova modela je predpostavka, da na verjetnost pravilnega odgovora na testu vplivata dva dejavnika: kako težko je vprašanje in kakšne so sposobnosti študenta. Raziskovalca sta nato zbrala rezultate izpitov v obsegu petih semestrov – preko 1.000 izpitnih vprašanj sta vnesla v ChatGPT in nato primerjala rezultate študentov z odgovori ChatGPT. Podroben pregled rezultatov izpita je pripeljal do pomembnih ugotovitev.

Povprečno število točk ne pove dosti

Povprečno število zbranih točk na izpitu ali kak drug preprost statistični parameter ni dovolj za prepoznavo uporabe ChatGPT. Ta je namreč nekatera vprašanja vedno odgovoril pravilno, druga vedno napačno. Skupno oceno ChatGPT je tako nemogoče razločiti od odgovorov študentov. Kot pojasnjujeta raziskovalca, ChatGPT le generira vsebino – a ta ni nujno pravilna. Gre za preprost generator odgovorov in osebi, ki vsebine predavanj ne razume, se zdi, da gre za pravilne odgovore.

Povprečen študent ima manj težav z lažjimi odgovori

Z nekaj statistične analize sta raziskovalca vendarle uspela jasno razločiti med vzorci, ki so značilni za ChatGPT, in tistimi, ki so posledica običajnih odgovorov študentov. Na izpitih je na primer običajno, da najboljši študentje večino lahkih in večino težkih vprašanj rešijo pravilno. Povprečni študentje pa pravilno odgovorijo le na nekaj težkih in na večino lahkih vprašanj. Izkaže se, da ChatGPT včasih odgovori napačno na vsa lahka vprašanja in pravilno na vsa težka – nekaj kar je za študente povsem neznačilno. S pomočjo teh razlik sta raziskovalca lahko zaznala uporabo ChatGPT s skoraj 100-odstotno natančnostjo.

Elevated view of students writing their GCSE exam
Foto: Caiaimage/Chris Ryan iz iStock
VIRScienceDaily
Prejšnji članekPreboj v razumevanju možganskih motenj
Naslednji članekKaj sta mladizem in starizem?

Uporabljamo Akismet za manjšanje neželenih oglasnih komentarjev (spam). Politika zasebnosti.