ChatGPT supera il test di ammissione a Medicina. Riflessioni sui nuovi scenari

Uno studio condotto all’Università di Cagliari sulla ChatGPT di OpenAI ha suscitato grande interesse nel mondo scientifico e a livello mediatico. Pubblicato sulla piattaforma ResearchGate, ha totalizzato, in pochi giorni, centinaia di visualizzazioni e un articolo del Corriere della Sera - Scuola, riportante il risultato conseguito dal gruppo cagliaritano - che fa capo al Dipartimento di pedagogia, psicologia, filosofia - è rimbalzato in breve tempo su differenti testate nazionali e anche internazionali. I commenti di Giunti, Sergioli, Giuntini, Pinna e Garavaglia

09 marzo 2023

Chat "Generative Pre-trained Transformer", il prototipo di intelligenza artificiale alla portata di tutti apre nuovi scenari e suscita interrogativi

Il gruppo di ricercatori di Unica, un team multidisciplinare formato da esperti di logica, filosofia e Machine learning, ha voluto esaminare le capacità dell’intelligenza artificiale di ChatGPT alle prese con il test nazionale 2022 di ammissione ai corsi di laurea in Medicina e Odontoiatria. I risultati ottenuti da Marco Giunti, Roberto Giuntini, Giuseppe Sergioli, Simone Pinna e Fabrizia Giulia Garavaglia (LINK ALLO STUDIO), sono molto indicativi e per certi versi sorprendenti. La Chat si è dimostrata in grado di rispondere in modo corretto ad oltre il 60% dei quesiti, totalizzando complessivamente un punteggio di 46.3, tale da permettere il superamento del test. L’analisi delle risposte alle 60 domande ha però evidenziato lacune sul piano del ragionamento logico.

Dall’alto e da sinistra: Marco Giunti, Giuseppe Sergioli, Roberto Giuntini. Sotto: Simone Pinna e Fabrizia Giulia Garavaglia

Come spiegato dagli studiosi cagliaritani, “L'esperimento preliminare messo in atto dagli studiosi, da un lato ha offerto indicazioni che confermano il possesso da parte di ChatGPT di sofisticate competenze linguistiche, sia a livello sintattico, sia semantico, e dall’altro ha evidenziato alcuni aspetti lacunosi nell'effettuare inferenze logiche, soprattutto di fronte a problemi di natura formale. Anche in questo ambito, però, le prestazioni restano sorprendenti per un’intelligenza artificiale”.

Questi risultati corroborano in parte alcune evidenze già messe in rilievo da un gruppo di ricercatori statunitensi, che ha sottoposto alla Chat il test United Medical Licensing Examination (Usmle), valido per la licenza medica USA.

“Bisogna comunque specificare che si tratta di un esame di natura differente rispetto al test d'accesso italiano, in quanto non verte sulle attitudini di base di un futuro studente di medicina (tra le quali, appunto, anche le capacità logico-inferenziali), ma sulle specifiche competenze e conoscenze di natura clinica di un medico che si appresti ad esercitare la professione negli Stati Uniti”.

Attualmente lo stesso gruppo di UniCa sta portando avanti una sperimentazione più vasta, che concerne un'analisi più approfondita e puntuale dei punti di forza e debolezza di ChatGPT, mediante un'osservazione dettagliata delle varie tipologie di quesiti che generano più frequentemente risposte errate rispetto a quelli che la Chat digerisce più facilmente. Tale analisi passerà attraverso la valutazione di un numero più ampio di problemi, tratti non solo dal test italiano per l'ingresso alle facoltà medico-sanitarie ma anche attraverso la comparazione con altri test in ambito internazionale, come, per esempio il Cambridge BioMedical Admission Test (Bmat), sul quale il team di ricerca cagliaritano ha già mostrato alcuni interessanti risultati preliminari.

In conclusione gli studiosi dell'Università di Cagliari sottolineano che “Un altro punto di interesse potrà riguardare lo studio degli esiti di un’interazione con ChatGPT a seguito di una sua risposta non corretta. Lo studio dell'interazione utente-Chat infatti potrà offrire ulteriori e interessanti spunti di riflessione e sviluppo”.

L'articolo del Corriere della Sera - Scuola

ChatGPT PASSA IL TEST DI MEDICINA,
MA FA FATICA COL RAGIONAMENTO LOGICO

Con un punteggio di 46.3 la chatbot sarebbe potuta entrare alla Sapienza. L’esperimento dei ricercatori dell’Università di Cagliari. I risultati migliori in biologia e comprensione del testo

ChatGPT offre risposte davvero sorprendenti anche a fronte di richieste particolarmente precise, in ambiti talvolta piuttosto complessi. Riesce infatti a risolvere problemi di fisica, chimica, matematica, a suggerire righe di codice in differenti linguaggi di programmazione. Naturalmente, quanto più il contesto diviene tecnico e specifico, tanto più la chat necessita di un’accurata supervisione dell’utente, per scongiurare errori che, talvolta, possono apparire anche banali. Il vero aspetto innovativo di questa chatbot è quello di non limitarsi a offrire informazioni, ma di produrre risposte spesso molto articolate basate sulla sua comprensione del testo e del contesto. Ciò ha suscitato un vivo dibattito su rischi e potenzialità di questo sistema e molti studiosi e curiosi, negli ultimi mesi, hanno messo a dura prova le capacità della Chat, con risultati che non smettono di sorprendere.

L’esperimento. Una recente e brillante intuizione giunge da un consolidato gruppo di ricerca, costituito da logici, filosofi e ricercatori di Machine learning dell’Università di Cagliari, composto da Marco Giunti, Roberto Giuntini, Giuseppe Sergioli, Simone Pinna e Fabrizia Giulia Garavaglia, che hanno prima ideato e poi messo in atto un esperimento stimolante, nato dalla seguente domanda: Come se la caverebbe ChatGPT nei panni di candidato al Test nazionale di ammissione alle Facoltà di Medicina e Odontoiatria? La domanda risulta interessante poiché il test di ammissione punta non solamente a valutare le competenze del candidato, ma anche le sue capacità di ragionamento logico e di risoluzione di problemi, abilità necessarie per diventare un buon medico e affrontare la complessità delle informazioni e dei dati che un percorso scientifico pone davanti. Il gruppo di studiosi ha pertanto somministrato alla Chat tutte le 60 domande del test del 2022 e il punteggio finale è risultato davvero sorprendente. La Chat, infatti, ha risposto correttamente al 62% dei quesiti (37 su 60) e, tenendo conto della modalità di attribuzione del punteggio, ha totalizzato 46.3 punti. Secondo la graduatoria nazionale dei candidati che hanno sostenuto la prova nel 2022, il punteggio minimo per l’ammissione è stato pari a punti 33.4. Pertanto, il punteggio conseguito da ChatGPT gli avrebbe consentito perfino l’accesso all’Università La Sapienza di Roma che, con un punteggio minino di 45.5 punti, si è classificata sesta tra le 51 sedi dei Corsi di studio in Medicina e Odontoiatria in ambito nazionale.

I risultati di ChatGPT. Tenendo conto che il numero dei partecipanti al test del 2022 è stato pari a 56.775 e che solo il 50.7% è risultato idoneo, è davvero sorprendente notare come il «candidato ChatGPT» si sarebbe classificato tra i migliori degli idonei. I dettagli della ricerca effettuata dagli studiosi dell’Università di Cagliari sono stati riportati in un lavoro preliminare intitolato «ChatGPT prospective student at Medical School» e inserito nella piattaforma ResearchGate. Dai dati riportati nell’articolo si evince come la Chat sia praticamente imbattibile sui quesiti di comprensione del testo (4 risposte esatte su 4) e molto performante sui test di biologia (16 su 23); risulta invece più lacunosa nei quesiti di ragionamento logico e problemi (solo 1 risposta corretta su 5), chimica (9 su 15) e fisica e matematica (7 su 13).

Il confronto. L’articolo contiene anche un’analisi comparativa con il BMAT 2021 (BioMedical Admission Test) del Cambridge Assessment Admission Testing, utilizzato in tutto il mondo per valutare le competenze dei candidati in ambiti analoghi a quelli del test italiano per l’ammissione a corsi di studio di ambito biomedico. Anche in questo caso i risultati hanno evidenziato uno sbilanciamento a vantaggio dell’efficienza di ChatGPT nei confronti dei quesiti “Thinking skills” (16 risposte esatte su 25) rispetto a quelli riguardanti “Scientific knowledge and applications” (solo 7 su 22). Questa ricerca preliminare che, come dicono gli stessi autori, necessita di un’applicazione a più ampia scala per essere corroborata, può però già aprire questioni interessanti su vari fronti. Può infatti offrire un’indicazione utile sugli ambiti in cui ChatGPT è particolarmente performante e, nel contempo, può mettere in luce gli attuali limiti di questo sistema forte e innovativo ma certamente ancora perfettibile.

I consigli. I risultati degli esperimenti e l’analisi dei dati possono suggerire nuovi interrogativi sulla struttura e sulla progettazione dei test di ammissione stessi e, più in generale, su quali conoscenze e competenze sia più opportuno richiedere a uno studente che si appresti a entrare all’università oggi. In particolare, sorge spontanea la domanda se le attuali conoscenze e competenze richieste nei test siano adeguate per garantire una selezione corretta post diploma di maturità. La scuola prepara e orienta concretamente i giovani ad affrontare la selezione e, soprattutto, fornisce le vere basi della conoscenza che permetteranno loro di sostenere la complessità degli studi accademici, in un contesto in cui l’interazione con sistemi intelligenti, del tipo di ChatGPT, sarà sempre più frequente e inevitabile? L’impressione è che il dibattito sia solo ai suoi albori.

L'articolo del 2 marzo è firmato da Sara Piccolo

La notizia rimbalzata anche su testate di Gran Bretagna e Cina

YORK HOLIDAY
https://yorkholiday.co.uk/chatgpt-passes-the-medical-exam-but-has-difficulty-with-logical-thinking-corriere-it/
SOHU
https://www.sohu.com/a/649351331_582158

(IC)

Link

Link diretto all'articolo scientifico su Researchgate (.pdf)

Università degli Studi di Cagliari

Università degli Studi di Cagliari
Sito precedente (ancora attivo). Per il nuovo clicca qui