ChatGPT ottiene l'85% nell'esame di neurologia di livello professionale

ChatGPT ottiene l’85% nell’esame di neurologia di livello professionale

Sceglici su Google

Scritto e revisionato da
Ciaran Lyons

11 dicembre 2023 23:54 CET

In uno studio trasversale, i ricercatori hanno esplorato il rendimento dei modelli linguistici di grandi dimensioni (LLM) in un esame di neurologia di livello professionale.
Entrambe le versioni di ChatGPT mostrano fiducia nelle risposte, segnalando un potenziale di miglioramento nelle iterazioni future.
LLM 2 eccelle sia nelle domande di ordine inferiore che in quelle di ordine superiore, dimostrando versatilità cognitiva. Questi risultati lasciano intendere il potenziale di trasformazione.

In un recente studio trasversale, i ricercatori hanno esplorato il rendimento dei modelli linguistici di grandi dimensioni (LLM) negli esami di neurologia.

Lo studio, che ha utilizzato una banca di domande approvata dall’American Board of Psychiatry and Neurology, ha rivelato le caratteristiche di questi modelli linguistici avanzati.

Il ChatGPT domina l’esame di neurologia

Lo studio ha coinvolto due versioni del ChatGPT LLM: la versione 3.5 e la versione 4. I risultati hanno rivelato che l’LLM 2 supera in modo significativo il suo predecessore. Inoltre, ha persino superato il punteggio medio umano all’esame di neurologia.

Contenuto sponsorizzato

Secondo i risultati, LLM 2 ha risposto correttamente all’85,0% delle domande. Il punteggio medio umano è invece del 73,8%.

Questi dati suggeriscono che, con ulteriori perfezionamenti, i modelli linguistici di grandi dimensioni potrebbero trovare applicazioni significative nella neurologia clinica e nell’assistenza sanitaria.

https://youtu.be/anPlb3PHWRk?si=1xrj11xtQO7KU0aG

Per saperne di più: 9 suggerimenti e consigli di ChatGPT per creare la descrizione del lavoro perfetta

ChatGPT rende meglio con le domande d’esame di ordine inferiore

Tuttavia, anche il modello più vecchio, LLM 1, ha dimostrato un rendimento sufficiente, anche se leggermente inferiore alla media umana, con un punteggio del 66,8%.

Entrambi i modelli hanno utilizzato un linguaggio sicuro, indipendentemente dalla correttezza delle risposte, indicando una potenziale area di miglioramento nelle iterazioni future.

Secondo lo studio, le domande sono state suddivise in domande di ordine inferiore e di ordine superiore in base alla tassonomia di Bloom.

Entrambi i modelli hanno reso meglio nelle domande di ordine inferiore. Tuttavia, LLM 2 si è dimostrato eccellente sia nelle domande di ordine inferiore che in quelle di ordine superiore, dimostrando la sua versatilità e le sue capacità cognitive.

Per saperne di più: ChatGPT vs. Google Bard: Un confronto tra chatbot AI