Uno studio recente condotto dai ricercatori Apple solleva importanti interrogativi sulle reali capacità di ragionamento dei Large Language Models (LLM) .
La ricerca, descritta in dettaglio in un articolo intitolato GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models , suggerisce che gli LLM potrebbero non essere così intelligenti come sembrano.
La ricerca rivela che i modelli LLM di OpenAI, Google e Meta sono imperfetti
Lo studio si concentra sul benchmark ampiamente utilizzato per misurare le capacità di ragionamento LLM noto come “GSM8K” ovvero Grade School Math 8K. Questo benchmark è un set di dati di oltre 8.000 problemi di matematica di alta qualità e diversi tra loro.
Tuttavia, i ricercatori hanno concluso che l’uso diffuso di questo set di dati potrebbe aver comportato un rischio di contaminazione dei dati, concludendo che i modelli di grandi dimensioni potrebbero semplicemente richiamare le risposte dai dati su cui sono stati addestrati.
Invece che su un vero ragionamento logico, i modelli si basano maggiormente su un sofisticato pattern di matching, il che limita la loro capacità di risolvere efficacemente problemi complessi.
1/ I Large Language Model (LLM) possono davvero ragionare? O sono solo dei sofisticati pattern matcher?
Per testare questa teoria, i ricercatori hanno sviluppato un nuovo benchmark chiamato GSM-Symbolic, che alterava variabili quali nomi, numeri e complessità, aggiungendo informazioni irrilevanti ai problemi di ragionamento standard.
Testati su più di 20 LLM, tra cui OpenAI o1 e GPT-4o , Gemini 2 di Google e Llama 3 di Meta, i risultati hanno mostrato un calo significativo della precisione in tutti i modelli quando queste variabili sono state modificate.
Una volta introdotti dettagli irrilevanti, i modelli hanno faticato a mantenere alte prestazioni. Anche i modelli OpenAI , che in genere hanno avuto prestazioni migliori delle alternative open source, hanno mostrato un calo evidente dell’accuratezza, confermando che gli LLM sono più fragili di quanto si pensasse in precedenza.
Ad esempio, quando è stato presentato un problema di matematica che coinvolgeva i kiwi, i modelli non sono riusciti a riconoscere che certi dettagli erano irrilevanti. Il problema affermava che qualcuno aveva scelto cinque kiwi più piccoli, il che non aveva alcuna attinenza con la matematica effettiva.
8/ Ciò solleva la domanda: questi modelli comprendono davvero i concetti matematici? Aggiungiamo una singola variabile che sembri rilevante ma non contribuisce al ragionamento generale (da qui “no-op”).
Tuttavia, molti LLM hanno sottratto i kiwi dal totale, rivelando di essersi concentrati su modelli superficiali anziché comprendere la logica sottostante.
o1 Preview di OpenAI ha registrato il calo di precisione più contenuto, con una perdita del 17,5%, ma altri modelli, come Phi 3 di Microsoft, hanno registrato un calo delle prestazioni fino al 65%.
Sebbene i risultati dello studio mettano in luce queste limitazioni, è importante considerare anche lo spazio competitivo.
Apple, l’azienda che ha ideato la ricerca, è un concorrente diretto di Google, Meta e OpenAI, tutti e tre investono ingenti risorse nello sviluppo dell’intelligenza artificiale.
Sebbene Apple e OpenAI collaborino in alcuni ambiti, Apple sta lavorando anche a modelli di intelligenza artificiale propri, il che solleva interrogativi sulle motivazioni alla base delle conclusioni dello studio.
Seguici anche su:
@INSTAGRAM https://www.instagram.com/hackerpunk2019/
@LINKEDIN https://www.linkedin.com/company/hackerpunk
@FACEBOOK https://www.facebook.com/hackerpunk2019
@EBOOK
https://amzn.eu/d/6dcujGr
@EBOOK (English version)
https://amzn.eu/d/0yu1ldv
@YOUTUBE https://www.youtube.com/channel/UCiAAq1h_ehRaw3gi09zlRoQ