Un post virale su BridgeBench sostiene che Claude Opus 4.6 sia stato "depotenziato", i critici parlano di scienza poco attendibile

Un post virale su BridgeBench sostiene che Claude Opus 4.6 sia stato “depotenziato”, i critici parlano di scienza poco attendibile

Scritto e revisionato da

Lockridge Okoth

Pubblicato:13 aprile 2026, 14:13 CET

Un post virale su X ha affermato che le allucinazioni di Claude Opus 4.6 sono aumentate del 98%.
I critici hanno rilevato che il confronto utilizzava dimensioni di test diverse, non benchmark uguali.
L’analisi del medesimo compito mostra un cambiamento minimo, all’interno della normale variabilità dell’IA.

BridgeMind AI ha affermato che Claude Opus 4.6 di Anthropic è stato segretamente depotenziato dopo un nuovo test sul benchmark delle allucinazioni. Tuttavia, il post virale ha poi attirato forti critiche per la metodologia utilizzata, ritenuta errata.

L’affermazione ha scatenato un ampio dibattito sul fatto che le aziende di intelligenza artificiale stiano silenziosamente riducendo la qualità dei modelli a pagamento per contenere i costi.

Contenuto sponsorizzato

BridgeMind riporta un aumento del 98% nelle allucinazioni

BridgeMind, il team dietro il benchmark di coding BridgeBench, ha pubblicato che Claude Opus 4.6 è sceso dalla seconda alla decima posizione nella sua classifica delle allucinazioni. L’accuratezza sarebbe calata dall’83,3% al 68,3%.

“CLAUDE OPUS 4.6 È STATO DEPOTENZIATO. BridgeBench l’ha appena dimostrato. La scorsa settimana Claude Opus 4.6 era al secondo posto nel benchmark delle allucinazioni con un’accuratezza dell’83,3%. Oggi Claude Opus 4.6 è stato testato nuovamente ed è sceso al decimo posto nella classifica con un’accuratezza di solo il 68,3%,” hanno scritto.

Il post presentava questi dati come prova di una “diminuzione dei livelli di ragionamento”. Tuttavia, un’analisi più attenta dei dati sottostanti racconta un’altra storia.

Secondo i critici, il confronto è fondamentalmente errato

Secondo lo scienziato informatico Paul Calcraft, l’affermazione rappresenta “un’incredibile cattiva scienza”, sottolineando un problema cruciale nella metodologia utilizzata.

“Un’incredibile cattiva scienza. Oggi avete testato Opus su 30 task, il punteggio precedente si basava solo su *6* task. Risultati per i 6 task comuni: oggi 85,4% contro il precedente 87,6%. Lo scostamento è dovuto quasi tutto a *una sola* produzione errata senza ripetizioni – facilmente rumore statistico,” ha commentato Calcraft.

L’alto punteggio iniziale proveniva da soli sei task di benchmark. Il nuovo retest ha ampliato il benchmark includendo 30 task.

Contenuto sponsorizzato

Sui sei task sovrapposti, la performance è risultata praticamente identica, calando solo dall’87,6% all’85,4%.

Despicable clout chasing. They tested Opus today on 30 tasks, previous Opus 4.6 score was on just *6* tasks. DIFFERENT BENCHMARK

6 tasks in common results: 85.4% score today vs. 87.6% prev. Swing is mostly from a *single* fabrication without repeats – easily statistical noise https://t.co/wmFfAfNmEW pic.twitter.com/opUxoVevpP
— Paul Calcraft (@paul_cal) April 12, 2026

Questa lieve variazione dipendeva soprattutto da una singola allucinazione in un task. In assenza di ripetizioni, questo rientra pienamente nella normale varianza statistica dei modelli AI.

I modelli linguistici di grandi dimensioni non sono deterministici e un solo risultato negativo su un campione ridotto può spostare notevolmente i risultati.

Contenuto sponsorizzato

Frustrazioni più ampie alimentano la narrazione

Eppure, il post ha toccato un nervo scoperto. Dal suo lancio nel febbraio 2026, Claude Opus 4.6 ha ricevuto lamentele continue riguardo un calo percepito della qualità.

Sviluppatori segnalano risposte più brevi, minore capacità di seguire le istruzioni e una ridotta profondità di ragionamento nelle ore di massimo traffico.

Parte di questo deriva da modifiche intenzionali al prodotto. Anthropic ha introdotto controlli di pensiero adattivo che permettono al modello di autoregolare le risorse dedicate al ragionamento. Il livello di sforzo predefinito è stato poi impostato su medio, privilegiando l’efficienza rispetto alla massima profondità.

New on the API: we're giving developers better control over model effort and more flexibility for long-running agents.

Adaptive thinking lets Claude calibrate its reasoning depth to each task, and context compaction keeps long-running tasks from hitting limits.
— Claude (@claudeai) February 5, 2026

Un’analisi indipendente su oltre 6.800 sessioni di Claude Code ha rilevato che la profondità di ragionamento è scesa di circa il 67% entro la fine di febbraio.

Il rapporto tra lettura di file e modifica del codice da parte del modello è crollato da 6,6 a 2,0. Questo suggerisce che il modello tentava correzioni su codice che aveva appena analizzato.

Cosa significa per gli utenti AI

Questa situazione riflette una crescente tensione nel settore AI. Le aziende ottimizzano i modelli per costi e scalabilità dopo il lancio, mentre gli utenti più intensivi si aspettano prestazioni di punta e costanti. La distanza tra queste priorità mina la fiducia.

In base alle prove disponibili, i dati di BridgeBench non dimostrano un depotenziamento deliberato. Il confronto tra i due benchmark non è coerente e i risultati sui task comuni sono pressoché identici.

Tuttavia, la frustrazione di fondo non è del tutto immotivata. I controlli adattivi sul calcolo e le ottimizzazioni a livello di servizio hanno cambiato concretamente il comportamento di Claude Opus 4.6. Per gli sviluppatori che si affidano a risultati costanti, questi cambiamenti hanno un peso.

Anthropic non ha ancora rilasciato alcuna dichiarazione pubblica in merito alle affermazioni specifiche su BridgeBench al 13 aprile.