immagine realizzata con DALL-E
Lo scorso martedì 14 marzo è stata rilasciata la nuova versione di ChatGPT, che presenta una serie di migliorie tecniche e relative alla moderazione. Tra le prime, GPT-4 si dimostra nei test più affidabile, creativo e in grado di gestire istruzioni molto più sfumate rispetto a GPT-3.5. Inoltre, presenta risultati molto più soddisfacenti, in particolare nella lingua italiana. Più complessa la gestione della questione “etica” relativa alla moderazione dei contenuti, che peraltro si staglia al centro di un crescente dibattito che ha visto anche la partecipazione di Noam Chomsky. Il quale, nel sottolineare le differenze tra intelligenza umana e intelligenza artificiale attuale, ha chiesto alla stessa app: è “morale” per un essere umano chiedere assistenza ad un IA “amorale” per stabilire cosa sia “morale”?
LE MIGLIORATE PERFORMANCE E LE TRADUZIONI
Secondo i creatori di ChatGPT 4, distinguere le funzionalità della nuova versione dalla precedente in una conversazione normale può essere complicato. La differenza emerge quando la complessità dei task da svolgere risulta sufficientemente avanzata. Per dimostrare le migliorie, infatti, ChatGPT 4 è stata testata su una serie di esami ufficiali previsti per gli esseri umani (esami di scrittura, matematica, di valutazione delle conoscenze mediche, di storia dell’arte, biologia, calcolo ed altri), in cui ha cui ha conseguito sempre risultati migliori (o almeno uguali) a quelli del suo predecessore.
Tra i miglioramenti più interessanti figura senza dubbio quello linguistico. Il nuovo modello è stato testato utilizzando Azure Translate in 26 lingue: in 24 di esse, GPT-4 supera le prestazioni in lingua inglese di GPT-3.5 (e di altri Large Language Model come Chinchilla e PaLM), con il curioso primato dell’Italiano (subito dopo l’Inglese e a pari merito con l’Afrikaans, la seconda lingua del Sud Africa).
LA STEERABILITY
Concetto che può essere tradotto come “manovrabilità”, implica la possibilità di superare lo stile classico di risposta di ChatGPT – che per stessa ammissione dei suoi sviluppatori risulta abbastanza verboso – richiedendo lo stile (e il task) dell’IA direttamente da parte dell’utente.
Tale possibilità, attualmente concessa agli sviluppatori e presto anche agli utenti finali, consente di personalizzare in modo significativo la user experience entro certi limiti. Allo stesso tempo, questa funzione rischia di aumentare i fenomeni di jailbreak, ovvero la possibilità di “craccare” le linee guida del sistema e fargli compiere azioni non previste. Motivo per cui, rispetto a tale funzionalità, si richiedono feedback degli utenti.
I LIMITI DELLA NUOVA VERSIONE
Per ammissione dei suoi sviluppatori, GPT-4 mostra ancora una serie di limiti simili a quelli delle versioni precedenti. In particolare presenta le cosiddette “allucinazioni” (ovvero tende a inventare di sana pianta fatti e risposte, come segnalato da noi qui e da molti altri utenti ed esperti in giro per il web) e commette errori di ragionamento talvolta piuttosto basici, che stridono con l’altissimo livello di molte altre risposte fornite. Inoltre, appare talvolta eccessivamente ingenuo/a nell’accettare dichiarazioni palesemente false da parte degli utenti.
Per tali ragioni, i suoi sviluppatori antepongono un chiaro disclaimer al suo utilizzo, suggerendo di prestare molta attenzione nel riporre fiducia nei risultati dei modelli linguistici in generale, in particolare evitandone del tutto l’uso in contesti ad alto rischio e consigliando in ogni caso la revisione umana e la predisposizione di protocolli di utilizzo ad hoc rispetto agli specifici ambiti di adozione.
Al netto di ciò, GPT-4 mostra performance capaci di ridurre significativamente gli errori e le “allucinazioni” rispetto ai modelli precedenti, fino al 40% in meno rispetto a GPT-3.5. In generale, rispetto agli 8 ambiti testati, il tasso di successo (risposte giudicate coerenti con quelle che avrebbe fornito un essere umano) è praticamente raddoppiato rispetto alla versione 2.
Altri due punti appaiono fondamentali: GPT-4 generalmente non conosce gli eventi che si sono verificati dopo settembre 2021 e, soprattutto, non impara dalla propria esperienza. Quest’ultimo punto in particolare, si riallaccia al discorso dell’etica, dei rischi nell’utilizzo da parte degli utenti finali e dei metodi utilizzati per mitigare le possibili minacce.
LA “QUESTIONE MORALE”
Come sottolineato dai suoi sviluppatori, GPT-4 presenta possibili effetti indesiderati simili a quelli dei modelli precedenti – come la generazione di consigli dannosi, codice difettoso o informazioni imprecise – e nuove minacce in aree ad alto rischio che richiedono competenze specifiche per essere valutate – e per le quali sono stati ingaggiati 50 esperti in domini quali la sicurezza informatica, il rischio biologico e la sicurezza internazionale. Questo meccanismo ha permesso di migliorare il modello – ad esempio, GPT-4 rifiuta richieste su come sintetizzare sostanze chimiche pericolose – e di dotarlo di un classificatore che giudica i limiti di sicurezza e lo stile di completamento delle richieste relative alla sicurezza. Un meccanismo analogo è previsto per evitare di rifiutare richieste valide.
A livello di performance, le mitigazioni hanno diminuito dell’82% la tendenza del modello a rispondere alle richieste di contenuti non consentiti. Inoltre GPT-4 risponde alle richieste sensibili (ad esempio relative consigli medici e autolesionismo) in modo più conforme rispetto alle politiche di OpenAi (nel dettaglio, il 29% in più).
Tuttavia il jailbreak (l’aggiramento dei meccanismi di difesa) è ancora possibile. Anche per questo, probabilmente, rimane preclusa la possibilità di apprendere dai feedback degli utenti. Forse è ancora fresco il ricordo del chatbot Tay, rilasciato da Microsoft nel 2016, che divenne rapidamente misogino e razzista dopo aver interagito con utenti e troll che lo avevano inquinato con contenuti offensivi.
Come osservato da Noam Chomsky (insieme a Ian Roberts e Jeffrey Watumull) in un recente articolo pubblicato sul New York Times, queste applicazioni non sono realmente intelligenti poiché mancano di una serie di caratteristiche fondamentali, tra le quali figurano la capacità di creare spiegazioni dei fenomeni, di pensare ed esprimere cose improbabili ma perspicaci, nonché di ragionare a livello morale. Rispetto a quest’ultimo punto Chomsky appare particolarmente critico, sottolineando come, nelle sue interazioni su questioni morali, ChatGPT mostri una mancanza di “intelligenza” che adotta un meccanismo molto simile alla banalità del male di arendtiana memoria: una difesa che si trincera dietro un approccio “sto solo eseguendo gli ordini” che tende a riassumere le argomentazioni standard della letteratura, a rifiutarsi di prendere posizione su qualsiasi cosa e a invocare non solo l’ignoranza ma anche specificamente la mancanza di intelligenza, per via delle decisioni dei propri sviluppatori.
Secondo il linguista, data l’amoralità, la falsa scienza e l’incompetenza linguistica dei sistemi come ChatGPT, “possiamo solo ridere o piangere per la loro popolarità”.
D’altro canto, aggiungiamo noi, proprio la loro popolarità rende quantomai attuale la questione morale, in particolare l’allargamento del dibattito su cosa sia giusto e cosa sbagliato rispetto a ciò che tali applicazioni sono in grado di fare e alle opinioni che tendono a veicolare. Non sarà semplice continuare ad eludere tale questione per lungo tempo. L’etica dell’AI, centrale nelle prime riflessioni in Europa su questa tecnologia ma caduta un po’ in disparte negli ultimi anni, rischia di tornare prepotentemente alla ribalta.