OpenAI progetta strumento capace di riconoscere testi scritti dall’Intelligenza Artificiale

Dopo aver creato il chatbot ChatGPT con cui si possono avere interazioni conversazionali, OpenAI lancia un classificatore di testi capace di capire (al momento in maniera poco affidabile) se un testo é stato scritto da una intelligenza artificiale o da un umano. L'obiettivo é limitare la diffusione di testi generati dall'IA spacciati per scritti dall'uomo.

Scritto da

Simone Ziggiotto

il

OpenAI, l’organizzazione dietro lo sviluppo del chatbot ChatGPT con cui si possono avere interazioni conversazionali, ha lanciato un nuovo strumento basato su un modello di intelligenza artificiale (IA), questo addestrato per capire se un testo è stato scritto dall’IA oppure dall’uomo.

Gli sviluppatori del progetto hanno già premesso che questo "classificatore" non è infallibile, in quanto oggi non è possibile rilevare in modo affidabile tutto il testo scritto dall’IA. L’obiettivo dietro allo sviluppo di questo modello è limitare la diffusione di testi generati dall’intelligenza artificiale spacciati per scritti dall’uomo. Questo potrebbe accadere, per esempio, in campagne di disinformazione automatizzate.

Il classificatore è stato addestrato (machine learning) sulla base un set di dati di coppie di testi scritti dall’uomo e testi scritti dall’intelligenza artificiale sullo stesso argomento, presi da diverse fonti. Secondo gli sviluppatori, l’affidabilità del classificatore è molto bassa nell’analisi di testi brevi (sotto i 1.000 caratteri), mentre migliora con l’aumentare della lunghezza del testo analizzato (ciò non esclude che anche i testi molto lunghi possano essere etichettati in modo errato dal classificatore). 

Il classificatore è stato messo alla prova da OpenAI nei primi test con testi scritti in inglese. Dai risultati è emersa la capacità del classificatore di identificare correttamente il 26% dei testi scritti dall’IA (veri positivi) come "probabilmente scritto dall’IA", identificando invece erroneamente il 9% dei testi scritti dall’uomo come "scritti dall’IA" (falsi positivi). Può funzionare per riconoscere, in maniera più o meno affidabile, testi scritti dall’IA di vari provider. 

Gli sviluppatori notano che testi ‘molto prevedibili’ non possono essere identificati in modo affidabile dal classificatore: ad esempio, non può prevedere se un elenco dei primi 1.000 numeri primi sia stato scritto dall’IA o dall’uomo, perché la risposta corretta è sempre la stessa. Inoltre, se un testo scritto dall’IA viene modificato dall’uomo per eludere i fattori di analisi del classificatore, l’affidabilità dell’analisi decade. Infine, far analizzare al classificatore dei testi che trattano argomenti ben al di fuori di quelli trattati nei testi che sono stati utilizzati in fase di addestramento del modello può protare ad ottenere dei falsi risultati: "È noto che i classificatori basati su reti neurali sono scarsamente calibrati al di fuori dei loro dati di addestramento. Per input che sono molto diversi dal testo nel nostro set di addestramento, il classificatore a volte è estremamente fiducioso in una previsione errata", spiegano gli sviluppatori.

OpenAI ha reso questo classificatore pubblicamente disponibile per raccogliere feedback sull’utilità di "strumenti imperfetti come questo". L’organizzazione ha spiegato di aver regolato questo tool sul una soglia di confidenza tale da mantenere basso il tasso di falsi positivi (in altre parole, lo strumento segnala un testo come "probabilmente scritto da IA" solo se il classificatore è molto sicuro di questo). Chiunque può provare questo classificatore, basta disporre di un account OpenAI (qui spieghiamo come crearne uno gratuitamente), partendo dalla pagina web openai.com/blog/new-ai-classifier-for-indicating-ai-written-text/. Per il momento, è consigliato l’utilizzo di questo strumento solo per analizzare testi scritti in lingua inglese.    

Impostazioni privacy