(Adnkronos) – OpenAI ha annunciato il rilascio di Sora 2, il suo modello di punta per la generazione di video e audio, segnando un’evoluzione significativa nel campo dell’intelligenza artificiale generativa. Il modello originale Sora, introdotto a febbraio 2024, è stato definito il “momento GPT-1 per il video”, rappresentando il primo approccio in cui la generazione video ha iniziato a funzionare con l’emergere di comportamenti complessi come la permanenza degli oggetti, derivanti dalla scalabilità del pre-training. Da allora, il team di Sora si è concentrato sull’addestramento di modelli con capacità di simulazione del mondo più avanzate, ritenute cruciali per la creazione di sistemi IA che comprendano profondamente il mondo fisico.

Con Sora 2, OpenAI ambisce a un “momento GPT-3.5 per il video”, indicando un salto qualitativo notevole. Sora 2 è in grado di eseguire compiti eccezionalmente difficili, e in alcuni casi impossibili, per i modelli di generazione video precedenti. Esempi includono “routine di ginnastica olimpica, backflip su una paddleboard che modellano accuratamente le dinamiche di galleggiamento e rigidità, e tripli axel mentre un gatto si tiene aggrappato per la vita”.

A differenza dei modelli precedenti, che potevano “deformare la realtà per eseguire con successo un prompt di testo” (ad esempio, un pallone da basket che si teletrasporta nel canestro dopo un errore), Sora 2 mostra una maggiore aderenza alle leggi della fisica. “In Sora 2, se un giocatore di basket sbaglia un tiro, il pallone rimbalza sul tabellone”. Questo dimostra una “migliore capacità di obbedire alle leggi della fisica rispetto ai sistemi precedenti”, una capacità fondamentale per qualsiasi simulatore di mondo utile, che deve “essere in grado di modellare il fallimento, non solo il successo

“. Il modello rappresenta anche un grande passo avanti in termini di controllabilità, riuscendo a seguire istruzioni intricate su più inquadrature mantenendo accuratamente lo stato del mondo, eccellendo negli stili realistici, cinematografici e anime.

Come sistema di generazione video-audio general-purpose, Sora 2 è capace di creare paesaggi sonori di sottofondo sofisticati, discorsi ed effetti sonori con un alto grado di realismo.

Inoltre, Sora 2 permette l’iniezione diretta di elementi del mondo reale. Ad esempio, “osservando un video di uno dei nostri colleghi, il modello può inserirli in qualsiasi ambiente generato da Sora con una rappresentazione accurata dell’aspetto e della voce”. Questa capacità è molto generale e funziona per qualsiasi essere umano, animale o oggetto.

Nonostante il modello sia “lontano dalla perfezione e commetta molti errori”, esso conferma che “un’ulteriore scalatura delle reti neurali sui dati video ci avvicinerà alla simulazione della realtà”.

Ma ecco il video di lancio di Sora 2 ad opera di OpenAI dove è presente anche una versione “artificiale” di Sam Altman



OpenAI ritiene che, lungo il percorso verso simulatori di scopi generali e sistemi di IA in grado di operare nel mondo fisico, gli utenti possano “divertirsi molto con i modelli che stiamo costruendo”. La funzionalità “upload yourself”, testata internamente, ha generato grande entusiasmo, percependola come “una naturale evoluzione della comunicazione – dai messaggi di testo alle emoji, alle note vocali, a questo”.

Per questo motivo, OpenAI sta lanciando un’applicazione social per iOS chiamata semplicemente “Sora”, alimentata da Sora 2. All’interno dell’app, gli utenti possono “creare, remixare le generazioni degli altri, scoprire nuovi video in un feed Sora personalizzabile e inserire se stessi o i propri amici tramite cameo”. Con i cameo, è possibile inserire la propria persona direttamente in qualsiasi scena Sora con notevole fedeltà, dopo una breve registrazione video e audio una tantum nell’app per verificare l’identità e catturare l’immagine.

L’app, lanciata internamente la settimana scorsa, ha già dimostrato la sua capacità di “creare nuove amicizie in azienda”. L’azienda crede che “un’app sociale costruita attorno a questa funzionalità di ‘cameo’ sia il modo migliore per vivere la magia di Sora 2”.

Ecco un altro esempio delle potenzialità magiche di Sora 2



OpenAI affronta attivamente le preoccupazioni relative a “doomscrolling, dipendenza, isolamento e feed ottimizzati per RL-sl”. A tal fine, l’azienda sta fornendo agli utenti “gli strumenti e l’opzionalità per controllare ciò che vedono nel feed”. Utilizzando i modelli linguistici di grandi dimensioni esistenti di OpenAI, sono stati sviluppati nuovi algoritmi di raccomandazione che possono essere istruiti tramite linguaggio naturale. Inoltre, sono stati implementati meccanismi per “sondare periodicamente gli utenti sul loro benessere” e offrire proattivamente l’opzione di regolare il proprio feed.

Di default, il contenuto mostrato è fortemente orientato verso “le persone che si seguono o con cui si interagisce, e vengono prioritizzati i video che il modello ritiene più probabile che l’utente utilizzi come ispirazione per le proprie creazioni”. L’app “non ottimizza per il tempo trascorso nel feed” ed è stata esplicitamente progettata per “massimizzare la creazione, non il consumo”. Ulteriori dettagli sono disponibili nella “Feed Philosophy”.

L’app è pensata per essere utilizzata con gli amici. Il feedback predominante dai tester è che “i cameo sono ciò che rendequesta esperienza diversa e divertente da usare – bisogna provarla per capirla davvero, ma è un modo nuovo e unico per comunicare con le persone”. Il lancio avviene tramite un’app basata su inviti per incoraggiare l’uso tra amici, con l’intento di “rafforzare la comunità” in un’epoca in cui “tutte le principali piattaforme si stanno allontanando dal social graph”.

La protezione del benessere degli adolescenti è una priorità. Vengono imposti limiti predefiniti sul numero di generazioni che gli adolescenti possono vedere al giorno nel feed, e vengono applicate “autorizzazioni più severe sui cameo per questo gruppo”. Oltre agli stack di sicurezza automatizzati, OpenAI sta espandendo i team di moderatori umani per “rivedere rapidamente i casi di bullismo se si presentano”.

Il lancio include “controlli parentali Sora” tramite ChatGPT, consentendo ai genitori di ignorare i limiti di scorrimento infinito, disattivare la personalizzazione dell’algoritmo e gestire le impostazioni dei messaggi diretti.

Con i cameo, gli utenti mantengono un controllo end-to-end sulla propria immagine. “Solo tu decidi chi può usare il tuo cameo, e puoi revocare l’accesso o rimuovere qualsiasi video che lo includa in qualsiasi momento”. I video contenenti cameo, incluse le bozze create da altre persone, sono sempre visibili all’utente. Numerosi argomenti di sicurezza sono stati affrontati con questa app, tra cui “il consenso all’uso dell’immagine, la provenienza, la prevenzione della generazione di contenuti dannosi e molto altro”. Maggiori dettagli sono disponibili nel documento “Sora 2 Safety” [link al Sora 2 Safety doc].

OpenAI riconosce che “molti problemi con altre app derivano dal modello di monetizzazione che incentiva decisioni in contrasto con il benessere dell’utente”. L’unico piano attuale è “dare agli utenti la possibilità di pagare una certa somma per generare un video extra se la domanda è troppo alta rispetto alla potenza di calcolo disponibile”. L’azienda si impegna a comunicare apertamente qualsiasi cambiamento nell’approccio alla monetizzazione, mantenendo il benessere dell’utente come obiettivo principale.

Questo è l’inizio di un percorso, ma con le potenti modalità di creazione e remix di contenuti offerte da Sora 2, OpenAI lo vede come “l’inizio di un’era completamente nuova per le esperienze co-creative”. L’azienda è ottimista che questa sarà una “piattaforma più sana per l’intrattenimento e la creatività rispetto a quanto disponibile attualmente”.

L’app Sora per iOS Sora iOS app è già scaricabile. Gli utenti possono registrarsi nell’app per ricevere una notifica push quando l’accesso al proprio account sarà disponibile. Il rollout iniziale è previsto negli Stati Uniti e in Canada, con l’intenzione di espandersi rapidamente in altri paesi. Dopo aver ricevuto un invito, sarà possibile accedere a Sora 2 anche tramite sora.com. Inizialmente, Sora 2 sarà disponibile gratuitamente, con limiti generosi per consentire l’esplorazione delle sue capacità, sebbene soggetti a vincoli di calcolo. Gli utenti di ChatGPT Pro potranno accedere al modello sperimentale di qualità superiore Sora 2 Pro su sora.com (e presto anche nell’app Sora). È prevista anche la release di Sora 2 tramite API. Sora 1 Turbo rimarrà disponibile, e tutti i contenuti creati continueranno a essere nella libreria di sora.com.

I modelli video stanno progredendo “molto rapidamente”. I simulatori di mondo general-purpose e gli agenti robotici “rimodelleranno fondamentalmente la società e accelereranno l’arco del progresso umano”. Sora 2 rappresenta un progresso significativo verso questo obiettivo. In linea con la missione di OpenAI, è “importante che l’umanità tragga beneficio da questi modelli man mano che vengono sviluppati”. OpenAI confida che Sora “porterà molta gioia, creatività e connessione nel mondo”.

—

tecnologia

webinfo@adnkronos.com (Web Info)