La prima di cui parliamo oggi è la possibilità di ottenere una trascrizione automatica dell'audio, la sbobinatura.
Si tratta di convertire il parlato in testo scritto, la creazione automatica dei sottotitoli sincronizzati ai video, che sono generati automaticamente, quindi per un risultato perfetto andrebbero corretti manualmente.
Il canale YouTube permette di ottenere i sottotitoli automatici generati con l'intelligenza artificiale.
Anche i programmi di video editing, per esempio io uso Filmora Wondershare, permettono di ottenere la generazione automatica dei sottotitoli.
Anche le piattaforme come Facebook e Instagram naturalmente hanno funzionalità di trascrizione automatica dell'audio.
E' possibile ottenere dei sottotitoli in tempo reale anche ad esempio con Windows: nella barra in basso degli strumenti audio è possibile attivare il menù accessibilità e attivare sottotitoli in tempo reale., in alto comparirà la trascrizione in tempo reale di ciò che l'utente sta dicendo.
Esiste anche l'equivalente di chat GPT e DALL-E per generare automaticamente video, partendo da un testo, un prompt testuale.
Oppure si può caricare una foto un'immagine 2D statica e ottenere l'animazione di questa foto.
Digitando del testo, si può visualizzare la bocca che si muove, le mani che si muovono, ottenere quindi l'animazione di una foto.
Oppure si possono utilizzare degli Avatar, cioè delle rappresentazioni umanoidi simili agli esseri umani che possono interpretare determinate azioni, discorsi.
Anche in questi strumenti sono presenti però dei filtri che controllano e impediscono la generazione di video, per esempio di violenza estrema, o con contenuti sessuali, immagini di celebrità o coperte da
copyright.
La soluzione per la generazione automatica di video sviluppata da Open AI si chiama Sora.
Volevo farvi vedere una dimostrazione di cosa sia in grado di fare Sora.
Questo è un esempio, Sora non è disponibile al momento per tutti gratuitamente, è soltanto in fase Beta, però sono stati resi pubblici i risultati di alcuni test.
Un prompt in inglese che ho tradotto in italiano richiedeva di creare un video che rappresentasse una donna elegante che cammina in una strada di Tokyo piena di neon caldi luminosi, insegne animate della città. Descriveva nel dettaglio il suo abbigliamento: la donna indossa una giacca di pelle nera o un abito lungo rosso, stivali neri, una borsa nera, occhiali da sole e rossetto rosso. Cammina con sicurezza.
La strada è umida e riflettente, creando un effetto specchio delle luci colorate. Molti pedoni camminano accanto.
Questo è il video generato dall'intelligenza artificiale che rappresenta appunto questa donna nelle strade di Tokyo.
Poiché è stato generato automaticamente, ci sono degli errori, quindi si vedrà che c'è un movimento anomalo dei piedi della donna, però è uno strumento sicuramente molto interessante.