DALL-E2, l’A.I. in supporto alla creatività umana

17 Ottobre 202217 Ottobre 2022 ibi.lumine

L’AI di DALL-E 2

L’azienda di San Francisco OpenAI (nota in tutto il mondo per aver creato il modello linguistico GPT-3) presentò poco più di un anno fa DALL-E. Si tratta di un sistema di intelligenza artificiale in grado di generare immagini partendo da una semplice didascalia testuale e conforme.
Il suo nome, DALL-E è un nome ispirato dall’artista Dalì e dal personaggio della Pixar WALL-E. È diventato un soggetto di alta rilevanza facile da rimanere impresso.
Secondo il progetto, esso consentiva agli utenti di esplorare il mondo dell’intelligenza artificiale in modo creativo e spontaneo, offrendo un’affascinante rivoluzione sul concetto di futuro dell’arte riprodotta attraverso l’AI.
Qualche mese fa, l’azienda, ha reso ufficialmente pubblica la versione aggiornata di DALL-E2. Ha dimostrato di essere in grado di realizzare creazioni di alta qualità con la capacità di manipolare le immagini in modo assolutamente unico per provenire da un sistema A.I.

TECNICAMENTE DENTRO DALL-E2

DALL-E 2 non è una singola rete neurale come altri software presenti nel mondo, bensì una serie di modelli A.I. che svolgono il loro lavoro in completa autonomia in sequenza.
All’inizio, l’azienda, singolarizzava i suoi progetti secondo modelli caratterizzati da acronimi, ed il primo riuscito con successo venne chiamato CLIP (Contrastive Language-Image Pre-training). La sua specialità gli permise di essere in grado di mappare un’intera didascalia testuale verso uno spazio di rappresentazione (una modalità di codifica per rappresentare matematicamente il testo).

Dopo il successo della riuscita di CLIP, un altro modello venne programmato per sviluppare la mappa secondo questa codifica testuale assieme ad una codifica visiva. Ossia un’immagine che cattura le informazioni semantiche mappate direttamente dalle didascalie.
In poche parole, questo sistema usa un metodo strategico che consente al testo e all’immagine di essere statisticamente affini tra di loro. In modo da poter mettere in grado il modello successivo di “disegnare” l’immagine più corretta secondo la didascalia fornita dall’utente in modo continuativo sempre più articolato.
Questo modello si chiama GLIDE. Grazie alle sue capacità è in grado di generare un’immagine fedele al testo e alle aspettative di risultato, mostrando all’utente il contenuto desiderato.

L’immagine generata però, può avere solo la dimensione di 64×64 pixel, quindi troppo piccola per intrecciarsi con i ruoli previsti ad un uso normale. Per modellizzare il problema, sono stati utilizzati due modelli di ‘’upsampling’’. Ossia la creazione di immagini ad alta definizione partendo da risoluzioni più basse, in modo da poter portare la condizione dell’immagine verso una risoluzione intermedia equivalente di 256×256 pixel, che renderà possibile il conseguente sviluppo di un’immagine di risoluzione finale di 1024×1024 pixel. Solo dopo questa successione di eventi, l’immagine diventa finalmente disponibile all’esposizione per l’utente.
Quello che veramente differenzia DALL-E2 dalla sua versione precedente è la tecnologia di generazione e sviluppo delle immagini perchè adesso si basa su un modello di diffusione.

Modelli a diffusione

Non stiamo parlando della scoperta dell’acqua calda, perché queste tecnologie sono affermate già da anni. Ma nonostante la difficoltà del loro processo di creazione si stanno finalmente appropriando di valore e di rispetto nel mondo dell’A.I. generativa. I modelli di diffusione creano immagini in modo autodidattico invertendo un processo riconosciuto come ‘’rumore’’.

Sul piano visivo è possibile percepire il mio concetto ricordando i vecchi modelli TV. Se ricordi, o hai presente, su ciascuno di essi l’immagine era fluida nella lettura ma conteneva una sorta di disturbo.
Già dal 2015 questi software speciali hanno creato molte audience, soprattutto dopo l’uscita dello studio “Deep Unsupervised Learning using Nonequilibrium Thermodynamics”. Ma lo studio di affermazione di questo metodo è stato “Denoising Diffusion Probabilistic Models”, che ha dimostrato come veramente sia possibile utilizzare questa nuova tecnica per generare immagini di alta qualità anche migliori delle GAN (Generative Adversarial Network).

Esiste anche una sottocategoria, ed in essa sono incluse le reti generative avversarie usate oggi per generare volti digitali di persone che non esistono. Avendo il permesso di osservare numerosi esempi dove i modelli a diffusione generano risultati addirittura migliori delle GAN.

I modelli a diffusione, da sempre, sono ispirati dalla termodinamica e imparano a generare tutte le immagini tramite un rigido addestramento. Nella fase di questo addestramento il loro unico scopo è quello di ottenere un processo di diffusione per distruggere un segnale aumentandone il disturbo. Grazie a questa successione di eventi la rete neutrale acquisisce la competenza di imparare e prevedere la componente disturbo tramite un inequivocabile segnale. Andando successivamente a ridurla applicandoci sopra il processo inverso perché dal disturbo nasce l’immagine.

Man mano che procede con i suoi risultati delle sue capacità, l’A.I. sarà in grado di modificare un’immagine fornita da un utente o addirittura creata dallo stesso imparando ad aggiungere oggetti e cose che conosce per modificarla a suo piacere. Per generare un’immagine è sufficiente scrivere una didascalia di quello che si desidera vedere, in modo che il modello possa generare le idee correlate in base al suo apprendimento per lo svolgimento di quella esatta azione.

Inutile precisare come i casi d’uso per architetti e designer saranno innumerevoli…Ma è ovvio! All’utente in questione, è sufficiente evidenziare con il mouse l’area interessata dalla modifica per alterarla. Oggi, esattamente oggi, nell’era del risveglio, si pongono varie possibilità agli occhi di designer, creativi e a tutte le unicità dei membri di questo movimento.

Descrivere un’immagine e vedersela creare in un paio di minuti è sinceramente il sogno di qualsiasi creativo con poche competenze di disegno grafico. Decisiva l’utilità nel velocizzare il lavoro, soprattutto per professionisti senza tempo a disposizione.
Presto sarà disponibile anche la realizzazione di design per ambienti, in modo da poter rispondere ai desideri del mercato e ai suoi corrispettivi clienti…preparati a vivere la vita di tutti i giorni come una nuova esperienza, anche se in realtà lo stai già facendo!

https://www.instagram.com/ibi.lumine/

Correlati

ibi.lumine

Potrebbe anche interessarti

Le principali modalità di truffa con gli NFT

Seoul, la prima città ad entrare nel metaverso nel 2023

Recensione Samsung Galaxy Watch Pro 5: vero competitore dell’Apple Watch