Il Intelligenza artificiale È una delle priorità dei giganti della tecnologia, che negli ultimi anni hanno concentrato parte dei loro sforzi sullo sviluppo di modelli linguistici avanzati per migliorare i propri servizi e strumenti. Una delle aziende che ha investito di più nell’intelligenza artificiale è Google, che ha fatto notizia qualche settimana fa classe di ingegnere Che ha rivelato che uno dei suoi chatbot ho avuto La capacità di esprimere pensieri e sentimenti. Ora, l’azienda tecnologica di Mountain View sta girando di nuovo la testa dopo aver introdotto il modello Pathways Autoregressive Text-to-Image, meglio noto come Parti.
È un modello autoregressivo che genera immagini fotorealistiche dai testi, ovvero Barty è in grado di creare arte basata su parole o frasi. Non è magia, si chiama intelligenza artificiale. Questa tecnologia si basa su modelli linguistici avanzati in grado di disegnare immagini da zero.
Maggiore è il numero di parametri, più accurato sarà il testo
Esempi di immagini create da Barty
I ricercatori di Google spiegano in A Editoria Ciò ha messo Barty alla prova su quattro scale: 350 milioni, 750 milioni, 3 miliardi e 20 miliardi. Tutti e quattro con lo stesso input di testo. Maggiore è il numero di parametri, maggiore è la precisione. Dopo aver condotto i primi test, hanno scoperto che quest’ultima metrica è più efficace quando i puntatori sono astratti.
Leggi anche

In un esempio, hanno utilizzato il seguente testo di ingresso: “Immagine di un canguro con cappuccio arancione e occhiali da sole blu sull’erba di fronte alla Sydney Opera House con un cartello sul petto che diceva ‘Ciao, amici! Come possiamo vedere nell’immagine seguente, la scala 350M presenta una rappresentazione un po’ confusa e più fantasiosa, ma il risultato è davvero sorprendente sulle scale 3B e 20B.

Barty, il nuovo modello Google in grado di generare immagini fotorealistiche da testo
“Sebbene Barty produca risultati di alta qualità per un’ampia gamma di indicatori, il modello presenta tuttavia molti limiti, sia tecnici che etici o etici”, sottolineano da Google.
“I modelli da testo a immagine aprono molte nuove possibilità alle persone di creare immagini uniche ed esteticamente piacevoli, agendo come un pennello per aumentare la creatività e la produttività umana”, affermano i ricercatori di Google, che avvertono anche del pericolo che Barty promuova gli stereotipi. “Dopotutto, stanno sviluppando modelli basati su algoritmi”, affermano.
1600 segnali
I creatori di Barty sottolineano che questo tipo di strumento è “più interessante” quando consente “di creare scene che non sono mai state viste prima”. A tal fine è utile che Barty sia in grado di gestire istruzioni “lunghe e complesse” che gli richiedono di riflettere, tra l’altro, la sua “accurata conoscenza del mondo”, nonché di comporre immagini che comprendano l’interazione di diversi oggetti e partecipanti e la capacità di aderire a una certa forma e stile.
Leggi anche

Per raggiungere questi obiettivi, i ricercatori hanno creato PartiPromts (P2), un insieme di oltre 1.600 prompt in lingua inglese che possono essere utilizzati per misurare le abilità di Parti. Gli indicatori forniti da P2 possono essere semplici e complessi. Ciò consente agli esperti di valutare i progressi del loro strumento con descrizioni fino a 67 parole.
Il secondo modello si basa sull’intelligenza artificiale (AI) di Google in meno di sei mesi

Dall-E, l’altra tecnologia AI di Google
A fine maggio Google ha introdotto il modello IMAGE, un modello basato sull’intelligenza artificiale (AI) in grado di creare immagini altamente realistiche da brevi descrizioni testuali. Entrambi sono “complementari”, secondo la società di Mountain View. Ciascuno esplora “due diverse famiglie di modelli generativi: la diffusione e l’auto-regressione, rispettivamente”. Quindi, a differenza dell’altra tecnologia di Google per la creazione di immagini dal testo, Parti converte prima un insieme di immagini in una serie di input di codice.
Le materie prime di Parti sono stringhe di token immagine, piuttosto che token di testo formulati in un’altra lingua. Utilizza il “tokenizer” dell’immagine ViT-VQGAN, addestrato per codificare immagini sotto forma di sequenze di token.
“Evangelista di zombie dilettante. Creatore incurabile. Orgoglioso pioniere di Twitter. Appassionato di cibo. Internetaholic. Hardcore introverso.”
More Stories
Come fare in modo che la versione mobile di Outlook legga ad alta voce i messaggi da Gmail o da un altro provider di posta elettronica
Ubisoft sta lavorando a uno strumento di intelligenza artificiale per “supportare gli scrittori”
Mettere a tacere l’iPhone 15 non sarà così facile