Microsoft ha ampliato la sua famiglia di modelli di intelligenza artificiale Phi 3.5, con tre proposte progettate per offrire funzionalità avanzate per testo, ragionamento visivo e comprensione. Phi 3.5 mini-instruct, Phi 3.5 MoE-instruct e Phi 3.5 Vision-instruct sono i tre nuovi modelli che espandono la serie Phi 3 di modelli linguistici multimodali, che Microsoft ha condiviso in diretta su Hugging Face. Phi-3.5 Vision è un modello multimediale aperto progettato per fornire ragionamenti basati su dati di qualità, siano essi testi, immagini o video. Ha una dimensione di 4,2 miliardi di parametri e supporta una finestra contestuale di 128.000 token. Microsoft ti guida in attività quali la comprensione di un’immagine, grafici o tabelle, il confronto di più immagini o il riepilogo di più passaggi. Da parte sua, il Phi 3.5 mini è un modello leggero, con 3,8 miliardi di parametri che supportano una finestra di contesto di 128.000 token, e rivolto principalmente a compiti che richiedono elevate capacità di pensiero, come generare codice o risolvere problemi matematici. Il terzo modello, Phi 3.5 MoE, affronta anche compiti che richiedono elevate capacità di pensiero. Si tratta di un modello costruito su più modelli, ognuno progettato per un compito diverso, e contiene 42.000 milioni di parametri con una finestra contestuale di 128.000 token, sebbene funzioni con 6.600 milioni di parametri attivi.