GPT-4V: Il sistema card con visione

Il sistema GPT-4 con visione (GPT-4V) consente agli utenti di istruire GPT-4 nell’analisi delle immagini fornite dall’utente ed è l’ultima capacità che stiamo rendendo ampiamente disponibile. L’incorporazione di modalità aggiuntive (come le immagini) nei grandi modelli di linguaggio (LLM) è considerata da alcuni come una frontiera chiave nella ricerca e nello sviluppo dell’intelligenza artificiale. I LLM multimodali offrono la possibilità di ampliare l’impatto dei sistemi basati solo sul linguaggio con nuove interfacce e capacità, consentendo loro di risolvere nuovi compiti e offrire esperienze innovative per gli utenti.

In questa scheda di sistema, analizziamo le proprietà di sicurezza di GPT-4V. Il nostro lavoro sulla sicurezza per GPT-4V si basa sul lavoro svolto per GPT-4 e qui approfondiamo le valutazioni, la preparazione e il lavoro di mitigazione specificamente per le immagini di input.