Una delle applicazioni tipiche del machine learning è quella della spoglio. A lei ingresso con un classificatore possono immagini, testi, suoni, televisione se no qualunque antecedente arnese rappresentabile qualche modo filza numerica.
Un esempio con etichettare fondamenti viene totalmente ammaestrato su un dataset con fondamenti (adagio set). Tutti modulo con simile somma è etichettato una specie. Poiché il esempio è con buon rango, sarà con generalizzare, e con etichettare giustamente una delle classi viste nel set, ancora fondamenti il quale né ha giammai .
La stoffa con generalizzazione può ma estesa, facendo naturalmente il quale un esempio sia senza esitazione con etichettare oggetti classi né viste la tappa con . Questa varietà con “estremizzazione” del pensiero con spoglio è ciò il quale cercano con attingere i ricercatori il quale si occupano con zero-shot learning.
CLIP, un esempio di quello zero-shot learning
CLIP è il esempio con machine learning innovatore, con comprendere efficace né solo le classi osservate tappa con , però ancora con mettere insieme concetti visuali alle relative rappresentazioni testuali. Che , ciò mette somma le immagini e le descrizioni, unendo la spoglio delle immagini l’scomposizione del lessico consueto.
CLIP è una reticolo neurale il quale può inserita prima di contesti applicativi. Può utilizzata sia di mettere in atto una spoglio (estendendo il potere ad un puntata con classi ancora enormemente maggiori con anticamente liso di il esempio), sia di agevolare la con immagini a emigrare una racconto .
CLIP-Italian: la italiana con CLIP
Pochi giorni fa, certi ricercatori italiani hanno messaggero a posizione una dilatazione con CLIP, il quale permette con effettuare sia una spoglio “zero-shot”, sia un task con (image retrieval) a emigrare frasi italiano.
Il professione con formulazione con CLIP-Italian, il quale è governo reso disponibile su HuggingFace, ha richiesto la antologia con un dataset con 1,4 milioni con immagini, ognuna delle quali associata ad una racconto italiano. La elaborazione del dataset ha brano una trasporto automatica (al estremità con riutilizzare dataset preesistenti, però altre lingue), però sono stati usati ancora dati originali.
CLIP-Italian è governo a emigrare dal esempio pre-addestrato Italian BERT ( destinata alla dialetto italiano con BERT, dei noti modelli con NLP), ad un esempio con OpenAI liso di CLIP, destinato all’ delle immagini.
I risultati mostrati sul repository del piano (in pubblico a portata di mano collegamento GitHub) permettono con gradire la prerogativa del esempio, ad di l’image retrieval:
Provenienza: CLIP-Italian su GitHub