Alla ricerca dell’auto-descrizione

Spread the love

Microsoft sta studiando una tecnologia in grado di identificare gli elementi che compaiono in una foto e di generare automaticamente una didascalia che ne spieghi dettagliatamente il contenuto.

Questo strumento, che riprodurrebbe la capacità umana di tradurre in parole degli elementi visivi, rientra in un progetto più vasto sull’intelligenza artificiale, ma già da solo produrrebbe delle conseguenze notevolissime sulla catalogazione delle immagini.

Nell’esempio riportato  nel blog di Microsoft, nel caso della foto di un uomo al computer, questa tecnologia dovrebbe riprodurre il funzionamento del cervello umano ed essere in grado di distinguere che il soggetto principale è l’uomo in primo piano e non il computer sullo sfondo e che, dal momento che ha la barba, si tratta di un uomo e non di una donna.

Finora questo tipo di tentativi di image recognition non ha portato a risultati apprezzabili, ma la novità consisterebbe nelle reti neurali (neural networks), cioè in elementi del computer modellati sul funzionamento del cervello umano per connettere la visione al linguaggio.

Se le ricerche andassero a buon fine, dunque, le foto potrebbero essere catalogate automaticamente,  senza l’intervento umano, con un enorme abbattimento dei costi.

E i vantaggi non sarebbero solo economici. In teoria si potrebbe ottenere una catalogazione più oggettiva, che non dipenderebbe dall’orizzonte culturale del catalogatore, ma da una macchina pre-impostata con un vocabolario e delle regole semantiche univoche.

E dalla descrizione automatica, sarebbe piuttosto semplice passare anche al keywording automatico, con gli stessi notevoli vantaggi.

La realtà è troppo complessa da analizzare e questo progetto rientra nel mito già leibniziano di una logica combinatoria in grado di ridurre tutto dentro un sistema chiuso e perfettamente controllabile?

Può darsi, ma quest’ideale sta spingendo molti colossi dell’informatica alla ricerca del migliore algoritmo per ottenere una descrizione automatica e pertinente. Esiste anche un concorso tra i migliori software allo studio, il Microsoft COCO Captioning Challenge.

Tra i big impegnati in questo campo non poteva mancare Google.

Anche i ricercatori di Google insistono sulle reti neurali.
Mentre apparentemente  sembrerebbe più facile far partire per primi gli algoritmi di visione artificiale, per poi passare alla traduzione dei risultati in linguaggio naturale, le loro ricerche evidenziano che l’approccio più efficace è invece prendere un’immagine e produrre direttamente una sequenza leggibile di parole per descriverla. Bisogna cioè  unire i più recenti modelli di visione artificiale e quelli linguistici in un unico sistema congiunto, combinando due reti neurali ricorrenti. Questo stesso approccio, anche se su basi differenti, sta funzionando bene nella traduzione automatica.

Certo questo metodo non ha prodotto dei risultati perfetti, ma i progressi rispetto al passato sono evidenti e le prospettive di miglioramento notevoli.