
Si chiama computer vision ed è la capacità posseduta da un computer dotato di intelligenza artificiale di capire una immagine. I computer sono da tempo dotati di questa capacità e stanno diventando sempre più esperti nel riconoscimento di oggetti a loro esterni. Ciò che manca loro al momento è la capacità di elaborare pensieri trasformandoli in assunzioni legate alle conoscenze acquisite dalla visione. Ad esempio se un umano guarda un'onda può facilmente prevedere la forma che essa assumerà dopo essersi infranta contro gli scogli di una costa o dopo avere invaso la battigia di una spiaggia. Questo tipo di visione futura è ad oggi ancora molto complicato anche per il computer più intelligente. Finora!
Sul tema recentemente è stato pubblicato un lavoro scientifico da parte di alcuni ricercatori del MIT (academic paper) dal titolo esplicativo di “Generating Videos with Scene Dynamics.”
Il lavoro racconta la creazione di un algoritmo capace di apprendere e dotato di intelligenza artificiale capace di prevedere i movimenti progressivi possibili, ipotizzati a partire dalla visione di una singola immagine statica. Per riuscire nell'impresa l'intelligeneza artificiale del computer è alimentata con milioni di video in modo da favorire l'apprendimento dei movimenti generalmente associati a oggetti diversi della vita quotidiana come treni, auto, acqua, ecc.
Dopo avere raccolto ed elaborato i dati il computer attiva due reti neurali tra loro diverse, una usata per generare dei brevi video sintetici tratti dai milioni di dati disponibili, l'altra per attestare la loro validità e genuinità in termini di realtà. La raccolta di dati è servita ad alimentare e verificare un modello per la classificazione di azioni e la generazione di video proiettati nel futuro ma a partire da conoscenze del contesto presente.
Cogliere i movimenti di un oggetto e le sue dinamiche future rimane ancora un problema irrisolto per le macchine tecnologiche odierne. Per ricolvere il problema servirebbero modelli interpretativi basati sul riconoscimento e la classificazione dell'immagine di un oggetto e la generazione in formato video di una sua possibille evoluzione di movimento futura. La difficoltà sta nelle molteplici modalità nelle quali il movimento si può realizzare e la scena futura può cambiare. Il primo passo da compiere è di permettere alla macchina di capire in quale forma una immagine o scena potrebbe trasformarsi. Per farlo servono modelli predittivi capaci di fornire gli strumenti per elaborare grandi quantità di informazioni ma soprattutto di fare previsioni.
I ricercatori del MIT hanno fatto questo utilizzando migliaia di video esistenti per sperimentare e alimentare la capacità di algoritmi intelligenti nella comprensione delle immagini e nella successiva generazione di brevi video, creati per mostrare l'evoluzione di movimento ipotizzato.
La validità di questi video è stata testata mostrandoli a umani unitamente a video prodotti da persone in carne ed ossa. In molti casi i video scelti come reali erano quelli generati dalla macchina. Una prova della validità del modello e degli algoritmi utilizzati.
I risultati al momento indicano comunque che nella maggioranza dei casi i video sintetici prodotti sono valutati per lo più come tali e poco assimilabili a quelli reali. I ricercatori sono in ogni caso convinti che il metodo adottato sia quello che serve per proseguire il loro lavoro di ricerca. I video fin qui prodotti illustrano al momento cosa il computer pensa possa apparire in una scena in movimento. Una previsione di futuro che indica come la macchina sia in grado di capire il presente. Senza una comprensione del presente neppure l'essere umano sarebbe in grado di fare previsioni.