
L’evoluzione delle macchine informatiche ha comportato anche un’evoluzione umana, sia nel modo di guardare alle macchine e alla loro utilità sia nell’accettare di diventare simili a loro per poterci interagire e parlare. Tutti i computer che hanno fatto la storia dell’informatica hanno obbligato chi li costruiva e chi li utilizzava a imparare l’uso di nuovi comandi e linguaggi, di nuove apparecchiature e di nuovi modi di interagire con essi. E’ una storia che fin dall’inizio ha visto la ricerca di interazioni diverse e più tipicamente umane come quella vocale ma che si è dovuta scontrare con la immaturità della tecnologia e con la sua incapacità a codificare il linguaggio umano in modo tale da poter stabilire una comunicazione stabile e affidabile.
La strada percorsa è stata lunga e la destinazione finale non è ancora in vista ma molto è stato fatto dal primo esperimento condotto in uno dei laboratori della Bell che aveva portato a un sistema capace di riconoscere vocalmente i numeri telefonici alle moderne interfacce vocali come Siri o Cortana e fino al recente BOT di Microsoft denominato TAY. Negli ultimi dieci anni lo sviluppo di soluzioni di riconoscimento vocale e di nuove interfacce utente ha fatto passi da gigante e oggi si può intravedere una svolta destinata all’arrivo sul mercato di soluzioni sempre più potenti e attrezzate per emulare la voce umana, le sue caratteristiche e le sue potenzialità comunicazionali, descrittive, ambientali. E’ una evoluzione che non viaggia da sola ma insieme ad altre tecnologie come i dispositivi mobili e alle loro APP e che è resa possibile dall’impiego di intelligenza artificiale ma soprattutto dall’uso continuo e persistente che viene fatto dei nuovi dispositivi.
Da sistemi specializzati legati a computer e applicazioni dedicate al riconoscimento e alla trasformazione di testo in parole so è passati a sistemi miniaturizzati, sempre accessi e attivi, trasportabili e mobili dotati di applicazioni che, nella forma di assistenti personali (Siri di Apple, Cortana di Microsoft, Google Now di Google, M di Facebook, Echo-Alexa di Amazon, ecc.) sono in grado di riconoscere la voce umana, di interpretarne le parole, le sequenze e i significati per fornire risposte e azioni adeguate.
Anche se non ancora in grado di interagire con i loro interlocutori umani come lo farebbe al loro posto un assistente personale umano, le nuove applicazioni vocali, dotate di motori potenti e di intelligenza artificiale, sono già oggi prefigurate per fornire numerosi servizi e farsi carico di azioni al posto nostro. Possono portare a termine ricerche online, combinare tra loro varie fonti di informazione per trovare quello che cerchiamo, editare informazioni in base a comandi ricevuti o di integrare testi e altri contenuti. Lo possono fare perché capaci, grazie alle informazioni a cui possono accedere nel cloud e sui Big Data, di capire quello che diciamo loro, il contesto nel quale lo diciamo, di dialogare e di farsi carico nel tempo necessario di compiti ad esse assegnati ma anche di conoscere il cerchio o le reti di amici, colleghi e conoscenti, di sapere dove sono e come raggiungerli.
Robot domestici in marcia (en marche, anche senza gilet gialli)
La strada dell’evoluzione delle nuove interfacce è segnata. La velocità della loro evoluzione sarà dettata più dalla capacità umana ad adattarsi a esse che dalla loro disponibilità e abilità nel soddisfare i bisogni dei loro interlocutori umani. L’accelerazione avverrà quando dagli assistenti personali attuali e dalle loro generazioni future si passerà a componenti standard integrati in ogni applicazione e capaci di trasformare l’interazione tattile attuale in una interazione vocale.
Nel frattempo le nuove interfacce troveranno il modo di sfruttare la loro intelligenza artificiale per fare pratica sul campo e apprendere come decodificare e soddisfare al meglio le richieste dell’interlocutore umano ma anche a percepirne i bisogni anticipandoli in forma di dialogo e conversazione con l’utente allo scopo di aiutarlo a ricordare un evento, a portarlo a termine o a farsi delegare il compito di gestirlo.
L’esempio più evoluto delle nuove interfacce vocali è probabilmente quello prodotto da Amazon e noto come ECHO. Inizialmente pensato per essere un book reader avanzato e dotato di microfoni multidirezionali e speaker ad alta fedeltà, ECHO si è trasformato in qualcosa di completamente diverso, aprendo la strada a nuove applicazioni in ambiti molto diversi tra loro. Il rutto reso possibile dalla disponibilità di potenza di calcolo e informazioni residenti nel cloud AWS di Amazon ed erogati nella forma di servizi. ECHO può essere visto come un dispositivo generico che presto sarà in grado di ospitare varie tipologie di APP dotate di interfacce vocali. Non è un caso che Amazon abbia distribuito da subito un kit di sviluppo con le API che gli sviluppatori possono usare per integrare le loro applicazioni con ECHO e le sue innovative e potenti tecnologie. Domani servizi simili potranno essere forniti dalle nuove generazioni di Siri o Cortana o dai BOT come TAY di Microsoft.
L’evoluzione di Siri potrebbe tradursi a breve in una nuova generazione di interfacce vocali. Il creatore di Siri, dopo aver lasciato Apple, ha creato una sua società, SuxFive Labs, che a breve dovrebbe rilasciare VIV, un assistente personale molto più sofisticato di Siri perché capace di instaurare una interazione dialogante con l’interlocutore umano basata sulla capacità di comprendere meglio ma anche di apprendere. L’apprendimento non sarà determinato dalla interazione con un singolo individuo, il possessore del dispositivo, ma da tutte le interazioni nelle quali VIV è coinvolto e che produrranno migliaia e migliaia di interlocuzioni, domande e dialoghi che andranno ad arricchire in modo esponenziale e dinamico la sua capacità e abilità di fornire risposte.
Se questa è l’evoluzione delle nuove interfacce tecnologiche molte cose sono destinate a cambiare. Potremo fare pagamenti sicuri con semplici comandi vocali, interagiremo con Marche, prodotti ed entità o agenti digitali attraverso la nostra voce per soddisfare bisogni, portare a compimento progetti, attività o azioni. Diminuirà il ruolo del display come strumento di interazione e aumenterà quello di speaker, microfoni, connessioni Wi-Fi, Bluetooth, ecc.
Che il delle nuove interfacce sia grande è testimoniato dall’interesse e dagli investimenti di grandi aziende come IBM, Oracle, Salesforce, Samsung, Sony, Facebook, oltre che Google, Apple, Amazon e Microsoft in progetti di ricerca e sviluppo. Sono progetti che stanno prendendo strade diverse. Alcuni ad esempio (Microsoft e il suo Cognitive Service) sono focalizzati anche sulla componente emozionale della voce e sul riconoscimento delle espressioni facciali (voce e muscoli della faccia insieme determinano un insieme di espressioni facciali diverse capaci di comunicare emozioni e quindi pensieri, sentimenti ecc.).
L’evoluzione delle nuove interfacce vocali potrebbe preparare scenari futuri prossimi venturi nei quali i dispositivi con i quali siamo oggi abituati a interagire potrebbero sparire nella forma di semplici chip impiantati sul nostro corpo o miniaturizzati all’interno di prodotti tecnologici indossabili con i quali tutta l’interazione avverrò a voce. Sono scenari forse ancora lontani ma dei quali si intravedono già i contorni e la possibilità.
Anche in questa evoluzione, così come nel campo delle tecnologie di Realtà Virtuale, Wearable e IoT, il 2016 è destinato ad essere un anno di grande svolta!
Chi volesse sperimentarne in anticipo gli effetti potrebbe decidere di acquistare ECHO o VIV quando arriverà.
*Input per questo articolo sono stati tratti dalle pubblicazioni online di Brian Remmele