Tecnologia e Impresa /

Come l’automazione cambia la Data Science

Come l’automazione cambia la Data Science

25 Marzo 2020 Gian Carlo Lanzetti
SoloTablet
Gian Carlo Lanzetti
share
Il software AutoML di TIBCO può aumentare in modo notevole la produttività dei data scientist automatizzando i compiti più banali e consentendo di dedicare maggior tempo all’innovazione. Michael O’Connell, Chief Analytics Officer, TIBCO Software spiega come.

Il ruolo e la funzione dei data scientist sono in crescita: essi sono infatti diventati gli “hacker”, facendo tutto quello che serve per portare a termine il loro compito. Un compito che può comprendere il progetto e il deployment di sistemi end-to-end per testare i modelli e per inferenza – per job batch che girano lanciati con un clock o un trigger – ed elaborazione di eventi in tempo reale. Tali sistemi end-to-end comprendono tipicamente accesso e federazione di dati, strategie di caching, feature engineering, machine learning e model ops. Il model ops può comprendere la “containerizzazione” di modelli, l’aggiunta di interfacce RESTful e il deployment in sistemi operazionali – in ambienti ibridi e qualche volta multi-cloud.

Un aspetto cruciale è che ciò che richiedono soprattutto i data scientist è diventare più produttivi. AutoML li aiuta assistendo gli analisti nella preparazione dei dati, la pulizia degli stessi, la feature selection, feature engineering e modellazione, con explainability. L’assistenza digitale di AutoML è in fase di estensione alle piattaforme di data science che scalano attraverso ambienti cloud ibridi con deployment in architetture basate su eventi.

Idealmente, i sistemi AutoML dovrebbero generare flussi automatici che sono modificabili e informativi in merito al funzionamento del software. Questo dovrebbe includere il far emergere i passi o i nodi del workflow e come essi vengono creati e configurati per l’analisi. I flussi generati dovrebbero, e possono, rappresentare un’esperienza educativa per il data scientist su come utilizzare il software in modo ottimale. Un sistema AutoML è anche un modo per implementare best practice, sia per il data scientist esperto e professionale, sia per il praticante con meno esperienza. Così, quando l’utente si muove attraverso una pipeline di data science, l’ambiente aiuta a collegare, pulire e preparare i dati, oltre a ingegnerizzare caratteristiche per la costruzione di modelli. Inoltre, il sistema dovrebbe idealmente offrire una guida su questioni come i set di validazione di blocco (hold-out), combinazioni di caratteristiche e modelli e possibilità di spiegazione (explainability) dei modelli.

Una nota di cautela – non stiamo affermando che l’obiettivo è la completa automazione di tutto nell’ambito della data science, com’è stato sostenuto da altri. Il goal non è quello di realizzare un ambiente di automazione totale in cui la pressione di un grande pulsante rosso  significhi ‘lavoro concluso’. Piuttosto, l’obiettivo è quello di formare l’utente come assistente digitale, automatizzare i compiti di più basso livello, educarlo e implementare buone pratiche scientifiche.

AI automatizzata per tutti

Il gran numero di stakeholder coinvolti in un progetto di data science rende una sfida la semplificazione del processo. Per esempio, un sistema che parte da un analista di business per dataviz (visualizzazione dei dati, ndt) e arriva a un data scientist per la formazione e il deployment coinvolge diversi workflow per pulire i dati, ingegnerizzare le caratteristiche e costruire i modelli che creano le previsioni – in job batch e su dati in streaming su sistemi operazionali.

I miglioramenti nella produttività si ottengono dalla generazione automatica di questi differenti workflow per compiti quali la preparazione dei dati, la feature engineering, feature selection e modellazione. L’automazione dei processi dalla preparazione alla sintonizzazione del modello produce workflow trasparenti e modificabili che possono diventare più velocemente versioni pronte per la produzione in sistemi operazionali.

Quando un data scientist crea un modello predittivo, sviluppare i numerosi diversi workflow data prep / data science richiesti può rivelarsi un lavoro molto impegnativo. Quando invece essi vengono generati automaticamente, ci possono essere importanti risparmi in termini di tempo, modelli più accurati e best practice applicate su tutto.

 

Produttività in crescita e output più smart

La preparazione automatica dei dati (data prep) e il machine learning possono creare notevoli incrementi nella produttività per gli analisti di business e i data scientist. Automatizzando differenti stadi del workflow dai business analyst ai data scientist alla produzione, si creano modelli che si sintonizzano e si implementano come ambienti cloud nativi di produzione.

Per indirizzare questioni più complesse, il deployment e il collegamento a feed di dati dei modelli di machine learning stanno diventando più semplici, per supportare decisioni più veloci e più smart in tempo reale. Non si tratta di creare una scatola nera; sia che l’obiettivo desiderato sia quello di aiutare i servizi finanziari a scoprire frodi in modo più accurato, piuttosto che monitorare l’output di un campo petrolifero, analisti, scienziati e sviluppatori utilizzano workflow automatizzati per ottenere insight che consentano di costruire modelli più intelligenti a un ritmo più veloce.

Un’area di valore fondamentale nella data science è legata alla realizzazione di previsioni accurate in ambienti operativi reali. Così come le linee produttive fisiche automatizzate hanno creato la moderna era industriale – si pensi ai robot utilizzati per costruire autovetture – l’automazione della data science sta inaugurando l’era industriale digitale attraverso la possibilità di applicare le analytics rapidamente a diversi domini da parte di esperti che non sono più costretti a svolgere il “lavoro sporco” (attività di basso livello).

Attraverso l’automazione, la data science può svilupparsi più rapidamente per risolvere problemi del mondo reale, offrendo nel contempo a tutti benefici misurabili lungo tutta la catena del valore.

 

comments powered by Disqus

Sei alla ricerca di uno sviluppatore?

Cerca nel nostro database


Third Millenium

Software house dedicata allo sviluppo di App per il mondo mobile

Vai al profilo

Softec S.p.A.

Leader in Italia nell'ambito del Mobile Computing, per la realizzazione di...

Vai al profilo

gandgapp

Sviluppatore Android

Vai al profilo

eFuture s.a.s.

Azienda digitale dedita allo sviluppo di software desktop (gestionali, utility...

Vai al profilo