Quale sarà lo step evolutivo successivo al deep learning nella roadmap evolutiva delle tecniche di data analytics?
Con l’affermarsi in ambito industriale/commerciale delle tecniche di gestione ed analisi dei Big Data, i sistemi di apprendimento automatico di tipo cognitivo rappresentano la frontiera dell’innovazione e della ricerca applicata. Gli algoritmi e le tecnologie di deep learning rappresentano lo strumento attraverso cui tale ricerca viene condotta, con diverse applicazioni in contesti reali di business (e non solo) di oggi e di domani.
Ma i centri di ricerca più avanzati in tutto il mondo stanno già lavorando allo step evolutivo successivo, come ha avuto modo di ilustrare Riccardo Prodam durante l'evento di lancio del chapter romano di SingularityU tenutosi mercoledì scorso a Roma.
Nell’arco di 10 anni la legge di Moore, basata sostanzialmente sulla crescente capacità di miniaturizzare i circuiti di silicio, sarà “annichilita” dai limiti della fisica classica. La potenza di calcolo dei nuovi processori (CPU, GPU, etc) non raddopierà più ogni 18 mesi perché si sta raggiungendo il limite fisico entro il quale le giunzioni di silicio drogato si comportano ancora in modo deterministico. La crescita esponenziale dei volumi di dati generati da applicazioni social e IoT, prevista per i prossimi decenni, non sarà quindi accompagnata da una equivalente crescita nella capacità di elaborazione di tali moli di dati.
Ad esempio Riccardo ricordava come, per realizzare una self-driving car che presenti i requisiti di sicurezza tali da consentirne la commercializzazione su ampia scala, essa debba essere in grado di elaborare autonomamente 3 petabyte di dati al giorno.
La sfida si è quindi spostata dalla capacità di progettare CPU sempre più potenti, all’ideazione di modelli di calcolo e architetture differenti da quelli di Touring e von-Neumann.
In tale contesto sono stati portati avanti, con sempre maggiore interesse anche da parte di player industriali come IBM o Hewlett-Packard, programmi di ricerca e protipizzazione fondati sulla Neuromorphic Engineering: la riproduzione, mediante circuiti elettronici, degli stessi meccanismi di funzionamento del sistema nervoso centrale. L’architettura di riferimento si sposta quindi da una pura astrazione matematica (macchina di Touring) al modello neuro-biologico del cervello animale.
Di tale modello si intende imitare proprio la grande capacità di analisi parallela delle informazioni derivante dalla struttura topologica delle innumerevoli interconnessoni possibili fra le diverse cellule nervose.
Fra i principali driver di progetti come SyNAPSE, citato da Riccardo, c’è proprio l’esigenza di realizzare sistemi di controllo (cervelli?) per robot di nuova generazione in grado di apprendere e mutuare i propri comportamenti analizzando in real-time gli stream di dati provenineti dai propri sensori.
Tali capacità analitiche potranno rappresentare una risorsa fondamentale per l’applicazione di tecniche avanzate di data analytics (come la Topological Data Analysis – TDA) atte a scandagliare dataset non trattabili, per volumi e natura, con tecnologie e metodi più tradizionali (sistemi HPC, machine learning o deep learning).
In fondo la TDA si basa proprio sulla capacità di riconoscere e attribuire un valore alle forme in cui sono organizzate grandi nuvole di punti (dataset fortemente multi-dimensionali con elevati livelli di sparsità, incompletezza, rumore, etc.): attività questa per cui la struttura neuro-biologica del cervello rappresenta una soluzione con eccezionali livelli di efficacia ed efficienza.
Algoritmi di analisi topologica dei dati vengono già applicati nel campo della ricerca clinica, della finanza o delle scienze sociali anche attraverso l’uso di tecnologie di calcolo più tradizionali.
Ayasdi, start-up nata dallo spin-off di un progetto di ricerca dell'Unviersità di Stanford per opera di chi per primo ha ideato la teoria matematica sottostante, già applica tali tecniche algoritmiche all’interno della propria piattaforma di machine learning con la promessa di riuscire a scovare informazioni nascoste in grandi moli di dati anche dove gli approcci analitici più tradizionali falliscono.
Esistono naturalmente anche implementazioni open source di molti algoritmi di analisi topologica, fra cui un package per R dedicato proprio alla TDA.