Come è ormai noto, il futuro dell’industria e della tecnologia è fortemente legato all’elaborazione dei cosiddetti Big data. Lo si è appurato in vari campi della medicina, tra cui la diagnosi precoce della demenza (continua a leggere), e continueremo a vederlo in molti altri ambiti. Tuttavia, il trattamento dei dati massivi richiede potenze di calcolo enormi, e quindi tecniche in grado di sveltire il processo rendendolo fattibile su macchine che non siano soltanto supercomputer.

Se immaginiamo i Big data come tabelle o matrici, una loro proprietà è quella di contenere pochi valori sparsi in un mare di zeri. Per i normali metodi di analisi, questo significa effettuare addizioni e moltiplicazioni per zero che non danno risultati utili, quindi calcoli sprecati. Per ovviare al problema, il Massachussets Institute of Technology (MIT) ha ideato un sistema basato sull’algebra tensoriale che produce, in autonomia, codice ottimizzato per i cosiddetti dati sparsi.

Il metodo si chiama TACo (Tensor Algebra Compiler) e secondo l’Istituto, aumenta di ben 100 volte la velocità di analisi dei big data evitando gli “zero” inutili. Un grande aiuto per i programmatori, soprattutto quando si tratta di elaborare matrici di dati a più di due dimensioni. In questi scenari, le tecniche tradizionali calcolano il risultato dell’incrocio di due matrici, lo mettono in memoria e lo confrontano con la successiva. TACo, invece, può affrontare in un singolo processo il calcolo dell’intera matrice a più dimensioni (il tensore), con enorme risparmio di tempo.

Inoltre, TACo è molto semplice da usare. All’analista basta specificare le dimensioni del tensore ed il file da cui leggere i valori, lasciando al sistema l’onere di analizzarlo. Secondo dati pubblici di Amazon, un tensore a tre dimensioni occupa ben 107 exabyte; TACo è in grado di ridurre questo enorme valore a soli 13 Gigabyte, un risultato semplicemente impensabile fino a poco tempo fa.