Sotto la lente

Il machine learning uccide la statistica?

Nessuno ha ormai dubbi sull’importanza dei dati per supportare le decisioni. La velocità, la globalità e la trasversalità che caratterizzano le attività decisionali di oggi rendono indispensabili sistemi di trasformazione del dato in informazioni utilizzabili subito e in modo integrato.

 

Allo stesso tempo, la tecnologia ha supportato lo sviluppo di metodologie di analisi dei dati sempre più sofisticate e affascinanti. Come spesso accade, dall’unione di una necessità e di un’opportunità è nata una soluzione: il machine learning. L’idea è che il modello possa essere suggerito dai dati stessi, plasmato dalla loro variabilità e varietà: così come Kasparov, Fischer o Carlsen hanno imparato a giocare a scacchi dai libri e dalle partite dei campioni prima di loro, diventando poi così bravi da batterli, così un algoritmo di machine learning (e ancora di più di deep learning), addestrato secondo i fondamenti dell’analisi matematico/statistica, può imparare e migliorare a ogni analisi effettuata.

 

Questo ha quindi «ucciso la statistica classica», così come l’abbiamo appresa fino a oggi, fatta di modelli più o meno rigidi cui provare a piegare i dati? Sempre provando a basare le conclusioni sui dati, si direbbe proprio di no.

 

Molte ricerche, tra cui l’ultima fatta da Kaggle (la più grande data science community del mondo) alla fine del 2020, mostrano come i modelli classici sono ancora di gran lunga le soluzioni più adottate per trasformare il dato in informazione a supporto delle decisioni. Nel caso della ricerca di Kaggle, il 76 per cento degli oltre 10mila professionisti rispondenti dichiara, forse per alcuni sorprendentemente, che gli algoritmi usati regolarmente nella propria attività sono la regressione lineare e logistica, segue un 65 per cento che utilizza decision trees e random forest, mentre solo il 40 per cento tecniche di machine learning oriented (reti neurali, deep learning ecc...).

 

La domanda è: perché, se ho a disposizione una macchina di Formula 1, è ancora così diffuso l’uso di un’utilitaria (almeno per molti giovani data scientist)?

 

Una prima risposta sta nell’equivoco contenuto nella domanda stessa: è sbagliato considerare i modelli classici un’utilitaria al cospetto della fuoriserie machine learning. Molto più appropriato paragonare i vari approcci della data analysis ad auto diverse – sportive ma anche fuoristrada, coupé ma anche monovolume, con cambio automatico ma anche manuale – con la conseguenza che devo scegliere l’auto giusta per il mio scopo: se devo portare la famiglia in vacanza, con la sportiva a due posti magari arrivo prima, ma il resto della famiglia e il bagaglio dove li metto?

 

Allo stesso modo, in alcune situazioni sarà più adatta una metodologia di machine learning, in altre una metodologia classica, proprio perché sono diverse le premesse e gli obiettivi.

 

Cerchiamo quindi di capire quali sono le differenze principali che caratterizzano i due approcci, senza scendere nel dettaglio delle singole metodologie, ma cercando di capire perché nella pratica manageriale non solo la statistica non è morta, ma è ancora viva e pressoché insostituibile.

 

Una prima importante differenza è nella quantità di dati a disposizione. Come facilmente intuibile, una tecnica di machine learning necessita di una grande quantità di dati per imparare in maniera deduttiva, e non sempre si ha a disposizione una base dati così abbondante. I modelli classici, volendo verificare induttivamente un modello predefinito, necessitano di meno dati per accertare la validità del modello rispetto ai dati stessi. In altre parole, il ricercatore formula alcune ipotesi sulle relazioni tra le variabili in gioco, sia a partire dalle teorie economiche e manageriali disponibili sia dalla propria esperienza sul campo. I dati vengono utilizzati soltanto per confermare o confutare la significatività di tali relazioni e non per costruire essi stessi nuova conoscenza. Per questo i modelli classici sono in un certo senso meno voraci in termini di numerosità campionarie.

 

Una seconda grande differenza è nell’obiettivo che si pone l’analisi: se questo è la performance predittiva, ovvero la capacità del modello di non sbagliare (o di sbagliare il meno possibile), allora la comprensione del modello passa in secondo piano. In quest’ottica, i modelli fondati su tecniche di machine learning sono certamente molto indicati perché orientati alla performance, ma, almeno quelli più articolati e complessi, di difficile comprensione per l’utilizzatore finale. Se, al contrario, è importante comprendere un fenomeno, leggere il modello e le sue implicazioni, interpretare gli impatti delle singole variabili, i modelli tradizionali risultano vincenti perché impostati a priori nella forma e stimati attraverso i dati nella sostanza. Su questo punto occorre tuttavia sottolineare che gli strumenti analitici più moderni pongono comunque maggiore attenzione alla parte interpretativa dei modelli di machine learning.

 

Esistono quindi differenze negli orizzonti temporali nei quali le decisioni vengono prese e differenze rispetto al peso di queste. Se per identificare operazioni sospette devo analizzare migliaia di transazioni su carte di credito o mercati finanziari in tempo reale, avrò molti dati a disposizione e il mio interesse sarà certamente la performance, cioè l’identificazione corretta di tali operazioni. Quindi i modelli di machine learning sono ideali per il mio scopo. Se però voglio capire la logica delle operazioni sospette, quali caratteristiche (variabili) è importante monitorare per prevenire o per intervenire con regole preventive, se devo insomma comprendere il modello, i modelli tradizionali o i modelli machine learning più semplici e interpretabili (random forest) sono i più indicati.

 

In sostanza, semplificando un po’, gli algoritmi più sofisticati di machine learning sono molto utili per l’analisi dei processi operativi, i modelli classici invece si rivelano molto utilizzati per la comprensione dei fenomeni (o quando la numerosità dei dati raccolti non consente altrimenti).

 

Se a questo aggiungiamo che la statistica classica è fondamentale nella fase esplorativa e di preparazione del dato – una fase fondamentale per l’applicazione anche dei modelli più complessi (per cucinare un piatto gourmet bisogna assaggiare e preparare prima gli ingredienti o, per usare un’affermazione ben nota agli analisti, vale anche per il machine learning la regola «garbage in, garbage out») – comprendiamo come il machine learning si aggiunga alla statistica e non la sostituisca tra gli strumenti nelle mani di data e business analyst per portare a compimento quello che è il loro vero compito: estrarre dai dati tutto ciò che è possibile per supportare le decisioni in un mondo sempre più complesso, ma sempre più ricco di dati.

 

SHARE SU