Pilotaggio di progetti di machine learning attraverso forti venti contrari

Attualmente generiamo circa 2,5 quintilioni (milioni di trilioni) di byte di dati in tutto il mondo ogni giorno. In soli quattro giorni, il numero totale di byte generati equivale all'incirca all'intera popolazione di insetti sulla Terra. All'estremità ricevente di gran parte di questi dati ci sono aziende di ogni forma e dimensione. Il loro futuro come aziende dipende da come convertono i dati raccolti in business intelligence affidabile che viene applicata e monetizzata con successo.

"[U]nlocking valore aziendale da tutti i dati è fondamentale", ha scritto David Stodder, direttore della ricerca senior per la business intelligence di TDWI, in un rapporto Pulse Q3 2021. "Le persone hanno bisogno dei mezzi per esplorare, analizzare, visualizzare e condividere le informazioni sui dati in modo semplice e creativo, in modo da poter affrontare circostanze mutevoli e prendere decisioni informate".

La capacità di sfruttare, analizzare e monetizzare l'afflusso quotidiano di dati nelle casse aziendali dipende dall'intelligenza artificiale, il grande equalizzatore dei big data. I modelli di machine learning possono produrre risultati che influenzano ogni aspetto delle operazioni di un'azienda, dalla finanza allo sviluppo del prodotto, fino ai modelli di acquisto dei clienti. Tuttavia, le aziende sono alle prese con l'avanzamento dei progetti di machine learning oltre la fase pilota, rallentando o sabotando così i loro sforzi per implementare i modelli di intelligenza artificiale in modo tempestivo.

"A causa dei mal di testa che creano le distribuzioni di intelligenza artificiale, le organizzazioni considerano il tempo necessario per mettere in produzione un modello d'oro come un'area opportunistica di miglioramento", ha riferito Enterprise Strategy Group (ESG), una divisione di TechTarget. "Con la velocità con cui i dati cambiano in un'azienda moderna e dinamica, le organizzazioni ritengono sempre più inaccettabile impiegare quasi un mese per rendere operativa l'IA".

In questo video, Kathleen Walch e Ron Schmelzer di Cognilytica affrontano i venti contrari che le aziende incontrano nei progetti pilota di machine learning, che possono portare a costosi ritardi nell'implementazione del modello. Tutto inizia ponendo le domande giuste su visibilità e applicazione aziendale, qualità e quantità dei dati, infrastruttura ed esecuzione, personale ed esperienza, selezione di fornitori e prodotti. Le risposte a queste domande determineranno se il progetto di apprendimento automatico è positivo o negativo.

Trascrizione

Kathleen Walch: Salve a tutti e benvenuti a questo webinar, "Come spostare il vostro progetto di machine learning oltre il progetto pilota". Questa sarà una panoramica della metodologia per realizzare progetti di intelligenza artificiale, giusto, parleremo, sai, del perché usare l'IA e poi di alcune insidie da evitare. Questo è presentato dagli analisti di Cognilytica Kathleen Walch e Ron Schmelzer.

Quindi, un po 'di Cognilytica nel caso in cui non ci conoscessi: Cognilytica è una società di consulenza e formazione di ricerca incentrata sull'intelligenza artificiale e sulla tecnologia cognitiva. Produciamo ricerche di mercato, consulenza e orientamento su intelligenza artificiale, machine learning e tecnologia cognitiva. Produciamo anche il popolare podcast AI Today. Lo facciamo da circa quattro anni, quindi potresti averci sentito lì. Abbiamo anche una serie di infografiche, white paper e altri contenuti popolari sul nostro sito web. Ci concentriamo sull'adozione dell'intelligenza artificiale da parte delle imprese e del settore pubblico e contribuiamo anche con autori sia a Forbes che a TechTarget.

Ron Schmelzer: Sì. Quindi, si spera, hai letto molti dei nostri articoli sui temi dell'intelligenza artificiale e dell'apprendimento automatico. E l'obiettivo qui per noi ora è aiutarti, se stai lavorando con il progetto di apprendimento automatico, a superare alcune delle difficoltà che potresti incontrare nel trasformare quei progetti di apprendimento automatico in realtà. Quindi, passiamo ora alla nostra prossima diapositiva qui.

E penso che uno dei maggiori ostacoli per molte persone che stanno cercando di portare avanti i loro progetti di apprendimento automatico sia assicurarsi di risolvere il problema giusto. Molte volte, sai, uno dei problemi più fondamentali con l'IA è che le persone stanno cercando di applicare l'IA a un problema per il quale non è molto adatto. E una delle cose che possiamo guardare mentre procediamo, per cosa è davvero, davvero adatta l'IA? Una cosa di cui parliamo nella nostra ricerca sono questi sette modelli di intelligenza artificiale perché il problema con l'IA è che è un termine un po' generico. E la sfida è che quando due persone diverse parlano di intelligenza artificiale, potrebbero non parlare della stessa cosa.

In generale, senza entrare nei dettagli, abbiamo questi schemi. Potresti avere sistemi di intelligenza artificiale che sono bravi a classificare o identificare i sistemi - il modello di riconoscimento - o utilizzare l'elaborazione del linguaggio naturale per creare sistemi conversazionali. Approfitti dei big data e trovi entrambi i modelli in quei big data, o anomalie nei big data, o ti aiuti a fare previsioni migliori con l'analisi predittiva? Possiamo anche avere sistemi di apprendimento automatico che possono aiutarci a fare cose che gli esseri umani farebbero altrimenti con sistemi autonomi. O forse trovare la soluzione ottimale per un puzzle o un gioco o qualcosa del genere, o qualche scenario, che si chiama sistemi guidati da obiettivi. Oppure, potremmo effettivamente fare in modo che i nostri sistemi di apprendimento automatico AI mastichino enormi quantità di dati per aiutare a creare un profilo di un individuo. Ciò che tutti questi condividono è che stiamo usando i dati per ricavare intuizioni. E, per questo motivo, non stiamo scrivendo regole e quindi stiamo usando la probabilità, stiamo usando la statistica. E se non possiamo scrivere una regola per un sistema ma abbiamo bisogno che la macchina faccia qualcosa, allora è un buon segnale che l'apprendimento automatico dell'IA potrebbe essere una buona soluzione per questo. Se è probabilistico, che è ciò che sono i sistemi di apprendimento automatico, allora dovremmo usare un modello di apprendimento. Questo è l'apprendimento automatico.

Walch: Esatto. Quindi, è importante capire quando utilizzare l'intelligenza artificiale, ed è anche importante capire per cosa non è adatta. Quindi, se hai un'attività di automazione ripetitiva e deterministica, non utilizzare l'intelligenza artificiale e l'apprendimento automatico. Se disponi di analisi formulaiche, allora vai avanti e fallo. Inoltre, i sistemi che richiedono una precisione del 100%. Poiché è probabilistico e non deterministico, non puoi mai ottenere un'accuratezza del 100% e, se è ciò di cui hai bisogno, l'intelligenza artificiale e l'apprendimento automatico non sono lo strumento giusto per questo. Situazioni con pochissimi dati di addestramento: sai, la domanda è sempre di quanti dati di addestramento ho veramente bisogno? E diciamo che dipende dallo schema che stai cercando di fare. Ma in generale, se non hai molti dati di addestramento -- sai, sono molto, molto minimi -- probabilmente non sono adatti per l'IA e le tecnologie cognitive. Inoltre, situazioni in cui assumere una persona può essere più facile, più economico e più veloce. Sai, ci vuole tempo per costruire questi sistemi, non puoi semplicemente prenderli e iniziare a usarli. Quindi, se sarà un piccolo progetto, o qualcosa in cui è più semplice assumere un essere umano, potrebbe essere una soluzione migliore. E inoltre non usare l'intelligenza artificiale solo per fare l'intelligenza artificiale perché è un fattore interessante o una parola d'ordine, le persone ne parlano. Assicurati che fornisca effettivamente valore e venga utilizzato nella giusta situazione. Quindi, come Ron ha detto prima, se è probabilistico, vai avanti con l'IA; se è deterministico, usa invece un approccio di programmazione.

Piloting machine learning projects through harsh headwinds

Schmelzer: Esatto. Quindi ora, so che molti di voi potrebbero discutere con alcuni di questi punti e dire: "Aspetta un secondo, non stiamo cercando di costruire sistemi di intelligenza artificiale in grado di utilizzare una piccola quantità di dati di addestramento, forse nessun dato di addestramento, la visione di quello che viene chiamato apprendimento zero-shot -- o anche l'uso di sistemi basati su cloud che hanno un modello enorme che possiamo forse riaddestrare o estendere usando l'apprendimento di trasferimento, alcune di queste cose di cloud vision?" La risposta è sì, è vero; anche se alcuni di questi punti stanno effettivamente iniziando a scomparire, il che significa che stiamo ampliando la portata di dove l'intelligenza artificiale e l'apprendimento automatico possono essere applicati a situazioni con dati di addestramento inferiori o situazioni in cui forse abbiamo un essere umano che svolge un compito e forse il Sistema di intelligenza artificiale ora, solo, il costo e la complessità sono diminuiti notevolmente.

L'unico motivo per cui lo menzioniamo è perché a volte questi problemi sono un fattore. E diventano un fattore quando si guarda a qualcosa chiamato decisione AI go/no-go, che è qualcosa che in realtà Intel e altri hanno reso popolare e fa parte di una metodologia per realizzare bene progetti di machine learning AI. In tal caso, dovresti porti queste domande - e queste sono le domande che ti aiuteranno a identificare se i progetti di machine learning AI sono possibili, dati i problemi che stai cercando di risolvere. Uno, hai una definizione del problema che sia anche chiara? Sai quale problema stai cercando di risolvere? In caso contrario, è un po 'il più grande no-go, giusto? Hai persone nella tua organizzazione che sono disposte a cambiare qualsiasi cosa stiano facendo ora? Se la risposta è no, allora non ha senso costruire una prova del concetto e non puoi nemmeno trasformare il pilota in realtà. E poi, ovviamente, il problema è che questo avrà qualche impatto? Queste sono domande sulla visibilità aziendale.

Poi abbiamo queste domande sui dati, che risalgono ad alcuni dei punti di cui parlava prima Kathleen. Disponiamo anche di dati che misurano ciò che ci interessa? Anche se è una piccola quantità, misura anche ciò che vogliamo? Ne abbiamo abbastanza? Beh, sai, mentre potremmo voler fare un apprendimento a colpo zero e forse a pochi colpi, non è possibile in ogni scenario. Potrebbe essere possibile in situazioni in cui disponiamo di un grande modello preaddestrato, come la visione artificiale, ma potrebbe non essere possibile per l'analisi predittiva, i modelli e le anomalie, dove un piccolo -- non vorrai rilevare un modello, quando tu avere solo cinque o sei esempi di quel modello. Tutto dipende dallo schema che stai cercando di risolvere. Infine, ovviamente, abbiamo problemi di qualità dei dati. Sai, la spazzatura dentro è spazzatura fuori. Questo è sicuramente il caso dell'apprendimento automatico. Quindi, abbiamo questi problemi. Questi sono tutti problemi di dati.

E poi dal lato dell'esecuzione, il problema è che possiamo persino costruire la tecnologia che vogliamo? Disponiamo dell'infrastruttura tecnologica di cui abbiamo bisogno? Abbiamo lo stack di sviluppo di machine learning che vogliamo? Possiamo persino, se costruiamo questo modello, possiamo farlo entro il tempo richiesto? Un problema è che può volerci un sacco di tempo per allenarsi, vero? Che ne dici del tempo di esecuzione del modello? È molto lento? Queste sono domande che dobbiamo porci.

E, naturalmente, quest'ultimo punto è, possiamo usare il modello anche dove vogliamo usare il modello? È possibile utilizzare il modello se dovremo utilizzarlo, ad esempio, su un dispositivo perimetrale, in un cloud o in un ambiente locale? Possiamo anche farlo? Se la risposta a una qualsiasi di queste domande è no, ciò rende il tuo progetto molto difficile o quasi impossibile. Se tutte le risposte a queste domande sono sì, puoi immaginarle come una serie di semafori: se tutte le luci sono verdi, allora il nostro progetto può andare avanti. Sai, non risolve tutti i problemi, ma ci fa sapere come possiamo portare avanti il nostro progetto. E questa è una specie di chiave per questa sfida.

Walch: E questa è la cosa veramente importante è assicurarsi che sia presente il team giusto e che i ruoli corretti siano presenti e vengano utilizzati anche per il progetto. Quindi, sai, diciamo sempre di porre la domanda: "È presente il team di intelligenza artificiale giusto?" E ci sono alcune aree diverse su cui puoi concentrarti. Quindi, il lato commerciale, sai, vuoi avere una linea di business disponibile? Analisti aziendali, architetti di soluzioni, data scientist: molte volte i data scientist rientrano in quella linea di attività. Quindi, sai, hai i ruoli e le competenze giusti lì? Quindi, la scienza dei dati stessa - sai, hai uno scienziato dei dati nella tua squadra? Hai uno specialista del dominio? E poi abbiamo parlato di problemi di dati e problemi di qualità dei dati. Quindi, se necessario, hai un'etichettatura esterna o collaboratori in modo da poter ottenere i tuoi dati, specialmente nell'apprendimento supervisionato che necessita di dati buoni, puliti e ben etichettati. Hai soluzioni di etichettatura, sai, in atto? Parliamo anche del ruolo di ingegneria dei dati. All'interno di questo ruolo, e sai, hai un ingegnere dei dati, ingegneri di sistema, un team di dati e anche un team cloud che stai utilizzando per questo progetto e questo team. E poi l'operazionalizzazione. Quindi, questo è quando vuoi effettivamente utilizzare il modello in produzione. Potresti aver bisogno di sviluppatori di app, amministratori di sistema e cloud. Quindi, questi sono tutti ruoli diversi che sono necessari per rendere il tuo team di progetto AI un successo. E devi parlarne e dire, sai, ho bisogno di ogni singolo ruolo? Ho posizioni? E, sai, ho questi in generale in modo da poterli effettivamente applicare quando necessario?

Schmelzer: Sì, e penso che una specie di sfida con questo sia che potresti essere o meno come organizzazione, potresti essere una piccola azienda. Potresti essere solo una manciata di persone nella tua organizzazione o potresti essere un'organizzazione molto grande. E potresti pensare a questo come "oh mio Dio, devo assumere tutte queste persone". E la risposta è, beh, non devi necessariamente assumerli come individui. Devono solo esistere come ruoli e, se non li hai come ruoli nell'organizzazione, è molto più difficile superare la fase del progetto pilota, che è l'argomento di questo webinar.

Ora, sì, ci sono aziende che costruiscono strumenti che stanno democratizzando, per così dire, la scienza dei dati per metterla nelle mani di più persone. Esistono strumenti che aiutano con l'ingegneria dei dati e rendono questo compito molto più realistico da svolgere con un numero limitato di persone. E ci sono cose che accadono anche dal lato dell'operatività, con questo spazio in evoluzione di MLOps e gestione ML, governance ML. E, ma penso che il punto sia che devi assicurarti che questo sia affrontato in qualche modo. O si affronta con una persona, si affronta con un ruolo o si affronta con uno strumento. Se non viene affrontato con nessuna di queste cose e hai un gruppo di persone che vogliono far accadere le cose ma pochissime persone che possono farlo accadere, allora scoprirai che ti imbatterai in questo ostacolo.

Quindi, parte del modo per evitare questi blocchi stradali è, ovviamente, come il grande mantra, che è "pensa in grande, inizia in piccolo e ripeti spesso". Ma questo si riferisce fondamentalmente a ciascuna di queste particolari sfide del progetto AI, giusto? E possiamo in qualche modo esaminarli. E in realtà abbiamo parlato di alcuni di loro durante questo webinar, parte del quale è che se hai problemi di qualità dei dati e hai problemi di quantità di dati, questo è un potenziale ostacolo e devi capire: "Devo devo risolverlo tutto in una volta? O posso risolverne un po'?" Ancora una volta, applica "pensa in grande, inizia in piccolo e ripeti spesso" a ciascuno di questi punti elenco. E forse puoi iniziare con un problema più piccolo che richiede dati più piccoli che richiedono un numero inferiore di passaggi che puoi utilizzare per affrontare i problemi di qualità dei dati.

Walch: Esatto. Ci sono anche problemi con la pipeline di ingegneria dei dati e problemi con il team di data science. Sai, abbiamo parlato di avere i ruoli giusti in atto? E se non lo fai, allora, sai, pensa a come puoi ottenerlo. Sai, c'è un'altra soluzione che posso trovare? Posso assumere qualcuno per questo ruolo? Posso addestrare qualcuno in questo ruolo? E se la risposta è no, allora potrebbe essere un problema, potrebbe essere un ostacolo che hai.

Schmelzer: Stessa cosa con le operazioni, possiamo pensare alle cose che dobbiamo fare con le operazioni. Come posso modificare la versione del mio modello? Come farò a iterare il mio modello? Ho costruito una pipeline di riqualificazione? Se la risposta è no, allora posso - invece di affrontarlo di nuovo, mordendo più di quanto possa masticare - posso ripetere? Inizia con un piccolo modello; versione che un modello; capire come riqualificare quell'unico modello, un piccolo modello; quindi passare a due modelli oa un modello più grande. Sai, possiamo farlo in questo modo. Questo è il modo in cui affrontiamo il blocco stradale. Stessa cosa con il ROI -- se stanno dicendo: "Guarda, non sto, sai, non investirò X milioni di dollari in questa enorme soluzione, che non ho idea di quale sia il ROI. Posso iniziare piccolo? C'è un modo per iniziare con un progetto più piccolo con un ROI più piccolo e iterare verso una soluzione migliore?" Stessa cosa con gli schemi, sai. Forse sto cercando di far bollire l'oceano qui e fare tre o quattro o cinque modelli di intelligenza artificiale tutti in una volta -- un sistema di riconoscimento conversazionale che esegue analisi predittive e rilevamento di modelli e anomalie in modo autonomo. Potrebbe essere una cosa molto, molto difficile da fare. Quindi, posso suddividere questo progetto in fasi più piccole e magari affrontare solo la parte della conversazione, affrontare solo la parte del riconoscimento o qualcos'altro, e poi costruirla nel tempo?

Penso che la prossima cosa che preoccupa sia che ci sia una differenza tra un progetto pilota e una prova di concetto, giusto? A volte sono usati in modo intercambiabile, ma non dovrebbero. Una prova del concetto è, posso semplicemente sperimentare questa tecnologia? Posso anche fare anche quello che voglio fare? Sai, è, è come, sai, ho le competenze specifiche? Sai, sto sperimentando questa cosa, posso costruire un cosiddetto progetto giocattolo solo per vedere se funziona? Considerando che un pilota dovrebbe essere un vero problema in un ambiente reale con dati reali con problemi reali. E penso, penso che se riesci ad affrontare questi problemi -- di nuovo, potremmo iniziare, potremmo pensare in grande, iniziare in piccolo e iterare spesso -- con un piccolo progetto pilota che sarà davvero utile, non una sorta di cosa che è nemmeno sarà utile. Giusto?

Walch: Esatto. Un'altra cosa che abbiamo visto è, sai, non comprare olio di serpente dal venditore. Quindi, c'è molto clamore di marketing, spin ed entusiasmo attorno ad alcune di queste aziende, e alcuni strumenti e offerte che le aziende affermano di poter fornire. Cerca di evitare quelle, quelle trappole. Perché quello sarà un posto di blocco. Sai, se un'azienda dice che può fare, sai, cinque, 10, 15 cose diverse e in realtà non può, assicurati di capirlo. Inoltre, stai affrontando prima i problemi di intelligenza artificiale più difficili? Sai, Ron continua a dire -- e noi di Cognilytica continuiamo a dire -- pensa in grande. Quindi, pensa a quei problemi difficili, ma poi inizia in piccolo e ripeti spesso. Se stai affrontando prima i problemi di intelligenza artificiale più difficili, non dovrebbe sorprendere molto il fatto che sarà un progetto incredibilmente difficile e molto probabilmente fallirà. Se inizi in piccolo e continui a ripetere, hai molte più possibilità di successo e che il progetto continuerà ad andare avanti. Inoltre, stai risolvendo un vero problema aziendale? Sai, questo risale anche alla domanda sul ROI. Stai risolvendo un vero e proprio problema aziendale o stai solo costruendo quel piccolo progetto giocattolo di cui parlava Ron? E poi, sta effettivamente fornendo un ROI reale che è misurabile e ha un impatto sull'azienda?

Schmelzer: Sì, e infine, sai, un'altra sfida che potresti affrontare se stai incontrando un blocco stradale pilota è dove viene eseguito il progetto AI? È gestito all'interno dell'organizzazione IT, quindi trattato come una cosa tecnologica? O è all'interno della linea di business, che viene trattata come una cosa commerciale? Ovviamente, la nostra prospettiva è che i prodotti AI sono trasformativi e dovrebbero far parte del business. Non è una cosa IT, anche se c'è una componente tecnologica. Ma proprio come non chiedi alla tua organizzazione IT di mettere insieme fogli di calcolo e grafici Excel per la tua azienda - di solito fa parte di qualsiasi linea di business, funzioni, vendite, marketing, finanza, operazioni, qualunque cosa - la stessa cosa con l'IA. L'intelligenza artificiale non è una funzione della tecnologia; è una funzione del ruolo aziendale e, pertanto, l'azienda dovrebbe esserne responsabile e dovrebbe possederla.

Quindi, una delle cose di cui parliamo molto in Cognilytica è che esiste una metodologia per realizzare progetti di machine learning AI con maggior successo. Si chiama CPMAI - gestione cognitiva del progetto per l'intelligenza artificiale se vuoi sapere cosa rappresenta - e si basa su una metodologia vecchia di decenni chiamata CRISP DM, che originariamente era focalizzata solo su data warehouse e gestione dei dati, progetti di data mining , che è la parte DM di CRISP DM. Ed è fondamentalmente una metodologia iterativa per iniziare con la comprensione del business ma poi passare attraverso queste altre fasi della comprensione dei dati: preparazione dei dati, modellazione dei dati, valutazione del modello e infine operazionalizzazione del modello. E ciò che fa CPMAI è aggiungere i requisiti specifici dell'IA sullo sviluppo del modello e sulla valutazione del modello. E, vedi, CRISP DM non parla davvero di operazionalizzazione del modello. Quindi, questa è una cosa completamente nuova. E l'altra cosa che fa CPMAI è introdurre la metodologia Agile, che in realtà non era molto popolare quando è uscito CRISP DM. E questa è la metodologia accettata, ovvero possiamo fare sprint di due settimane per progetti di intelligenza artificiale in cui possiamo effettivamente realizzare qualcosa di veramente utile? Un vero progetto di machine learning in un breve sprint? La risposta è ovviamente che puoi, ed è proprio di questo che si occupa la metodologia CPMAI. Si tratta di raggiungere il successo facendo ciò che Agile ha dimostrato, che è, ancora una volta, pensare in grande, iniziare in piccolo e ripetere spesso. Ed è proprio di questo che tratta questa metodologia.

Walch: Esatto. Quindi grazie a tutti per esservi uniti a noi per questa presentazione. E se hai domande, puoi sempre contattarci a Cognilytica. Le nostre informazioni sono di seguito.