Pilotování projektů strojového učení přes drsný protivětr

V současné době celosvětově generujeme přibližně 2,5 kvintiliónů (milionů bilionů) bajtů dat každý den. Za pouhé čtyři dny je celkový počet vytvořených bajtů zhruba ekvivalentní celé populaci hmyzu na Zemi. Na přijímací straně většiny těchto dat jsou podniky všech tvarů a velikostí. Budoucnost jejich podnikání závisí na tom, jak shromážděná data převedou na důvěryhodné obchodní informace, které se úspěšně použijí a zpeněží.

„Odemknutí obchodní hodnoty ze všech dat je prvořadé,“ napsal ve zprávě Pulse Report za 3. čtvrtletí 2021 David Stodder, hlavní ředitel výzkumu TDWI pro business intelligence. "Lidé potřebují prostředky, aby mohli snadno a kreativně zkoumat, analyzovat, vizualizovat a sdílet statistiky dat, aby mohli reagovat na měnící se okolnosti a činit informovaná rozhodnutí."

Schopnost využít, analyzovat a zpeněžit každodenní nápor dat do firemních pokladen spočívá na umělé inteligenci – skvělém ekvalizéru velkých dat. Modely strojového učení mohou přinést výsledky, které ovlivňují každý aspekt podnikových operací od financí přes vývoj produktů až po nákupní vzorce zákazníků. Přesto se podniky potýkají s postupujícími projekty strojového učení za pilotní fázi, čímž zpomalují nebo sabotují své snahy o včasné nasazení modelů AI.

„Kvůli bolestem hlavy, které nasazení AI způsobuje, organizace vnímají čas potřebný k uvedení zlatého modelu do výroby jako příležitost ke zlepšení,“ uvedla Enterprise Strategy Group (ESG), divize společnosti TechTarget. "S rychlostí, jakou se data mění v moderním a dynamickém podnikání, mají organizace stále více pocit, že je nepřijatelné, aby zprovoznění AI trvalo téměř měsíc."

V tomto videu se Kathleen Walch a Ron Schmelzer ze společnosti Cognilytica zabývají problémy, se kterými se podniky setkávají v pilotních projektech strojového učení a které mohou vést k nákladným zpožděním při zavádění modelu. Všechno to začíná položením správných otázek o viditelnosti a aplikaci podnikání, kvalitě a kvantitě dat, infrastruktuře a realizaci, personálním obsazení a odbornosti a výběru dodavatele a produktu. Odpovědi na tyto otázky určí, zda je projekt strojového učení aktivní nebo ne.

Přepis

Kathleen Walch: Ahoj všichni a vítejte na tomto webináři „Jak posunout svůj projekt strojového učení přes pilotní verzi.“ Toto bude přehled metodologie pro provádění projektů AI, správně, budeme mluvit o tom, proč vůbec používat AI, a pak o některých úskalích, kterým je třeba se vyhnout. To prezentují analytici Cognilytica Kathleen Walch a Ron Schmelzer.

Takže něco málo o Cognilytica pro případ, že nás neznáte: Cognilytica je poradenská a vzdělávací firma zaměřená na AI a kognitivní technologie. Vyrábíme průzkum trhu, poradenství a poradenství v oblasti umělé inteligence, strojového učení a kognitivních technologií. Vyrábíme také populární podcast AI Today. Děláme to asi čtyři roky, takže jste nás tam mohli slyšet. Na našem webu máme také infografickou sérii, bílou knihu a další oblíbený obsah. Zaměřujeme se na přijetí AI v podnikovém a veřejném sektoru a také přispíváme autory do Forbes a TechTarget.

Ron Schmelzer: Ano. Doufáme, že jste si přečetli spoustu našich článků na téma AI a strojové učení. A naším cílem je nyní pomoci vám, pokud pracujete s projektem strojového učení, překonat některé problémy, se kterými se můžete setkat při realizaci těchto projektů strojového učení. Pojďme tedy nyní k našemu dalšímu snímku zde.

A myslím si, že jednou z největších překážek pro mnoho lidí, kteří se snaží posunout své projekty strojového učení kupředu, je ujistit se, že řeší správný problém. Mnohokrát, víte, jedním z nejzásadnějších problémů s umělou inteligencí je to, že se lidé pokoušejí aplikovat umělou inteligenci na problém, pro který se ve skutečnosti příliš nehodí. A jedna z věcí, na kterou se můžeme za pochodu podívat, k čemu se AI opravdu, ale opravdu dobře hodí? Jedna věc, o které v našem výzkumu mluvíme, je těchto sedm vzorců umělé inteligence, protože problém s umělou inteligencí je, že je to trochu obecný pojem. A problém je, když dva různí lidé mluví o AI, nemusí mluvit o stejné věci.

Obecně, aniž bychom zacházeli do detailů, máme tyto vzory. Mohli byste mít systémy umělé inteligence, které jsou dobré v klasifikaci nebo identifikaci systémů – rozpoznávacího vzoru – nebo pomocí zpracování přirozeného jazyka pro konverzační systémy. Využíváte výhod velkých dat a nacházíte v nich oba vzorce, nebo anomálie ve velkých datech, nebo vám pomáháte lépe předpovídat pomocí prediktivní analýzy? Můžeme mít také systémy strojového učení, které nám mohou pomoci dělat věci, které by jinak lidé dělali s autonomními systémy. Nebo možná najít optimální řešení hádanky nebo hry nebo něčeho takového, nebo nějakého scénáře, kterému se říká cíle řízené systémy. Nebo bychom ve skutečnosti mohli nechat naše systémy strojového učení AI prokousat obrovské množství dat, aby pomohly vytvořit profil jednotlivce. To, co mají všechny společné, je to, že používáme data k odvození statistik. A kvůli tomu to není tak, že bychom psali pravidla, a tak bychom používali pravděpodobnost, ale statistiku. A pokud nemůžeme napsat pravidlo pro systém, ale potřebujeme, aby stroj něco udělal, pak je to dobrý signál, že strojové učení AI by pro to mohlo být dobrým řešením. Pokud je to pravděpodobnostní, což jsou systémy strojového učení, pak bychom měli použít model učení. To je strojové učení.

Walch: Správně. Je tedy důležité porozumět tomu, kdy používat AI, a také je důležité pochopit, k čemu se nehodí. Pokud tedy máte opakující se deterministický úkol automatizace, nepoužívejte umělou inteligenci a strojové učení. Pokud máte vzorovou analýzu, pokračujte a udělejte to. Také systémy, které vyžadují 100% přesnost. Protože je to pravděpodobnostní a ne deterministické, nikdy nemůžete dosáhnout 100% přesnosti – a pokud je to to, co požadujete, umělá inteligence a strojové učení pro to nejsou tím správným nástrojem. Situace s velmi malým množstvím tréninkových dat – víte, otázkou vždy je, kolik tréninkových dat skutečně potřebuji? A my říkáme, že záleží na tom, jaký vzor se snažíte udělat. Ale obecně, pokud nemáte mnoho tréninkových dat – víte, je jich velmi, velmi minimum – pravděpodobně se nehodí pro AI a kognitivní technologie. Také situace, kdy najmout osobu může být jednodušší, levnější a rychlejší. Víte, vybudování těchto systémů vyžaduje čas, nemůžete to jen tak uchopit a začít používat. Takže pokud to bude malý projekt nebo něco, kde je snazší najmout člověka, mohlo by to být lepší řešení. A také nedělejte AI jen proto, abyste AI dělali, protože je to skvělý faktor nebo módní slovo, lidé o tom mluví. Ujistěte se, že skutečně poskytuje hodnotu a je používán ve správné situaci. Takže jak Ron zmínil dříve, pokud je to pravděpodobnostní, pokračujte s AI; pokud je deterministický, použijte místo toho programovací přístup.

Piloting machine learning projects through harsh headwinds

Schmelzer: Správně. Takže teď vím, že mnozí z vás mohou argumentovat některými z těchto bodů a říci: „Počkejte chvíli, nesnažíme se vybudovat systémy umělé inteligence, které by mohly využívat malé množství tréninkových dat, možná žádná tréninková data, vizi čemu se říká nulové učení – nebo dokonce používání cloudových systémů, které mají obrovský model, který můžeme přeškolit nebo rozšířit pomocí přenosového učení, některé z těchto věcí cloudového vidění? Odpověď zní, ano, je to pravda; i když některé z těchto bodů ve skutečnosti začínají mizet, což znamená, že rozšiřujeme dosah, kde lze AI a strojové učení aplikovat na situace s nižšími tréninkovými daty nebo na situace, kdy možná máme člověka, který dělá úkol a možná Systém umělé inteligence se nyní značně snížil náklady a složitost.

Jediný důvod, proč to zmiňujeme, je ten, že někdy jsou tyto problémy faktorem. A stávají se faktorem, když se podíváte na něco, čemu se říká rozhodnutí AI go/no-go, což je něco, co ve skutečnosti Intel a další zpopularizovali a je součástí metodiky pro dobré provádění projektů strojového učení AI. V takovém případě byste si měli položit tyto otázky – a to jsou otázky, které vám pomohou zjistit, zda jsou projekty strojového učení AI vůbec možné, vzhledem k problémům, které se snažíte vyřešit. Za prvé, máte definici problému, která je dokonce jasná? Víte, jaký problém se snažíte vyřešit? Pokud ne, je to něco jako největší zákaz, ne? Máte ve své organizaci lidi, kteří jsou ochotni změnit to, co nyní dělají? Pokud je odpověď ne, pak nemá smysl stavět proof of concept a nemůžete ani převést pilot do reality. A pak je samozřejmě otázkou, zda to bude mít vůbec nějaký dopad? To jsou otázky viditelnosti podnikání.

Pak tu máme tyto datové otázky, které se vrací k některým bodům, o kterých Kathleen mluvila dříve. Máme vůbec data, která měří to, na čem nám záleží? I když je to malé množství, měří to vůbec to, co chceme? máme dost? No, víte, i když možná chceme udělat výuku s nulovým a možná několika výstřelem, není to možné v každém scénáři. Mohlo by to být možné v situacích, kdy máme velký předtrénovaný model, jako je počítačové vidění, ale nemusí to být možné pro prediktivní analýzy a vzory a anomálie, kde malý - nebudete chtít detekovat vzor, když mít pouze pět nebo šest příkladů tohoto vzoru. Vše záleží na vzoru, který se snažíte vyřešit. Nakonec máme samozřejmě problémy s kvalitou dat. Víte, odpadky dovnitř jsou odpadky ven. To je rozhodně případ strojového učení. Tak tyhle problémy máme. To jsou všechno problémy s daty.

A pak na straně provedení je otázka, zda můžeme vůbec vytvořit technologii, kterou chceme? Máme technologickou infrastrukturu, kterou potřebujeme? Máme zásobník pro vývoj strojového učení, který chceme? Můžeme dokonce, když postavíme tento model, dokážeme to vůbec udělat v požadovaném čase? Jeden problém je, že trénink může zabrat spoustu času, ne? Jak je to s dobou provedení modelu? Je to velmi pomalé? To jsou otázky, které si musíme položit.

A samozřejmě, poslední bod je, můžeme použít model tam, kde ho vůbec chceme použít? Je možné použít model, pokud jej budeme muset použít, například na okrajovém zařízení, v cloudu nebo v místním prostředí? Můžeme to vůbec udělat? Pokud je odpověď na některou z těchto otázek ne, ve skutečnosti to váš projekt buď velmi ztěžuje, nebo je téměř nemožné. Pokud jsou všechny odpovědi na tyto otázky ano, můžete si je představit jako řadu semaforů: Pokud jsou všechna světla zelená, náš projekt může pokračovat. Víte, nevyřeší to všechny problémy, ale dá nám vědět, jak můžeme posunout náš projekt dál. A to je tak trochu klíč k této výzvě.

Walch: A to je to, co je opravdu důležité, je zajistit, aby byl na místě správný tým a aby byly v projektu také použity správné role. Takže vždy, víte, říkáme, položíme otázku: "Je na místě správný tým AI?" A existuje několik různých oblastí, na které se můžete zaměřit. Takže po obchodní stránce, víte, chcete mít k dispozici obor podnikání? Obchodní analytici, architekti řešení, datoví vědci – často datoví vědci spadají do tohoto oboru podnikání. Takže, víte, máte tam ty správné role a dovednosti? Pak samotná datová věda – víte, máte ve svém týmu datového vědce? Máte doménového specialistu? A pak jsme mluvili o problémech s daty a problémech s kvalitou dat. Takže, pokud je to nutné, máte externí štítky nebo přispěvatele, abyste mohli získat svá data – zejména při řízeném učení, které potřebuje dobrá, čistá a dobře označená data. Máte zavedená řešení pro označování, víte? Mluvíme také o roli datového inženýrství. V rámci této role, a víte, máte datového inženýra, systémové inženýry, datový tým a také cloudový tým, které využíváte pro tento projekt a tento tým. A pak operacionalizace. Takže to je, když skutečně chcete použít model ve výrobě. Možná budete potřebovat vývojáře aplikací, systémové a cloudové administrátory. To jsou všechny různé role, které jsou nutné k tomu, aby byl váš projektový tým AI úspěšný. A musíte si o tom promluvit a říct, víte, potřebuji každou roli? Mám pozice? A víte, mám je obecně, abych je mohl skutečně aplikovat, když je potřeba?

Schmelzer: Jo, a myslím, že problém s tím je, že jako organizace můžete nebo nemusíte být, můžete být malou společností. Můžete být jen hrstka lidí ve vaší organizaci, nebo můžete být velmi velkou organizací. A můžete si to představit jako "proboha, musím najmout všechny ty lidi." A odpověď je, no, nemusíte je nutně najímat jako jednotlivce. Potřebují prostě existovat jako role, a pokud je nemáte jako role v organizaci, je mnohem náročnější překonat fázi pilotního projektu, o čemž je celý tento webinář.

Ano, existují společnosti, které vytvářejí nástroje, které demokratizují, takříkajíc, datovou vědu, aby je vložily do rukou více lidí. Existují nástroje, které pomáhají s datovým inženýrstvím a dělají z toho mnohem realističtější úkol pro malý počet lidí. A v tomto vyvíjejícím se prostoru MLOps a ML managementu, ML governance se také dějí věci na straně operacionalizace. A, ale myslím, že jde o to, že se musíte ujistit, že se to nějak řeší. Buď je to osloveno osobou, je to osloveno rolí nebo je to osloveno nástrojem. Pokud se to neřeší žádnou z těchto věcí a máte spoustu lidí, kteří chtějí věci uskutečnit, ale jen velmi málo lidí, kteří to dokážou uskutečnit, pak zjistíte, že narazíte na tuto překážku.

Část cesty, jak se těmto překážkám vyhnout, je samozřejmě jako velká mantra – která zní: „Mysli ve velkém, začněte v malém a často opakujte“. Ale to se v podstatě týká každé z těchto konkrétních výzev projektu AI, že? A můžeme je tak nějak projít. A o některých z nich jsme ve skutečnosti mluvili v průběhu tohoto webináře – součástí toho je, že pokud máte problémy s kvalitou dat a máte problémy s kvantitou dat, je to jedna potenciální překážka a musíte zjistit: „Mám Potřebujete to vyřešit všechno najednou? Nebo můžu vyřešit trochu z toho?" Opět platí, že na každou z těchto odrážek platí „mysli ve velkém, začni v malém a často opakuj“. A možná můžete začít s menším problémem, který vyžaduje menší data, která vyžaduje menší počet kroků, které můžete použít k řešení problémů s kvalitou dat.

Walch: Správně. Existují také problémy s kanálem datového inženýrství a problémy týmu vědy o datech. Víte, mluvili jsme o tom, máte ty správné role? A pokud ne, pak, víte, přemýšlejte o tom, jak toho můžete dosáhnout. Víte, existuje jiné řešení, které mohu získat? Mohu na tuto roli někoho zaměstnat? Mohu v této roli někoho vyškolit? A pokud je odpověď ne, pak to může být problém, může to být překážka, kterou máte.

Schmelzer: To samé s operacemi, můžeme přemýšlet o věcech, které musíme dělat s operacemi. Jak provedu verzi svého modelu? Jak budu opakovat svůj model? Postavil jsem rekvalifikační potrubí? Pokud je odpověď ne, mohu – místo toho, abych to znovu řešil, ukousl si víc, než dokážu žvýkat – mohu opakovat? Začněte s jedním malým modelem; verze tohoto jednoho modelu; přijít na to, jak přeškolit ten jeden model, malý model; poté přejděte na dva modely nebo větší model. Víš, můžeme to tak udělat. Takto řešíme zátaras. Totéž s návratností investic – pokud říkají: „Podívejte, nejsem, víte, nebudu investovat X milionů dolarů do tohoto obrovského řešení, o kterém nemám ponětí, jaká je návratnost investic. Mohu začít malý? Existuje způsob, jak mohu začít s menším projektem s menší návratností investic a přejít k lepšímu řešení?" To samé se vzory, víš. Možná se tady snažím, víte, uvařit oceán a udělat tři, čtyři nebo pět vzorů umělé inteligence najednou – konverzační rozpoznávací systém, který autonomním způsobem provádí prediktivní analýzy a detekce vzorů a anomálií. To může být velmi, velmi obtížné. Mohu tedy tento projekt rozdělit do menších fází a možná se pustit jen do konverzační části, pustit se pouze do části rozpoznávání nebo něčeho jiného a pak to časem vybudovat?

Myslím, že další věcí, která nás znepokojuje, je rozdíl mezi pilotem a proof of concept, že? Někdy se používají zaměnitelně, ale neměly by. Důkazem konceptu je, mohu s touto technologií jen experimentovat? Mohu vůbec dělat to, co chci? Víte, je to jako, víte, mám specifické dovednosti? Víte, experimentuji s touto věcí, mohu stavět jako takzvaný hračkářský projekt, abych zjistil, jestli to funguje? Zatímco pilot má být skutečný problém v reálném prostředí s reálnými daty se skutečnými problémy. A myslím, myslím, že pokud dokážete vyřešit tyto problémy -- opět bychom mohli začít, mohli bychom myslet ve velkém, začít v malém a často opakovat -- s malým pilotním projektem, který bude opravdu užitečný, ne nějakým ani to nebude užitečné. Že jo?

Walch: Správně. Další věc, kterou jsme viděli, je, víte, nekupujte hadí olej od prodejce. Takže kolem některých z těchto společností je spousta marketingového humbuku, rotace a vzrušení a některých nástrojů a nabídek, které společnosti tvrdí, že mohou poskytnout. Snažte se vyhnout těm, těm nástrahám. Protože to bude překážka. Víte, pokud společnost říká, že umí, víte, pět, 10, 15 různých věcí a opravdu to neumí, ujistěte se, že tomu rozumíte. Také řešíte nejtěžší problémy s AI jako první? Víte, Ron pořád říká - a my v Cognilytica pořád říkáme - myslete ve velkém. Takže přemýšlejte o těchto těžkých problémech, ale pak začněte v malém a často opakujte. Pokud nejprve řešíte nejtěžší problémy s umělou inteligencí, mělo by vás jen velmi málo překvapit, že to bude neuvěřitelně obtížný projekt a s největší pravděpodobností selže. Pokud začnete v malém a budete pokračovat v iteraci, máte mnohem větší šanci na úspěch a na to, že se projekt bude i nadále posouvat kupředu. Také řešíte skutečný obchodní problém? Víte, to se také vrací k otázce návratnosti investic. Řešíte skutečný obchodní problém, nebo jen stavíte ten malý hračkářský projekt, o kterém mluvil Ron? A pak, poskytuje skutečně skutečnou návratnost investic, která je měřitelná a má dopad na společnost?

Schmelzer: Jo, a na závěr, víš, ještě jedna výzva, které můžeš čelit, když narazíš na pilotní zátaras, je, kde vůbec běží projekt AI? Je provozován v rámci IT organizace, takže se s ním zachází jako s technologií? Nebo je to v rámci oboru podnikání, se kterým se zachází jako s obchodní záležitostí? Naše perspektiva je samozřejmě taková, že produkty AI jsou transformativní a měly by být součástí podnikání. Není to záležitost IT, i když tam je technologická složka. Ale stejně jako nepožádáte svou IT organizaci, aby pro vaši firmu sestavila excelové tabulky a grafy – to je obvykle součástí jakéhokoli oboru podnikání, funkcí, prodeje, marketingu, financí, operací, čehokoli – to samé s AI. AI není funkcí technologie; je to funkce obchodní role, a proto by to měla mít firma na starosti a měla by to vlastnit.

Takže jednou z věcí, o kterých v Cognilytica hodně mluvíme, je, že existuje metodika pro úspěšnější provádění projektů strojového učení AI. Jmenuje se CPMAI – kognitivní projektový management pro AI, pokud chcete vědět, co znamená – a je založen na desetiletí staré metodologii zvané CRISP DM, která se původně zaměřovala pouze na datové sklady a správu dat, projekty dolování dat. , která je DM součástí CRISP DM. A je to v podstatě iterativní metodologie, jak začít s obchodním porozuměním, ale pak projít těmito dalšími fázemi porozumění datům: příprava dat, datové modelování, vyhodnocení modelu a nakonec operace modelu. A co CPMAI dělá, je to, že přidává požadavky specifické pro AI na vývoj modelu a vyhodnocování modelů. A vidíte, CRISP DM ve skutečnosti nemluví o modelové operacionalizaci. Tak to je úplně nová věc. A další věc, kterou CPMAI dělá, je, že přináší agilní metodologii, která opravdu nebyla příliš populární, když CRISP DM poprvé vyšel. A to je uznávaná metodika, což je, můžeme dělat dvoutýdenní sprinty pro projekty AI, kde můžeme skutečně dosáhnout něčeho opravdu užitečného? Skutečný projekt strojového učení v krátkém sprintu? Odpověď je samozřejmě, že můžete, a o tom je metodika CPMAI. Jde o to dosáhnout úspěchu tím, že uděláte to, co Agile prokázala – což je opět myslet ve velkém, začít v malém a často opakovat. A o tom je celá tato metodika.

Walch: Správně. Takže vám všem děkujeme za účast na této prezentaci. A pokud máte nějaké dotazy, můžete se na nás v Cognilytica kdykoli obrátit. Naše informace jsou níže.