Пилотиране на проекти за машинно обучение при сурови насрещни ветрове

В момента генерираме около 2,5 квинтилиона (милиона трилиона) байта данни по целия свят всеки ден. Само за четири дни общият брой генерирани байтове е приблизително еквивалентен на цялата популация от насекоми на Земята. В края на получаването на голяма част от тези данни са фирми от всякакви форми и размери. Бъдещето им като бизнес зависи от това как преобразуват събраните данни в надеждна бизнес информация, която е успешно приложена и монетизирана.

„[U]отключването на бизнес стойност от всички данни е от първостепенно значение“, пише Дейвид Стодър, старши изследователски директор на TDWI за бизнес разузнаване, в Пулсов доклад за третото тримесечие на 2021 г. „Хората се нуждаят от средствата да изследват, анализират, визуализират и споделят данни лесно и креативно, за да могат да се справят с променящите се обстоятелства и да вземат информирани решения.“

Способността да се използва, анализира и монетизира ежедневния прилив на данни в корпоративните хазни се основава на изкуствения интелект – страхотният еквалайзер на големите данни. Моделите за машинно обучение могат да доведат до резултати, които влияят върху всеки аспект от операциите на предприятието от финансите до разработването на продукти до моделите на купуване на клиентите. И все пак предприятията се борят с напредването на проектите за машинно обучение отвъд пилотния етап, като по този начин забавят или саботират усилията си за своевременно внедряване на AI модели.

„Поради главоболията, които внедряването на AI създава, организациите гледат на времето, необходимо за пускането на златен модел в производство, като на опортюнистична област за подобрение“, съобщи Enterprise Strategy Group (ESG), подразделение на TechTarget. „Със скоростта, с която се променят данните в един модерен и динамичен бизнес, организациите все повече чувстват, че е неприемливо да им отнеме почти месец, за да приведат в действие AI.“

В това видео Катлийн Уолч и Рон Шмелцер от Cognilytica се обръщат към насрещния вятър, с който се сблъскват фирмите при пилотните проекти за машинно обучение, всички от които могат да доведат до скъпи забавяния при внедряването на модела. Всичко започва със задаване на правилните въпроси относно видимостта и приложението на бизнеса, качеството и количеството на данните, инфраструктурата и изпълнението, персонала и експертизата и избора на доставчик и продукт. Отговорите на тези въпроси ще определят дали проектът за машинно обучение е успешно или не.

Препис

Катлийн Уолч: Здравейте всички и добре дошли на този уебинар „Как да преместите своя проект за машинно обучение след пилотния проект“. Това ще бъде общ преглед на методологията за правене на AI проекти, нали, ще говорим защо изобщо да използваме AI и след това някои капани, които да избягваме. Това е представено от анализаторите на Cognilytica Катлийн Уолч и Рон Шмелцер.

И така, малко за Cognilytica, в случай че не сте запознати с нас: Cognilytica е изследователска консултантска и образователна фирма, фокусирана върху AI и когнитивни технологии. Ние произвеждаме пазарни проучвания, консултации и насоки относно изкуствения интелект, машинното обучение и когнитивните технологии. Ние също произвеждаме популярния подкаст AI Today. Правим го от около четири години, така че може би сте ни чули там. Имаме и поредица от инфографики, бяла книга и друго популярно съдържание на нашия уебсайт. Фокусирани сме върху приемането на AI от предприятията и публичния сектор и също така допринасяме с писатели както за Forbes, така и за TechTarget.

Рон Шмелцер: Да. Надяваме се, че сте прочели много от нашите статии по темите за ИИ и машинното обучение. И нашата цел сега е да ви помогнем, ако работите с проекта за машинно обучение, да преодолеете някои от борбите, които може да имате, за да превърнете тези проекти за машинно обучение в реалност. И така, нека преминем към следващия ни слайд тук.

И мисля, че едно от най-големите пречки за много хора, които се опитват да придвижат своите проекти за машинно обучение напред, е да се уверят, че решават правилния проблем. Много пъти, знаете, един от най-фундаменталните проблеми с AI е, че хората се опитват да приложат AI към проблем, за който той наистина не е много подходящ. И едно от нещата, които можем да разгледаме, докато вървим, за какво е AI наистина, наистина много подходящ? Едно нещо, за което говорим в нашето изследване, са тези седем модела на AI, защото проблемът с AI е, че е малко общ термин. И предизвикателството е, когато двама различни хора говорят за AI, те може да не говорят за едно и също нещо.

Като цяло, без да навлизаме в подробности, имаме тези модели. Бихте могли да имате AI системи, които са добри в класифицирането или идентифицирането на системи - моделът на разпознаване - или използване на обработка на естествен език за създаване на системи за разговор. Възползвате ли се от големите данни и намирате ли и двата модела в тези големи данни, или аномалии в големите данни, или ви помагат да правите по-добри прогнози с предсказуем анализ? Можем също да имаме системи за машинно обучение, които могат да ни помогнат да правим неща, които хората иначе биха правили с автономни системи. Или може би да намерите оптималното решение на пъзел или игра или нещо подобно, или някакъв сценарий, който се нарича системи, управлявани от цели. Или всъщност бихме могли да накараме нашите системи за машинно обучение с ИИ да дъвчат огромни количества данни, за да помогнат за създаването на профил на индивид. Общото между всички тях е, че използваме данни, за да извлечем прозрения. И поради това, не е като да пишем правила и така да използваме вероятност, ние използваме статистика. И ако не можем да напишем правило за система, но се нуждаем от машината, за да направи нещо, тогава това е добър сигнал, че AI машинното обучение може да е добро решение за това. Ако е вероятностен, каквито са системите за машинно обучение, тогава трябва да използваме модел на обучение. Това е машинно обучение.

Уолч: Точно така. Така че е важно да разберете кога да използвате AI и също така е важно да разберете за какво не е подходящ. Така че, ако имате повтаряща се, детерминистична задача за автоматизация, не използвайте изкуствен интелект и машинно обучение. Ако имате формулирани анализи, продължете и направете това. Също така, системи, които изискват 100% точност. Тъй като е вероятностен, а не детерминистичен, никога не можете да получите 100% точност - и ако това е, което се нуждаете, изкуственият интелект и машинното обучение не са правилният инструмент за това. Ситуации с много малко данни за обучение -- знаете ли, въпросът винаги е колко данни за обучение наистина ми трябват? И ние казваме, че зависи от модела, който се опитвате да направите. Но като цяло, ако нямате много данни за обучение -- знаете, те са много, много минимални -- вероятно не са подходящи за AI и когнитивни технологии. Освен това ситуации, при които наемането на човек може да бъде по-лесно, по-евтино и по-бързо. Знаете ли, отнема време за изграждането на тези системи, не можете просто да го вземете и да започнете да го използвате. Така че, ако това ще бъде малък проект или нещо, при което просто наемането на човек е по-лесно, това може да е по-добро решение. И също така не правете AI само за да правите AI, защото това е готин фактор или модна дума, хората говорят за това. Уверете се, че действително предоставя стойност и се използва в правилната ситуация. Така че, както Рон спомена по-рано, ако е вероятностно, продължете с AI; ако е детерминиран, вместо това използвайте програмен подход.

Piloting machine learning projects through harsh headwinds

Шмелцер: Точно така. Знам, че много от вас може да спорят с някои от тези точки и да кажат: „Чакай малко, не се ли опитваме да изградим AI системи, които могат да използват малко количество данни за обучение, може би никакви данни за обучение, визията на това, което се нарича zero-shot обучение -- или дори използването на базирани на облак системи, които имат огромен модел, който може би можем да преквалифицираме или разширим с помощта на трансферно обучение, някои от тези неща за облачно виждане?" Отговорът е, да, вярно е; въпреки че някои от тези точки всъщност започват да изчезват, което означава, че разширяваме обхвата на възможностите за прилагане на AI и машинното обучение към ситуации с по-ниски данни за обучение или ситуации, в които може би имаме човек, който изпълнява задача и може би Сега AI системата просто цената и сложността са намалели значително.

Единствената причина, поради която споменаваме това, е, че понякога тези проблеми са фактор. И те се превръщат във фактор, когато погледнете нещо, наречено AI go/no-go решение, което всъщност е нещо, което Intel и други са популяризирали и е част от методология за извършване на проекти за машинно обучение с AI добре. В който случай трябва да си зададете тези въпроси -- и това са въпросите, които ще ви помогнат да определите дали проектите за машинно обучение с изкуствен интелект изобщо са възможни, предвид проблемите, които се опитвате да решите. Първо, имате ли дори ясна дефиниция на проблема? Знаете ли какъв проблем се опитвате да разрешите? Ако не, това е нещо като най-голямото забрана, нали? Имате хора във вашата организация, които са готови да променят каквото и да правят сега? Ако отговорът е не, тогава няма смисъл да създавате доказателство за концепцията и дори не можете да превърнете пилотния проект в реалност. И тогава, разбира се, въпросът е дали това изобщо ще има някакво въздействие? Това са въпроси за видимостта на бизнеса.

След това имаме тези въпроси за данните, които се връщат към някои от точките, за които Катлийн говореше по-рано. Имаме ли дори данни, които измерват това, което ни интересува? Дори и да е малка сума, измерва ли изобщо това, което искаме? Имаме ли достатъчно? Е, знаете, докато може да искаме да направим нулево и може би малкократно обучение, това не е възможно във всеки сценарий. Може да е възможно в ситуации, в които имаме голям предварително обучен модел, като компютърно зрение, но може да не е възможно за предсказуеми анализи и модели и аномалии, където малък -- няма да искате да откриете модел, когато има само пет или шест примера за този модел. Всичко зависи от модела, който се опитвате да разрешите. И накрая, разбира се, имаме проблеми с качеството на данните. Знаеш ли, боклукът вътре е боклук навън. Това определено е случаят с машинното обучение. И така, имаме тези проблеми. Това са всички проблеми с данните.

И след това от страна на изпълнението, проблемът е можем ли дори да изградим технологията, която искаме? Имаме ли технологичната инфраструктура, от която се нуждаем? Имаме ли стека за разработка на машинно обучение, който искаме? Можем ли дори, ако изградим този модел, можем ли дори да го направим в рамките на необходимото време? Един проблем е, че може да отнеме много време за обучение, нали? Какво ще кажете за времето за изпълнение на модела? Много ли е бавен? Това са въпроси, които трябва да зададем.

И разбира се, тази последна точка е, можем ли да използваме модела там, където дори искаме да използваме модела? Възможно ли е да използваме модела, ако ще трябва да го използваме, например, на периферно устройство, или в облак, или в локална среда? Можем ли дори да направим това? Ако отговорът на някой от тези въпроси е отрицателен, това всъщност прави проекта ви много труден или почти невъзможен. Ако всички отговори на тези въпроси са „да“, можете да си ги представите като набор от светофари: ако всички светлини са зелени, тогава нашият проект може да продължи напред. Знаете ли, това не решава всички проблеми, но ни дава да разберем как можем да придвижим нашия проект напред. И това е ключът към това предизвикателство.

Walch: И това е нещото, което е наистина важно, е да се уверите, че правилният екип е на място и че правилните роли са включени и се използват също и за проекта. Така че ние винаги, нали разбирате, казваме да зададем въпроса, "Налице ли е правилният AI екип?" И има няколко различни области, върху които можете да се съсредоточите. И така, от страна на бизнеса, знаете ли, искате ли да имате наличен бизнес? Бизнес анализатори, архитекти на решения, учени по данни -- много пъти учените по данни попадат в този бизнес. И така, знаете ли, имате ли правилните роли и набори от умения там? След това самата наука за данните -- знаете ли, имате ли специалист по данни в екипа си? Имате ли специалист по домейни? И тогава говорихме за проблеми с данните и проблеми с качеството на данните. И така, ако е необходимо, имате ли външно етикетиране или сътрудници, за да можете да получите вашите данни - особено при контролирано обучение, което се нуждае от добри, чисти, добре етикетирани данни. Имате ли решения за етикетиране, нали знаете? Говорим и за ролята на инженеринг на данни. В рамките на тази роля, и вие знаете, имате ли на място инженер по данни, системни инженери, екип за данни и също облачен екип, който използвате за този проект и този екип. И след това операционализация. И така, това е моментът, в който всъщност искате да използвате модела в производството. Може да имате нужда от разработчици на приложения, системни и облачни администратори. И така, това са всички различни роли, които са необходими, за да направите вашия екип по AI проект успешен. И трябва да говорите за това и да кажете, знаете ли, имам ли нужда от всяка една роля? Имам ли позиции? И знаете ли, имам ли такива като цяло, за да мога действително да ги прилагам, когато е необходимо?

Шмелцер: Да, и мисля, че някак предизвикателството с това е, че вие може или не можете като организация да бъдете, може да сте малка компания. Може да сте само шепа хора във вашата организация или може да сте много голяма организация. И може да си помислите за това като "о, боже мой, трябва да наема всички тези хора." И отговорът е, че не е задължително да ги наемате като физически лица. Те просто трябва да съществуват като роли и ако нямате такива като роли в организацията, това наистина прави много по-предизвикателно преминаването през фазата на пилотния проект, което е целта на този уебинар.

Сега, да, има компании, които създават инструменти, които демократизират, така да се каже, науката за данните, за да я дадат в ръцете на повече хора. Има инструменти, които помагат при инженеринга на данни и правят тази задача много по-реалистична за изпълнение с малък брой хора. Има неща, които се случват и от страна на операционализирането, с това развиващо се пространство на MLOps и ML управление, ML управление. И, но мисля, че въпросът е, че трябва да сте сигурни, че това е адресирано по някакъв начин. Обръща се или с лице, или с роля, или с инструмент. Ако не е адресирано с някое от тези неща и имате куп хора, които искат да направят нещо да се случи, но много малко хора, които могат да го направят, тогава ще откриете, че ще се натъкнете на това препятствие.

Така че, част от пътя за избягване на тези препятствия е, разбира се, като голямата мантра - която е "мислете мащабно, започнете с малко и повтаряйте често." Но това основно се отнася до всяко едно от тези конкретни предизвикателства на AI проекти, нали? И можем да минем през тях. И ние всъщност говорихме за някои от тях по време на този уебинар – част от което е, че ако имате проблеми с качеството на данните и имате проблеми с количеството на данните, това е едно потенциално препятствие и трябва да разберете, „Мога ли трябва да реша всичко наведнъж? Или мога да реша малко от него?" Това е отново, приложете „мислете мащабно, започнете с малко и повтаряйте често“ към всеки един от тези куршуми. И може би можете да започнете с по-малък проблем, който изисква по-малки данни, който изисква по-малък брой стъпки, които можете да използвате за справяне с проблеми с качеството на данните.

Уолч: Точно така. Има също проблеми с тръбопровода за инженеринг на данни и проблеми с екипа за наука за данни. Знаете ли, говорихме за това имате ли подходящите роли? И ако не го направите, тогава, знаете ли, помислете как можете да получите това. Знаеш ли, има ли друго решение, което мога да получа? Мога ли да наема някой за тази роля? Мога ли да обуча някого в тази роля? И ако отговорът е не, тогава това може да е проблем, това може да е пречка, която имате.

Шмелцер: Същото е и с операциите, можем да мислим за нещата, които трябва да правим с операциите. Как ще направя версия на моя модел? Как ще повторя своя модел? Изградил ли съм канал за преквалификация? Ако отговорът е не, тогава мога ли -- вместо да го разглеждам отново, да отхапвам повече, отколкото мога да дъвча -- мога ли да повторя? Започнете с един малък модел; версия, че един модел; измислете как да преквалифицирате този един модел, малък модел; след това преминете към два модела или по-голям модел. Знаеш ли, можем да го направим по този начин. Ето как се справяме с препятствието. Същото нещо и с възвръщаемостта на инвестициите -- ако казват: „Вижте, аз не съм, знаете ли, няма да инвестирам X милиона долара в това огромно решение, за което нямам представа каква е възвръщаемостта на инвестициите. Мога ли да започна малък? Има ли начин да започна с по-малък проект с по-малка възвръщаемост на инвестициите и да премина към по-добро решение?" Същото е и с моделите, нали знаете. Може би се опитвам, разбирате ли, да сваря океана тук и да направя три или четири или пет модела на AI наведнъж -- система за разпознаване в разговор, която прави предсказуеми анализи и откриване на модели и аномалии по автономен начин. Това може да е много, много трудно нещо. И така, мога ли да разделя този проект на по-малки фази и може би просто да се заема с частта за разговор, просто с частта за разпознаване или нещо друго и след това да го изградя с течение на времето?

Мисля, че следващото нещо, което предизвиква безпокойство, е, че има разлика между пилот и доказателство за концепция, нали? Понякога те се използват взаимозаменяемо, но не трябва. Доказателство за концепцията е, мога ли просто да експериментирам с тази технология? Мога ли дори да правя това, което искам? Знаете ли, така ли е, знаете ли, имам ли специфичните умения? Знаеш ли, експериментирам с това нещо, мога ли да изградя като така наречения проект за играчки, само за да видя дали работи? Докато пилотът трябва да бъде истински проблем в реална среда с реални данни с реални проблеми. И мисля, мисля, че ако можете да се справите с тези проблеми -- отново можем да започнем, можем да мислим мащабно, да започнем с малко и да повтаряме често -- с малък пилотен проект, който наистина ще бъде полезен, а не някакво нещо, което дори няма да бъде полезно. нали

Уолч: Точно така. Друго нещо, което сме виждали е, нали знаете, не купувайте змийско масло от продавача. И така, има много маркетингов шум, въртене и вълнение около някои от тези компании и някои инструменти и предложения, които компаниите казват, че могат да предоставят. Опитайте се да избегнете тези, тези капани. Защото това ще бъде пречка. Знаете ли, ако една компания каже, че може да направи пет, 10, 15 различни неща и наистина не може, уверете се, че разбирате това. Също така, първо ли се справяте с най-трудните проблеми с ИИ? Знаете ли, Рон продължава да казва – и ние в Cognilytica продължаваме да казваме – мислете мащабно. Така че, помислете за тези трудни проблеми, но след това започнете с малко и повтаряйте често. Ако първо се захванете с най-трудните проблеми с изкуствения интелект, трябва да е малко изненада, че това ще бъде невероятно труден проект и най-вероятно ще се провали. Ако започнете с малко и продължите да повтаряте, имате много по-голям шанс за успех и проектът да продължи да се движи напред. Също така, решавате ли реален бизнес проблем? Знаете ли, това също се връща към въпроса за ROI. Решавате ли реален бизнес проблем, или просто изграждате онзи малък проект за играчка, за който Рон говори? И след това, всъщност осигурява ли реална ROI, която е измерима и има въздействие върху компанията?

Шмелцер: Да, и накрая, знаете ли, едно друго предизвикателство, с което може да се сблъскате, ако попаднете на пилотна пречка, е къде изобщо се изпълнява проектът за ИИ? Управлява ли се в рамките на ИТ организацията, така че се третира като технологично нещо? Или е в сферата на бизнеса, която се третира като бизнес? Разбира се, нашата гледна точка е, че AI продуктите са трансформиращи и трябва да бъдат част от бизнеса. Това не е ИТ нещо, въпреки че има технологичен компонент. Но точно както вие не молите вашата ИТ организация да състави електронни таблици и диаграми на Excel за вашия бизнес – това обикновено е част от какъвто и да е бизнес бизнес, функции, продажби, маркетинг, финанси, операции, каквото и да е – същото е и с ИИ. AI не е функция на технологията; това е функция на бизнес ролята и следователно бизнесът трябва да отговаря за това и да притежава това.

И така, едно от нещата, за които говорим много в Cognilytica, е, че има методология за по-успешно изпълнение на проекти за машинно обучение с ИИ. Нарича се CPMAI - когнитивно управление на проекти за AI, ако искате да знаете какво представлява - и се основава на десетилетна методология, наречена CRISP DM, която първоначално беше фокусирана само върху хранилище на данни и управление на данни, проекти за извличане на данни , което е DM част от CRISP DM. И това е основно итеративна методология за започване с разбирането на бизнеса, но след това преминаване през тези други фази на разбиране на данните: подготовка на данни, моделиране на данни, оценка на модела и след това накрая операционализация на модела. И това, което CPMAI прави, е, че добавя специфичните за AI изисквания за разработване на модел и оценка на модела. И вижте, CRISP DM всъщност не говори за операционализиране на модела. Така че това е напълно ново нещо. И другото нещо, което CPMAI прави е, че въвежда Agile методология, която наистина не беше много популярна, когато CRISP DM излезе за първи път. И това е приетата методология, която е дали можем да правим двуседмични спринтове за AI проекти, където всъщност можем да постигнем нещо наистина полезно? Действителен проект за машинно обучение в кратък спринт? Отговорът е, разбира се, че можете и това е целта на методологията на CPMAI. Става въпрос за постигане на успех, като правите това, което Agile е доказал -- което е, отново, мислете мащабно, започнете с малко и повтаряйте често. И това е целта на тази методология.

Уолч: Точно така. Така че благодаря на всички, че се присъединихте към нас за тази презентация. И ако имате въпроси, винаги можете да се свържете с нас в Cognilytica. Нашата информация е по-долу.