5 otázek pro Kevina Yee, spoluzakladatele a technického ředitele společnosti betterdata

Centrum pro datové inovace hovořilo s Kevinem Yeem, spoluzakladatelem a CTO společnosti betterdata, startupu se sídlem v Singapuru, který se zaměřuje na syntetická data. Yee diskutoval o některých technologiích pro ochranu soukromí, které očekává, že se objeví v nadcházejících letech.

Gillian Diebold: Jak mohou syntetická data pomoci firmám inovovat?

Kevin Yee: Pravděpodobně jste slyšeli frázi, že data jsou novou ropou – aktivem, které má významnou hodnotu nad rámec současného využití. Mnoho lidí to vnímá, protože podniky využívají data k vývoji, experimentování a inovaci. Na druhou stranu, úniky dat, stejně jako úniky ropy, mohou být extrémně zničující pro organizace, lidi a společnost.

Podniky nyní potřebují inovovat s daty, která obsahují cenné poznatky o chování zákazníků, ale musí také zvládat související rizika a neustále se měnící spektrum očekávání uživatelů. To zahrnuje bezpečnostní závazky a obavy o soukromí, zejména pokud data obsahují osobně identifikovatelné informace (PII), které jsou náchylné k únikům, které mohou organizaci vystavit reputační a regulační riziko.

Vzhledem k nehmotnosti dat nemají organizace žádný strukturovaný způsob, jak měřit poměr rizika a odměny za používání dat. To často vede ke konzervativnějšímu přístupu, kdy jsou data utajována v databázích – nepoužívaná a nevyužitá. Je to případ nejistoty a všichni víme, že nejistotu nelze kvantifikovat.

To vše může znít na první pohled skličujícím způsobem, ale to je přesně místo, kde se syntetická data dostávají do centra pozornosti. Syntetická data pomáhají organizacím, aby byla data volně přístupná a přenosná napříč týmy, podniky a mezinárodními hranicemi. Pokročilé techniky umělé inteligence, jako jsou generativní adversariální sítě (GAN), jsou schopny produkovat syntetická data, která zachovávají statistické vlastnosti a vzory původních dat a zároveň zajišťují soukromí tím, že mají téměř nulové riziko opětovné identifikace ve srovnání se současnými metodami anonymizace dat, kde riziko je super vysoké.

Ať už jde o podporu vývoje umělé inteligence a strojového učení (AI/ML), nebo o sdílení dat interně i externě, uměle vygenerovaná syntetická data lze použít jako náhradu za skutečná data s plnou dostupností a dodržováním předpisů. Organizace tak nyní mohou inovovat pomocí syntetických dat bez rizika a překážek v oblasti dodržování předpisů při používání skutečných dat.

Diebold: Jak chrání odlišná soukromí data uživatelů?

Ano: Z pohledu umělé inteligence je rozdílné soukromí jednou z převládajících technik používaných k zabránění modelům hlubokého učení v odhalování soukromých informací uživatelů v souborech dat používaných k jejich školení.

Je to průkopník Cynthia Dwork z Microsoft Research a bylo široce přijato technologickými giganty, aby se „učili“ o rozšířené komunitě uživatelů, aniž by se museli dozvědět o konkrétních jednotlivcích. Syntetická datová sada vytvořená diferenciálně soukromým modelem tedy chrání uživatelská data tím, že poskytuje záruky soukromí podložené veřejně dostupnými matematickými důkazy, přičemž zachovává stejné schéma a zachovává většinu statistických vlastností původní datové sady.

Klíč k celé technice zde spočívá ve vyvážení soukromí a přesnosti pomocí parametru zvaného ε (epsilon) – čím menší je hodnota ε, tím větší soukromí je zachováno, ale tím nižší je přesnost dat. S pečlivě zvolenou hodnotou ε je možné vytvořit syntetický datový soubor s poměrně vysokou využitelností při zajištění dostatečného soukromí.

To znamená, že odlišně soukromá syntetická data zmírňují různé útoky na soukromí, jako je odvození členství a útoky na inverzi modelu, které mohou potenciálně rekonstruovat trénovací data částečně nebo celá kvůli úniku informací z trénovaného modelu umělé inteligence.

Diebold: Můžete vysvětlit, jak mohou syntetická data vést ke „spravedlivějším“ modelům umělé inteligence? Co znamená „spravedlnost“?

Ano: Toto téma je velmi diskutabilní, bez správných nebo špatných odpovědí. Spravedlnost je komplexní pojem, který pro různé lidi znamená různé věci v různých kontextech. Řekněme, že pro odborníky v oblasti umělé inteligence má na spravedlnost tendenci nahlížet z kvantitativního hlediska, kde jsou algoritmy vystaveny omezením spravedlnosti zahrnujícím citlivé a zákonem chráněné atributy. Cílem je zajistit, aby algoritmy fungovaly dobře v reálném životě a zároveň zacházely s lidmi „spravedlivě“ a bez zaujatosti s ohledem na atributy, jako je rasa, náboženství, zaměstnání, příjem, pohlaví; seznam pokračuje.

Je spravedlivé říci, že neexistuje jediná příčina zkreslení, a tudíž ani jediné řešení. Dobrým prostředkem však může být jeho zdroj – samotná data. Jedním ze způsobů, jak snížit zkreslení v souboru dat, je zajistit demografickou paritu mezi chráněnými podskupinami, kde členství v chráněné podskupině nemá žádnou korelaci s prediktivním výsledkem následného modelu AI/ML. Jednoduše řečeno, model umělé inteligence by neměl diskriminovat žádný atribut, a proto je velmi potřebná „pevná“ verze datové sady.

Řekněme, že máme datovou sadu občanských příjmů, kde není splněna demografická parita v chráněné proměnné „pohlaví“. Jinými slovy, v kategorii s vysokými příjmy je vyšší podíl mužů ve srovnání s ženami. Opravy zkreslení na úrovni dat lze dosáhnout pomocí syntetických dat díky plné kontrole nad procesem generování dat. To nám umožňuje generovat stejný podíl mužů a žen v kategorii s vysokými i nízkými příjmy, abychom odstranili korelaci mezi „pohlavím“ a „příjmem“ a zmírnili zkreslení příjmu s ohledem na pohlaví.

Snížení zkreslení prostřednictvím kvantitativní perspektivy je pouze jedním krokem. Vzhledem k tomu, že spravedlnost leží v průsečíku práva, společenských věd a technologie, nelze problém spravedlivějších modelů umělé inteligence řešit pouze jedním způsobem a vyžadovalo by to řadu různých zúčastněných stran, které by poskytly své pohledy na rozhodování a budoucí politiky.

Diebold: Jaké jsou skutečné případy použití syntetických dat?

Ano: Osobně věřím, že syntetická data jsou budoucností pro inovaci otevřených dat a odpovědnou datovou ekonomiku. Existuje spousta případů použití, ale dovolte mi podělit se o jeden, který mi leží na srdci. Řekněme, že jste společnost zabývající se rozpoznáváním obličejů, která používá obrázky obličejů k výcviku modelu umělé inteligence a klasifikaci lidí. Předpokládejme, že většina obrázků patří ke konkrétnímu odstínu pleti, což vede k vysoké přesnosti klasifikace pro tento odstín pleti a ne pro ostatní. Pomocí syntetických dat lze generovat obličeje s nejrůznějšími odstíny pleti a model umělé inteligence lze vylepšit tak, aby lépe detekoval osoby, které byly dříve špatně klasifikovány kvůli nedostatku dat.

Když teď mluvíme na širší úrovni, Amazon používá syntetická data k trénování rozpoznávání zraku Amazon Go a jazykových systémů Alexa. Roche, jedna z předních farmaceutických společností, používá syntetická lékařská data pro rychlejší a levnější klinický výzkum a testy. Google Waymo používá syntetická data k výcviku svých autonomních vozidel. Ford kombinuje herní motory se syntetickými daty pro školení AI – jak skvělé to je. Deloitte vytváří přesnější modely umělé inteligence umělým generováním 80 procent tréninkových dat a American Express využívá syntetická finanční data ke zlepšení algoritmů pro odhalování podvodů.

Diebold: Jaké další technologie na ochranu soukromí budou kromě syntetických dat v příštích letech důležité?

Ano: Vzhledem k tomu, že více než 120 zemí již přijalo předpisy na ochranu údajů, budou technologie pro ochranu soukromí (PPT) nebo technologie pro zvýšení soukromí (PET) v nadcházejících letech stále důležitější. Tyto technologie se budou vzájemně doplňovat při řešení různých problémů a budou ústředním bodem při překonávání regulační, etické a sociální citlivosti kolem dat. Kromě syntetických dat a rozdílného soukromí jsem nadšený z následujících nových technologií:

Za prvé, blockchain pro sledování původu dat, transparentnost a neopatrovatelské vlastnictví osobních údajů lidí. Myslím, že blockchain (web3) má ty správné nástroje pro bezpečnost a soukromí k demokratizaci dat.

Podobně mě zajímá federované učení trénovat sdílený model a zároveň udržovat všechna trénovací data lokálně na zařízeních uživatelů výměnou parametrů modelu AI namísto samotných nezpracovaných dat. Dobře se hodí pro případy použití, kdy jsou data distribuována mezi velký počet zúčastněných stran, jako jsou chytré telefony, kde je soukromí uživatelů nepostradatelné. Je méně vhodný pro případy použití, které zahrnují používání, sdílení nebo analýzu velkého množství citlivých centralizovaných dat.

Zabezpečený výpočet pro více stran umožňuje více stranám bezpečně sdílet svá data a provádět na nich výpočty, aniž by ve skutečnosti odhalily jednotlivé vstupy. Ačkoli tato technika nabízí vyšší věrnost zabezpečení než federované učení, vyžaduje drahé kryptografické operace, což má za následek velmi vysoké náklady na výpočet. Proto je vhodnější pro menší počet účastníků a základní modely strojového učení.

A konečně, důvěryhodná prováděcí prostředí podle mého názoru skutečně mění hru. Jsou krokem za softwarovou bezpečností a jsou založeny na bezpečných hardwarových enklávách. To znamená zašifrovaná data dovnitř a zašifrovaná data ven – to vše při zajištění důvěrnosti dat, integrity a ověření kódu nebo funkce spuštěné v samotné enklávě.