Vo veľkých IT spoločnostiach vznikajú „red teamy“. Majú dávať pozor na to, čo dokážu jazykové modely.
Mesiac pred verejným spustením ChatGPT najala spoločnosť OpenAI kenského právnika Boru Golla, aby otestoval jej modely umelej inteligencie na rasistické stereotypy. Zo skúšobných podnetov chatbot generoval urážlivé, zaujaté alebo priam lživé odpovede.
Gollo patrí medzi zhruba 50 externých odborníkov, ktorých OpenAI najala ako súčasť takzvaného „red teamu“. Výsledky jeho práce OpenAI potom využila na odstránenie vyššie uvedených odpovedí pred sprístupnením ChatGPT verejnosti.
Chránia pre zneužitím
Ďalší členovia a členky „red teamu“ OpenAI podobne skúšali generovať návody na páchanie nezákonných alebo jednoducho len škodlivých činností: napríklad sformulovanie facebookového príspevku, ktorý mal verbovať do teroristickej organizácie, tipy na predajcov nelicencovaných zbraní či postup domácej výroby nebezpečných chemických substancií.
Spomínané „red teamy“ chránia modely umelej inteligencie pred jej zneužitím. Premýšľajú ako potenciálni páchatelia a odhaľujú slepé miesta a riziká, ktoré sú tejto technológii vlastné. Ako sa IT titáni predbiehajú v budovaní a uvoľňovaní generatívnych nástrojov umelej inteligencie, interné red teamy nadobúdajú na dôležitosti.
„Red teamy“ pre umelú inteligenciu sa však často pohybujú na tenkom ľade: snažia sa trafiť rovnováhu medzi bezpečnosťou modelov a zachovaním ich relevantnosti a použiteľnosti.
„Budete mať model, ktorý vám na všetko problematické povie nie a bude super bezpečný, ale tiež bude na nič,“ vysvetľuje Cristian Canton, vedúci „red teamu“ pre umelú inteligenciu spoločnosti Facebook.
„Je to o kompromise. Čím užitočnejší model vytvoríte, tým väčšia je šanca, že sa pustíte do nejakej oblasti, ktorá nakoniec môže priniesť nebezpečnú odpoveď,“ hovorí.
Nedostatok odborníkov
Praktika „red teamingu“ sa používa už od 60. rokov, keď sa na raných počítačových systémoch simulovali útoky protivníka, aby bol vyvíjaný softvér čo najodolnejší. „Pri počítačoch nikdy nemôžeme povedať, že je všetko bezpečné – len že sme niečo skúsili a nepodarilo sa nám systém prelomiť,“ pripomína bezpečnostný technológ Bruce Schneier.
Keďže sa generatívna umelá inteligencia trénuje na rozsiahlom súbore ľudských dát, líši sa ochrana jednotlivých modelov od tradičných bezpečnostných postupov, vysvetľuje Daniel Fabian, vedúci nového „red teamu“ pre umelú inteligenciu spoločnosti Google.
Okrem kladenia otázok, ktoré majú za cieľ prinútiť umelú inteligenciu vygenerovať toxickú odpoveď, používajú „red teamy“ aj taktiky odhaľujúce osobné údaje. Bezpečnostných odborníkov a odborníčok je však nedostatok, zdôrazňuje Daniel Rohrer, viceprezident pre softvérovú bezpečnosť spoločnosti Nvidia.
Úzko prepojená komunita rôznych „red teamov“ pre umelú inteligenciu má preto tendenciu zdieľať svoje zistenia. Zatiaľ čo „red team“ Googlu publikoval výskum nových spôsobov, ako napadnúť modely umelej inteligencie, „red team“ spoločnosti Microsoft dal voľne k dispozícii útočné nástroje, ktoré pomáhajú aj konkurenčným firmám testovať bezpečnostné riziká svojich algoritmov.
Veľká spolupráca
Súčasťou prístupu spoločnosti Nvidia k „red teamingu“ je tiež poskytovanie rýchlokurzov bezpečnostným inžinierom a inžinierkam. „Ako motor umelej inteligencie máme obrovskú platformu. Pokiaľ ‚red teaming‘ naučíme ostatných, potom ho všetci dôležití hráči – Anthropic, Google, OpenAI – zvládnu,“ myslí si Rohrer z Nvidie.
Vzhľadom na zvýšenú kontrolu aplikácií umelej inteligencie zo strany používateľov i vládnych orgánov ponúkajú „red teamy“ technologickým firmám taktiež konkurenčnú výhodu.
„Myslím, že priekopa bude vznikať v závislosti od dôveryhodnosti a bezpečnosti,“ konštatuje Sven Cattell, zakladateľ hackerskej a bezpečnostnej komunity AI Village. Do hry sa zapojil aj „red team“ spoločnosti Meta, ktorý bol založený v roku 2019 a organizoval interné hackerské výzvy a festivaly, počas ktorých mali zamestnanci obísť filtre odhaľujúce na Instagrame a Facebooku nenávistné prejavy, nahotu, dezinformácie alebo deep fakes generované umelou inteligenciou.
Gigant sociálnych médií najal tento rok v júli 350 nových členov a členiek „red teamu“, aby otestovali jeho najnovší veľký voľne prístupný jazykový model Llama 2. Tím do neho vkladal výzvy typu ako sa vyhnúť plateniu daní, ako naštartovať auto bez kľúčov a ako rozbehnúť Ponziho schému.
Na tradičnej hackerskej konferencii DefCon sa tento rok v Las Vegas konal jeden z doposiaľ najväčších „red teamingov“ ohľadom umelej inteligencie: osem spoločností vrátane OpenAI, Googlu či Mety sprístupnilo svoje modely umelej inteligencie viac ako dvom tisíckam hackerov a hackeriek, ktorí modely nakŕmili podnetmi s cieľom odhaliť citlivé informácie alebo generovať škodlivý obsah.
Mnohohlavé monštrum
Spočiatku sa spoločnosti svoje modely zdráhali ponúknuť najmä kvôli rizikám poškodenia povesti, ktoré sú spojené s verejným „red teamingom“. Po uistení sa, že modely budú anonymizované a účastníci nebudú vedieť, na ktorý model útočia, však došlo k dohode.
Výsledky takmer 17-tisíc konverzácií, ktoré na DefCone s modelmi umelej inteligencie prebehli, budú síce zverejnené až vo februári, no spomínané spoločnosti si z akcie odniesli povedomie o mnohých slabinách, ktoré treba odstrániť. Podľa organizátorov našli „red teamy“ v ôsmich modeloch približne tritisíc chýb – napríklad sa im podarilo model presvedčiť, aby si protirečil, alebo získali inštrukcie, ako niekoho tajne sledovať.
Jedným z účastníkov bol Avijit Ghosh, výskumník v oblasti etiky umelej inteligencie, ktorý niekoľko modelov prinútil, aby vykonali nesprávne výpočty, vytvorili falošnú správu o thajskom kráľovi alebo napísali o neexistujúcej bytovej kríze.
„Osobne poznám ľudí, ktorí si myslia, že tieto jazykové modely sú skutočne inteligentné a vykonávajú napríklad lekárske diagnózy,“ upozornil Ghosh.
Generatívna umelá inteligencia je dnes ako mnohohlavé monštrum – akonáhle „red teamy“ odhalia a opravia niektoré jej diery, môžu inde vyskočiť ďalšie nedostatky. „Na vyriešenie problému umelej inteligencie bude treba oveľa viac ľudskej inteligencie,“ uzatvára Siva Kumar z Microsoftu.
Článok vyšiel na Forbes.com. Autorkou je redaktorka Rashi Shrivastava.