Dzięki postępom w rozwoju systemów sztucznej inteligencji, pojawiła się mnogość oprogramowania wykorzystującego działanie AI. Nie każdy taki program wykorzystywany jest jednak w dobrym celu. ETSI (Europejski Instytut Norm Telekomunikacyjnych) opublikował niedawno raport „Securing Artificial Intelligence (SAI); Automated Manipulation of Multimedia Identity Representations”, który opisuje jakich rodzajów ataków z wykorzystaniem AI, dokonują przestępcy w celu kradzieży tożsamości, manipulacji itd.
Skala możliwości
W przedstawionym raporcie wyróżniono dwie kategorie ataków z wykorzystaniem sztucznej inteligencji: ataki na media i percepcje społeczną oraz ataki na środki weryfikacji tożsamości. Pierwszy rodzaj ataku opiera swój modus operandi na publikowaniu zmanipulowanych artykułów/wideo/tweedów itd., które stwarzają fałszywe wrażenie, że osoby zajmujące wpływowe stanowiska napisały, powiedziały lub zrobiły określone rzeczy. Zasadniczo dotyczy to wszystkich celów, w których stawka jest wysoka, a korzyść uzasadnia wysiłek z punktu widzenia atakującego.
Z ekonomicznego punktu widzenia, zręcznie wykorzystane techniki deepfake mogą być używane do manipulowania cenami na rynkach kapitałowych, co może wpłynąć korzystnie lub niekorzystnie na wartość akcji lub towarów. Ze względu na szybkie zmiany cen, taka metoda może być cenna, ponieważ osoba atakująca wciąż może wykorzystać wahania cen, nawet jeśli zostaną ujawnione deepfake’i, a ceny po krótkim czasie powrócą do normy.
Patrząc z perspektywy polityki, istotną możliwością jest oddziaływanie na opinię publiczną w czasie poprzedzającym wybory lub plebiscyty. W historii istnieje wiele przykładów, w których pojedyncze wydarzenia miały znaczący wpływ na opinię publiczną przed wyborami, a osoba lub grupa dążąca do wywarcia wpływu może próbować skorzystać z tej opcji. Deepfake może być zatem wykorzystany do zdyskredytowania osoby publicznej i przez to wpłynąć na wynik wyborów. To zagrożenie jest obecne już teraz. Deepfeke’i były już wykorzystane do podszywania się pod znanych polityków np. Baracka Obamę.[1]
Deepfake może również być stosowany w atakach o charakterze osobistym. W licznych przypadkach atakujący i ofiara są sobie znani, a motywacja takich działań jest zazwyczaj psychologiczna lub emocjonalna. Te ataki polegają na rozpowszechnianiu fałszywych materiałów wideo, audio lub tekstowych za pośrednictwem mediów społecznościowych wśród rówieśników ofiary, aby zniszczyć jej reputację lub ją upokorzyć.
Metody weryfikacji tożsamości vs AI
Druga kategoria analizowanych ataków to ataki na metody weryfikacji tożsamości. Ten typ ataku bierze na cel procedury zdalnej identyfikacji biometrycznej i uwierzytelniania. W wielu europejskich krajach istnieje możliwość zdalnej weryfikacji tożsamości poprzez np. wysłanie wideo z daną osobą i jej dowodem osobistym. Sztuczna inteligencja może być skutecznie wykorzystana do podszycia się pod nadawcę, co pokazuje np. atak Chaos Computer Club na Video-Intent[2].
W wielu przypadkach biometryczne uwierzytelnianie nie jest wykonywane wprost, ale jest stosowane pośrednio i nieświadomie podczas interakcji międzyludzkich. Atakujący mogą wykorzystywać te ukryte procedury uwierzytelniania, aby zwiększyć szanse na powodzenie ataków socjotechnicznych. Wykorzystanie AI umożliwia stworzenie przekonujących scenariuszy np. rozmowy, które obejmują styl pisania, głos lub filmy przedstawiające osoby rzekomo komunikujące się z ofiarami ataku. Ofiara może np. otrzymać telefon od rzekomego prezesa zarządu firmy, w której pracuje i być nakłoniona, słysząc znajomy głos, do wykonania przelewu środków firmy na wskazany adres[3].
Co jest potrzebne AI, aby się pod kogoś podszyć?
W celu wykonania skutecznego ataku z wykorzystaniem m.in. deepfake, przestępcy potrzebują określonych próbek danych, aby móc „nakarmić” algorytmy tworzące np. fałszywy obraz osoby. Ilość danych różni się w zależności od przedmiotu, który chcemy podrobić. W celu zastąpienia twarzy osoby na filmie wideo inną, potrzebny jest film z minimum 500-1000 klatkami. Przyjmując standard filmu z 24 klatkami na sekundę, przestępcy potrzebują od 21 sekund do 42 sekund takiego filmu. Ta liczba wymaganych klatek rośnie w zależności od jakości filmu oraz bardziej specyficznej mimiki twarzy.
W przypadku wykorzystania głosu ofiary, takie modele są wcześniej trenowane na dużych zasobach danych i później dostosowane do konkretnej ofiary. Wtedy potrzebna jest próbka głosu trwająca od kilku sekund do kilku minut.
Narzędzia do kradzieży tożsamości
Mogłoby się wydawać, że oprogramowanie służące do deepake’ów i do podszywania się są dostępne wyłącznie dla wąskiego grona. Niestety jest wręcz przeciwnie! Jeśli chcemy dokonywać deepfake’ów to istnieją dwa duże projekty open source: FaceSwap.dev oraz DeepFaceLab, pierwszy z nich stara się być etyczny, a drugi wręcz przeciwnie. Zapewnia nawet platformę do udostępniania materiałów pornograficznych i otwarcie udostępnia modele do tego celu.
Wspomniane powyżej modele zamiany twarzy muszą zostać przeszkolone przy użyciu określonych wizerunków, które są następnie podmieniane. Istnieją jednak również inne podejścia do zamiany twarzy, które są niezależne od przedmiotu i nie wymagają specjalnego przeszkolenia, jednym z najbardziej znanych jest FSGAN.
W odniesieniu do manipulacji głosu istnieje kilka publicznych narzędzi do tworzenia syntetycznych głosów lub manipulowania nimi. Z jednej strony istnieją darmowe frameworki open source, w których zaimplementowane są różne metody TTS i VC np. ESPnet. Te modele wymagają jednak dużej ilości danych i wydajnego sprzętu. Istnieją również programy, które są bardziej dostępne dla publiki np. ElevenLabs.
Jak się chronić?
W celu zmniejszenia zagrożenia związanego z deepfake’ami, ważne jest promowanie edukacji i podnoszenie świadomości na temat istnienia tego zjawiska oraz jego możliwości, które wykraczają poza powszechne przekonania i nawyki dotyczące ochrony prywatności. Istotne jest również zrozumienie obecnych ograniczeń technologii deepfake, które pomogą rozpoznać tego rodzaju fałszerstwa. Środki edukacyjne mogą być ogólne lub dostosowane do konkretnych scenariuszy ataków, na przykład ostrzegając użytkowników mediów społecznościowych przed potencjalnie sfałszowanymi treściami lub pracowników firm o możliwościach ataków socjotechnicznych.
Użytkownicy, którzy są świadomi zagrożeń związanych z deepfake’ami, są bardziej skłonni do krytycznej analizy treści medialnych i zwracania uwagi na ich pochodzenie, kontekst oraz subtelne wskazówki, które mogą sugerować obecność manipulacji. Można również prowadzić szkolenia, które nauczą użytkowników rozpoznawać cechy charakterystyczne deepfake’ów, takie jak artefakty techniczne czy inne nieprawidłowości, które mogą być widoczne w takich materiałach.
W przypadku ataków z wykorzystaniem inżynierii społecznej, oprócz szkoleń, sposobem radzenia sobie z ryzykiem może być zmiana procedur. Np. wszelkie decyzje dotyczące dużych transakcji muszą być weryfikowane wieloetapowo.
Z kolei w celu zwalczania podszywania się podczas weryfikacji tożsamości można zmodyfikować ten proces, np. nakazując wymówienie trudnego wyrazu (np. Grzegorz Brzęczyszczykiewicz), czy wprowadzając wymóg wykonania określonego ruchu dłonią w przypadku rozmowy wideo.
Przestępcy nie śpią
Sztuczna inteligencja już teraz może być wykorzystywana do różnego rodzaju ataków. Ważne jest więc podnoszenie świadomości istnienia takich zagrożeń. Mówi się, aby nie wierzyć we wszystko co znaleźliśmy w Internecie, w przyszłości być może ta rada przeniesie się też na to co z w „realu” z takiego Internetu pochodzi.
Zachęcamy do zapoznania się z całością raportu:
https://www.etsi.org/deliver/etsi_gr/SAI/001_099/011/01.01.01_60/gr_SAI011v010101p.pdf
[1] https://www.theverge.com/tldr/2018/4/17/17247334/ai-fake-news-video-barack-obama-jordan-peele-buzzfeed
[2] https://www.ccc.de/en/updates/2022/chaos-computer-club-hackt-video-ident
[3] https://www.forbes.com/sites/thomasbrewster/2021/10/14/huge-bank-fraud-uses-deep-fake-voice-tech-to-steal-millions/