Generatywna sztuczna inteligencja upowszechniła tworzenie deepfake’owych nagrań audio do tego stopnia, że wygenerowanie sfabrykowanego materiału nie stanowi dziś większego problemu. Przez pewien czas chroniła nas polszczyzna – jako jeden z najtrudniejszych języków świata stawiała opór Gen AI. Jednak ciągły rozwój narzędzi, z których swobodnie korzystają cyberprzestępcy sprawia, że niebawem każde ś, ć i sz będzie można łatwo odwzorować. Tymczasem, aż 58% pracowników w Polsce nie zna pojęcia „deepfake”. To bardzo zła wiadomość dla firm.
Aby przeprowadziś atak z użyciem deepfake’owego audio na firmę wystarczy krótka próbka głosu osoby, pod którą chce się podszyć sprawca. Resztę zrobi GenAI. Pierwotnie tego rodzaju narzędzia sprawdzały się w zasadzie tylko w języku angielskim. Obecnie ich rozwój sprawia, że coraz lepiej radzą sobie w innych językach. Nagrania deepfake pomagają oszustom omijać procedury oraz mechanizmy uwierzytelniania kont. Mogą nawet umożliwiać podszywanie się pod kandydatów do pracy. Jednak prawdopodobnie największym zagrożeniem, jakie stwarzają, są oszustwa finansowe i związane z przelewami oraz przejmowanie kont kadry zarządzającej. Tymczasem, jak wynika z raportu „Cyberportret polskiego biznesu 2025”, przygotowanego przez ESET i DAGMA Bezpieczeństwo IT, co czwarty polski pracownik (27%) przyznaje, że zdarzyło mu się uznać za wiarygodne nagrania audio stworzone przez algorytmy, a kolejnych 30% nie potrafi tego nawet jednoznacznie stwierdzić.
Anatomia ataku
Jak może wyglądać taki modelowy atak, wykorzystujący sfabrykowane przez AI nagranie audio? Na początku atakujący wybiera osobę, pod którą będzie się podszywać. Może to być CEO, CFO albo nawet dostawca. Cyberprzestępca znajduje w internecie próbkę głosu – co jest dość łatwe w przypadku znanych menedżerów, którzy regularnie wypowiadają się publicznie. Źródłem może być konto w mediach społecznościowych, telekonferencja, wywiad wideo lub telewizyjny albo wiele innych materiałów. Kilka sekund nagrania zwykle wystarczy.
Kolejny krok to wybór osoby, z którą skontaktuje się atakujący. Może to od niego wymagać krótkiego researchu, zazwyczaj przeszukiwania serwisu LinkedIn lub strony internetowej w poszukiwaniu pracowników na określonym stanowisku, czy członków działu, który ma być zaatakowany. Bywa że kontakt audio poprzedzony jest wysyłką maila w którym atakujący, na przykład podszywając się pod CEO firmy prosi o pilny przelew, o reset hasła lub uwierzytelniania wieloskładnikowego (MFA), albo jako dostawca domaga się zapłaty za przeterminowaną fakturę.
W kolejnym kroku cyberprzestępca dzwoni do wybranego wcześniej celu, używając wygenerowanego przez GenAI deepfake’owego głosu, by podszyć się pod CEO lub dostawcę. Teraz pozostaje mu tylko przekazanie prośby w przekonujący sposób… W zależności od narzędzia może korzystać z wcześniej przygotowanego skryptu albo z bardziej zaawansowanej metody „speech-to-speech”, w której głos atakującego jest niemal w czasie rzeczywistym przekształcany w głos ofiary.
Coraz lepsze możliwości audio deepfake
Tego typu ataki stają się coraz tańsze, łatwiejsze i coraz bardziej przekonujące. Niektóre narzędzia AI potrafią nawet dodawać odgłosy tła, pauzy i zająknięcia, by podszywany głos brzmiał bardziej wiarygodnie. Są coraz lepsze w naśladowaniu rytmu mowy, intonacji i charakterystycznych nawyków językowych właściwych każdemu mówcy, a gdy atak odbywa się przez telefon, odbiorcy mogą mieć trudność z wychwyceniem błędów typowych dla sztucznej inteligencji.
Atakujący mogą też stosować techniki socjotechniczne, na przykład wywierać presję na rozmówcę, by ten natychmiast zareagował. Inną klasyczną taktyką jest nakłanianie odbiorcy do zachowania sprawy w tajemnicy. Jeśli dodać do tego fakt, że często podszywają się pod członka najwyższego kierownictwa, łatwo zrozumieć, dlaczego niektórzy dają się oszukać.
Czy istnieją sposoby na zdemaskowanie oszusta? To zależy od zaawansowania oszustwa i używanego narzędzia AI, ale warto zwrócić uwagę na elementy takie jak nienaturalny rytm mowy, pozbawiony emocji ton głosu, nienaturalny oddech lub zdania wypowiadane całkowicie bez brania oddechu czy zbyt jednostajny szum tła. Jeśli cyberprzestępcy sięgnęli po starsze narzędzia – istnieje tez szansa wyłapania oszustwa dzięki zbyt mechanicznemu, wręcz robotycznemu dźwiękowi, który może wzbudzić podejrzenie.
Jak się bronić? Ludzie, procesy i technologia
Motywacja cyberprzestępców stojąca za dynamicznym rozwojem oszustw audio wykorzystujących sztuczną inteligencję jest prosta: to ogromne potencjalne zyski. Przestrogi przed tą technologią płyną z rynku od lat, a spektakularne incydenty, jak ten z 2020 roku ze Zjednoczonych Emiratów Arabskich, gdzie pracownik przelał 35 milionów dolarów wierząc, że rozmawia z dyrektorem firmy, to tylko wierzchołek góry lodowej. Biorąc pod uwagę, że w ciągu ostatnich kilku lat technologia deepfake przeszła ewolucję, stając się narzędziem niemal doskonałym, firmy muszą pilnie wdrożyć wielowarstwową strategię obrony.
– Kluczowe jest podejście oparte na kilku filarach, począwszy od edukacji i symulacji, gdzie standardowe szkolenia teoretyczne to już za mało. Firmy powinny wprowadzać testy typu red teaming z wykorzystaniem syntetycznego audio, aby oswoić pracowników z tym zagrożeniem i nauczyć ich rozpoznawania socjotechnicznych pułapek. Fundamentem bezpieczeństwa stają się również szczelne procesy, takie jak weryfikacja poza pasmem, czyli potwierdzanie poleceń głosowych innym kanałem, na przykład firmowym komunikatorem. Niezbędna jest też zasada czterech oczu przy kluczowych operacjach finansowych oraz stosowanie ustalonych wcześniej haseł bezpieczeństwa w rozmowach z kadrą zarządzającą – podsumowuje Kamil Sadkowski, analityk cyberbezpieczeństwa ESET.