Ett brittiskt dotterbolag till ett onämnt tyskt energibolag har blivit blåsta på ett miljonbelopp (i svenska kronor) efter att den brittiske VD:n fått ett samtal från sin tyske chef, som beordrade överföringar av pengar till en bulgarisk underleverantör. Telefonsamtalet visade sig vara syntetiskt, utfört med AI-tränad röstsyntes, vilket sätter den sista spiken i kistan som stavas deep fakes. Det är nu fullt möjligt att både göra fejkade videos av måltavlor, och fejka röster till dessa videos.
Bedrägeriet mot det brittiska bolaget omfattade 220 000 EUR, eller drygt två miljoner svenska kronor, men avslöjades efter att bedragarna blivit giriga och försökte ordna ytterligare överföringar. Pengarna var dock redan flyttade till ett konto i Mexiko.
Det är alltså som videon ovan visar nu fullt möjligt att göra realistiska röstbedrägerier genom att träna en AI att kopiera en persons röst ifrån existerande inspelningar. Över telefon fungerar det uppenbarligen, där också ljudkvaliteten kan påverkas.
Tillsammans med deep fakes blir det nu möjligt att fejka inte bara en video på en måltavla, utan den viktiga sista komponenten rösten är nu också på plats. Annars har man varit tvungen att ha en mänsklig imitatör för att få fram rösten. Högkvalitativa deep fakes kräver fortfarande skådespelare, med en kroppsbyggnad och frisyr liknande måltavlan, samt förmågan att efterlikna måltavlans kroppspråk, då deep fakes bara förfalskar ansiktet. Fast antagligen är vi bara något år bort från att inte ens behöva en skådespelare eller en originalvideo att förfalska talet till.
Frågan är vad motmedlen kan bli. Jag har några idéer, men kan så länge konstatera att om jag inte själv länkar till en video eller intervju med mig, eller publicerar den i mina egna officiella kanaler, så är det en förfalskning. Gäller egentligen även text – om det är jag, så länkar jag.
Dock, som konstaterades på paneldiskussionen om påverkansoperationer under säkerhetsmässan i Göteborg förra veckan, så kommer förfalskade och fejkade videos alltid snabbt få spridning, medan dementin inte kommer få det. Ju mer spektakulär det fejkade eller falska budskapet är, desto större blir också spridningen. Väldigt få kommer verifiera en spektakulär video innan de väljer att dela eller uppmärksamma den i sociala medier.
Värdet att seriösa nyhetsmedia blir alltså allt större. Medan Aftonbladet och Expressen återpublicerar olika Youtube-videos så kan man förvänta sig mer återhållsamhet från seriös riksmedia, vars trovärdighet alltså ökar. Även olika aktörers egna plattformar, t ex regeringens regeringen.se ökar i trovärdighet när det gäller att publicera filmer om de egna aktörerna.
Det stora problemet blir dock sanningsundergången, när fejkade videos blir så vanliga och etablerade att allmänheten till slut upphör att tro på något alls, inte ens från äkta kanaler. Och när den första äkta videon kan avfärdas som bevismaterial i en rättegång, eftersom det inte längre går att vara tillräckligt säker på att en video är sann.
Men jag återkommer till en möjlighet och affärsidé kring detta. Nej, krypto är svårt för allmänheten, och det räcker inte att kryptografiskt signera en video.
11 kommentarer
Den här kommentaren har tagits bort av skribenten.
Det gäller väl med detta som det gjort med text från början, man måste se vem avsändaren är.. Svårt nog men egentligen inte nytt. Och är ju absolut nödvändigt att journalister ägnar sig åt kritisk källkritik något som ju tyvärr verkar vara en blygsam del av utbildningen, om de nu inte har helt egna agendor och bara inte bryr sig..
Hur visste man att någon ringt överhuvudtaget? Personen kan påstå att det var en deep-fake AI som lurade honom att göra överföringen men det kan varit en del av planen.
Antar att större koncerner har någon slags signeringsförfarande/motringning för att undvika bluffakturor och annat. Annars kan man prova med "Torshavn"-testet, en VD blir rätt förvånad av den konversationen.
Jag har varit i Tórshavn. En gång på väg till Island, ett par timmars stopp. Andra gången på väg tillbaks till Danmark, nu stannade jag i tre fyra dagar. Ingen av gångerna fick jag göra ett test.
Men du menar säkert något annat, något som hela världen förstår utom jag.
Det är ett test där man genom att fråga lite kluriga frågor om Torshavn, vad det betyder osv och sedan går man tillbaka med frågan "Vad pratade jag om först?" så kommer man ganska snabbt förstå om det är en människa i andra ändan eller inte. Du klarade testet!
Det är inte särskilt svårt att höra att det är en syntetisk röst, när man vet om vad det handlar om. Frågan är bara om man skulle notera det i en stressad situation, där snabba beslut behöver tas?
Det är väl exakt samma som gällt för foton i flera år? Drama drama drama.
Det är väletablerat att man inte kan lita på foton, "photoshop" är ett etablerat begrepp. Det tog rätt många år dock.
Och även photoshop använder, surprise surprise, AI för att underlätta för oss pixelknuffare. Sen finns det plugins till till exempel Adobe XD som använder thispersondoesnotexist.com för att snabbt kunna ladda in fejkade profilbilder i designmockups.
Väntar på att man scanna in en hjärna i hemlighet och fejka med den. Nu kan man trots allt bara fråga den tyska chefen var man åt lunch förra gången man träffades
Nu är jag besserwisser igen, men dina inlägg om teknologi är ju helt galna. "utan den viktiga sista komponenten rösten är nu också på plats" – redan som ide är det vansinne. Ljud är lättare än rörlig bild, och telefonsamtal är filtrerade signaler d.v.s. smalare spectral density enl kända filter.
Om du gräver lite i arkiven kommer du rent av hitta många case där folk blivit lurade över telefon – långt före så kallad "AI".
Vad gäller topic är detta heller inte någon ny utveckling egentligen. Vad som hänt alla gånger tidigare – så rimligen även denna – är att människor snabbt anpassar sig. Så på samma vis som vi inte blint litar på bilder och ljud idag kommer vi framöver inte blint lita på video. Det är rent av så att vi redan är skeptiska till video (om du inte föreslår att det finns fler alien-UFOs än kända farkoster), vi kommer bara uppgradera skepsismen till att innefatta mer och mer högupplöst (mis)representation av verkligheten.