[Poglobljeno] Anonimizacija in psevdonimizacija
Prvi korak priprave podatkov za namen obdelave ali strojnega učenja
Uporaba umetne inteligence, natančneje algoritmov strojnega učenja, postaja nekaj povsem običajnega. Ključ do natančnejšega napovednega modeliranja so zanesljivi in dobro definirani podatki.
Pridobivanje ključnih informacij in možnost iskanja prihodnjih napovedi v realnem času omogočata boljše odločanje in avtomatizacijo procesov, ne le v naprednih visokotehnoloških podjetjih, temveč povsod, kjer so na voljo ključne informacije, ki nam omogočijo modeliranje in poznejše razvrščanje ali klasifikacijo.
V vsakem podjetju, ne glede na to, ali gre za podjetje z naprednimi relacijskimi podatkovnimi zbirkami ali za podjetje, ki posluje v obliki dopisov in drugih nestrukturiranih dokumentov, obstajajo procesi, ki jih je mogoče avtomatizirati ali celo prediktivno modelirati in tako olajšati delo zaposlenim ter jim nuditi dodatno podporo pri sprejemanju pomembnih odločitev.

Fotografija: Lukas Blazek na Unsplashu
Pomembnost varovanja podatkov
Podjetja, ki so v fazi digitalizacije ali na prehodu vanjo, običajno nimajo močnih razvojnih ekip, ki bi lahko same opravile nalogo avtomatizacije, izvedbe, učenja in uporabe prediktivnih modelov, zato v tem primeru najamejo izkušene zunanje izvajalce.
Pogosto pa zaplete, ko stranka spozna, da mora z zunanjim izvajalcem deliti svoje ključne podatke, saj brez ključnih podatkov o poslovnem procesu, ki ga želi stranka modelirati, zunanji izvajalec ne more opraviti svojega dela.
To lahko rešimo na več načinov, začenši s podpisom pogodbe o nerazkrivanju podatkov. Ta izvajalca zavezuje k skrbnemu varovanju občutljivih podatkov, ki jih ne sme razkriti. Kljub temu pa lahko ostane dvom, da ti podatki tako ali drugače ne bi končali pri konkurenci. Kaj še lahko storimo na tem področju?
Dobro zavarovani podatki
Obstajajo seveda še dodatni ukrepi, vendar je eden najbolj prepričljivih ta, da se ključni podatki za modeliranje anonimizirajo ali psevdonimizirajo. V tem primeru izvajalec modeliranja razvije model neposredno na podatkih, ki ne vsebujejo, na primer, pravih vrednosti nabavnih cen proizvodov, ne vsebujejo dejanskih cen izdelka ali storitve, niti pravih informacij o kupcih, saj so vsi ti ključni podatki kodirani tako, da jih je zelo težko dekodirati.
Bistvena razlika med anonimizacijo in psevdonimizacijo je v tem, da anonimiziranih podatkov ni mogoče dešifrirati nazaj v prvotni zapis, medtem ko je v postopku psevdonimizacije vedno na voljo ključ, ki omogoča tako šifriranje kot tudi dešifriranje. Katere podatke je treba psevdonimizirati in katere anonimizirati, vam seveda lahko pove izvajalec anonimizacije, ki mora biti seznanjen z vrsto podatkov, ne pa tudi z njihovo resnično vsebino.
Naša rešitev
Postopek anonimizacije ali psevdonimizacije je za strukturirane (npr. relacijske, tabelarne) podatke precej preprost. Gre le za preprost dodaten korak pri izvozu podatkov z uporabo namenskega programskega vmesnika. Nekatere podatkovne zbirke že ponujajo možnost, da se podatki pred izvozom anonimizirajo.
Izziv je anonimizacija ali psevdonimizacija nestrukturiranih podatkov, npr. besedil, pogodb ali odločb, sodb itd. Pri teh želimo skriti zlasti osebne podatke, imena podjetij ali celo specifične zneske. Uporabiti moramo naprednejše sisteme za anonimizacijo ali psevdonimizacijo, ki delujejo na podlagi obdelave naravnega jezika in so podprti s strojnim učenjem.
Tovrstni sistemi so seveda odvisni od jezika in običajno ne omogočajo 100-odstotne anonimizacije, zato je pred posredovanjem podatkov vselej potrebno preverjanje datotek. Kljub vsemu pa takšen sistem močno olajša postopek anonimizacije ali psevdonimizacije.
Posebej za slovenski jezik je takšno orodje razvilo tudi podjetje Medius in ga poimenovalo D.A.T.E. Podrobneje ga bomo predstavili v enem od prihodnjih člankov.