Kod pocztowy i data urodzenia wystarczą, aby zidentyfikować nas w sieci

> redakcja

Opublikowane 9 sierpnia 2019

189

A to głównie dlatego, że informacje pozostawione za nami w Internecie nie znikają. Większość jest mało istotna, jak informacje o zakupie nowych butów. Niestety, zdarza się też, że podajemy te bardziej osobiste – wyniki badań czy numery identyfikacji podatkowej.

Teoretycznie firmy zbierające te dane starają się je chronić. Najczęściej robią to poprzez anonimizację – pozbawienie danych oczywistych informacji osobowych, takich jak imię i nazwisko, adres czy numer telefonu. Dodatkowo usuwa się kolumny w arkuszach kalkulacyjnych, a do plików wprowadza się “szumy”. Jednakże, identyfikacja jest możliwa nawet na podstawie szczątkowych informacji o użytkowniku, takich jak miejsce zamieszkania i płeć. Przykładowo, używając jedynie kodu pocztowego, płci i daty urodzenia mamy aż 81% szans na poprawne wytypowanie konkretnej osoby. Mając do dyspozycji już 15 parametrów demograficznych, prawdopodobieństwo to wynosi aż 99,98%.

Skąd wzięły się te liczby? Odpowiedzi szukać należy na uniwersytecie w Leuven i Imperial College London. Tamtejsi badacze stworzyli narzędzie do identyfikacji anonimowych danych. Za pomocą zaledwie kilku zbiorów pozornie ogólnych informacji pozwolili maszynie uczyć się je rozróżniać. System wyodrębnia rzadziej powtarzające się powiązania i określa szansę prawidłowej identyfikacji.

W obecnej formie narzędzie ma w bazie danych 210 różnych zestawów z 5 źródeł, wliczając spis ludności Stanów Zjednoczonych. Kody pocztowe, którymi dysponuje program, obejmują USA, Anglię i Walię.

Kolejne pytanie nasuwa się samo – skąd nasze dane się tam wzięły? Najprostszą i zarazem prawidłową odpowiedzią jest ta, że “sami je podaliśmy”. Mało kto przy rejestracji na różne witryny czyta warunki przetwarzania danych – z reguły zaznaczamy jedynie wymagane pola godząc się na nie w ciemno. Co ostrożniejszy użytkownik znajdzie tam jednak zapis, głoszący że “serwis może odsprzedawać anonimowe dane podmiotom trzecim”. Informacje pozbawione personaliów, mogą więc krążyć po sieci – za naszą zgodą.

-Musimy uważać na to, jakie dane podajemy w sieci oraz każdorazowo i skrupulatnie sprawdzać kto i w jaki sposób je wykorzystuje. Anonimowość nie zapewnia bezpieczeństwa – twierdzi Bartosz Jurga, dyrektor sprzedaży w Xopero Software – Im więcej informacji są w stanie połączyć systemy, tym łatwiej będzie nas zidentyfikować i zagrozić naszemu bezpieczeństwu. Pamiętajmy, aby ograniczać podawanie ich w sieci. Nawet, jeżeli zdaje nam się, że to zaledwie szczątkowe informacje. Okazuje się, że połączenie tych z pozoru anonimowych danych w pełny obraz naszej osoby i całkowita identyfikacja jest prostsza niż kiedykolwiek.

Informacje zdobyte przez technologię łączenia danych mogą pozwolić na łatwą kradzież tożsamości, wymuszenia czy działania inwigilacyjne. Zwłaszcza, gdy pozostawienie kilku ocen dla filmów na Netflixie daje niemal tę samą możliwość identyfikacji co numer polisy ubezpieczeniowej. O możliwościach tej metody przekonał się chociażby Donald Trump. To właśnie ona posłużyła dziennikarzom The New York Times do ujawnienia absurdalnych sum w zwrocie podatkowym obecnego prezydenta USA w pierwszej połowie lat `90.