Tekoälypalvelut voivat olla kelpo työkaluja, mutta ne voivat myös imuroida henkilökohtaisen datasi

mistral ai -yhtiön le chat tekoälypalvelu. nöytön kuva.

Tekoälypalveluita kuten Deepseek, Claude ja ChatGPT moni on kokeillut, ja moni kokeilija palaa palveluun kun hakee työtehtävään tai vapaa-ajan tiedontarpeeseen pika-apua. Suosittujen järjestelmien välillä on luonnollisesti eroja osaamistasossa, mutta niiden välillä on myös suuria eroja käyttäjien yksityisyyden kunnioittamisen kohdalla. Nyt tämäkin on tutkittu, ja ranskalaisen Mistral AI-yhtiön Le Chat havaittu parhaaksi yksityisyyden kannalta.

Incogni-yhtiö, joka on erikoistunut henkilötietojen poistamiseen internetin monenkirjavista palveluista tutki yhdeksän tekoälypalvelun toimintatavat käyttäjien henkilökohtaisten tietojen suhteen. Mistral AI:n Le Chat keräsi johdonmukaisesti vähiten tietoja käyttäjistään, kun puolestaan internet-jätit Meta, Google ja Microsoft keräsivät tekoälypalveluillaan eniten yksilöivää dataa käyttäjistään.

kaavio: incogni: ai platform privacy ranking 2025.

Kaavio Incogni (Gen AI and LLM Data Privacy Ranking 2025 raportti).

Vähiten käyttäjien dataa kerää Incognin tutkimuksen mukaan Mistral AI:n Le Chat.
Keskitason datan kerääjiä ovat OpenAI:n ChatGPT, xAI:n Grok, Anthropicin Claude, ja Inflection AI:n Pi.
Eniten dataa keräävät tekoälypalvelut ovat tuttuja yrityksiä, joille ihmisten profilointi ja heidän tiedoillaan kaupankäynti on ollut tärkeää liiketoimintaa jo vuosia: Microsoftin Copilot, Deepseek, Googlen Gemini ja Meta AI. Näistä Meta AI on kaikista ahnein tietojen imuroija.

Mistä tekoälyjärjestelmien kiinnostuksessa käyttäjien tietoihin oikein on kyse? Täsmälleen samasta asiasta miksi Google tallentaa kaikki hakusi ja sijaintitietosi, Facebook ottaa talteen kaiken mitä puhelimesta löytyy, ja Microsoft Windows kerää jatkuvasti dataa mitä PC:llä tehdään. Data on rahanarvoista mainosmarkkinoilla. Ihmisten tietoja myydään ja ostetaan maailmanlaajuisilla kauppapaikoilla missä ostajina voivat olla esimerkiksi yritykset, organisaatiot, valtiot ja rikolliset.

Tekoäly-yhtiöillä on monta kosketuskohtaa käyttäjien dataan. Kun järjestelmiä koulutetaan koneoppimismenetelmillä, dataa yleensä kerätään internetistä niin paljon kuin sitä nettisivuilta ja online-palveluista irti saadaan. Kaikki Incognin tutkimat yhtiöt kertovat imuroivansa netistä dataa julkisista lähteistä. Tässä tietolähteessä on väistämättä henkilökohtaisia tietoja on mukana, mutta tekoälyn opettamisvaiheessa dataa yleensä käsitellään massana.

Toinen kosketuskohta käyttäjien dataan tekoäly-yhtiöillä on silloin kun käyttäjä ottaa yhteyttä palveluun kirjautuneena tai ilman kirjautumista. Se, millä sovelluksella yhteyden palveluun muodostaa on väliä omien tietojen suojaamisen kannalta. Verkkoselain kuten Brave, Firefox tai Vivaldi luovuttaa vähemmän tietoja palvelulle kuin tarkoitukseen tehty sovellus. Tutkimuksen mukaan nimenomaan mobiilisovellukset vuotavat tekoäly-yhtiölle seuraavia tietoja:

Google Gemini ja Meta AI -puhelinsovellukset lähettävät jatkuvasti sijaintitietoja ja osoitteita yhtiöiden tietokantoihin.
Puhelinnumeroita keräävät Deepseek, Google Gemini ja Pi AI.
Grok-mobiilisovellus nappaa puhelimesta valokuvat itselleen, ja jakaa ne lisäksi kolmansille osapuolille.
Claude imuroi sähköpostiosoitteet ja puhelinnumerot puhelimesta ja jakaa niitä edelleen muille osapuolille.
Meta kerää myös sähköpostiosoitteet, puhelinumerot ja lisäksi myös käyttäjien nimet.

Kolmas tekoäly-yhtiöiden tapa kerätä käyttäjien dataa on hankkia sitä lähteistä, joilla dataa on ja jotka ovat sitä valmiit myymään. Muutama esimerkki tutkimuksen löytämistä tiedon lähteistä:

Microsoft täydentää tekoälypalveluidensa tieotokantoja hankkimalla henkilökohtaista dataa rahoituslaitoksilta kuten pankeilta (tässä on hyvä huomata, että tutkimuksen tekijä Incogni on yhdysvaltalainen kuten myös tekoäly-yhtiöt Mistral AI:ta ja Deepseekiä lukuunottamatta, joten kyseessä lienee sikäläinen käytäntö). Microsoft hankkii dataa myös henkilötietojen kauppiailta (data brokers).
Google ja Meta saavat henkilökohtaista dataa markkinointiyhteistyökumppaneilta. Tässä yhteydessä se todennäköisesti tarkoittaa yrityksiä, jotka ovat erikoistuneet henkilökohtaisen datan keruusen, luokitteluun ja myyntiin (data broker).
Tietoturvayhtiöt toimittavat käyttäjien henkilökohtaisia tietoja OpenAI:lle, Googlelle ja Deepseekille.

Helpoin tapa suojella omia tietoja on luonnollisesti käyttää sellaista tekoälyä, joka kerää mahdollisimman vähän dataa. Mistral AI:n Le Chat on tutkimuksen mukaan sellainen. Verkkoselaimen käyttö ladattavan sovelluksen sijaan suojaa omia tietoja enemmän kunhan säätää selaimen asetukset kohdalleen.