Kaikki mitä olet kertonut Facebookissa voi tulla pian vastaan aivan toisessa paikassa

instagram palveluun kirjautuminen, ruudun kuva.

Euroopan Unionin alueella kansalaisten digitaalista yksityisyyttä suojaavat GDPR ja muut säännökset, mutta kun joku organisaatio on kerran tietosi onnistunut kahmimaan, niitä kaikesta huolimatta pyritään hyödyntämään monin tavoin. Meta (Facebookin, Instagramin ja Whatsappin omistaja) on huomannut tietovarastoissaan olevan lähes ehtymätön määrä käyttäjien tuottamaa tekstiä ja kuvia. Facebookin kolme miljardia käyttäjää ja Instagramin kaksi miljardia käyttäjää tuottavat jatkuvasti sopivaa dataa – kuinka ollakaan – myös tekoälyn kehittämiseen. Ihmisten omille tiedoille on jälleen löytynyt uutta käyttöä liiketoiminnassa.

Reuters kertoo itävaltalaisen kansalaisten oikeuksia erityisesti digitaalisessa maailmassa puolustavan NOYB-yhdistyksen puuttuneen Meta-yhtiön uuteen toimintatapaan. Yhtiö hyödyntää Facebook-kommentit ja Instagram-kuvat tekoälyn opettamisessa. NOYB on pyytänyt usean EU-maan tietosuojasta huolehtivia viranomaisia viipymättä ottavan yhteyttä Metaan ja pyytävän yhtiötä lopettamaan käyttäjien tietojen käsittely tekoälyn kehityksessä. Metalla on tallessa myös sellaisten ihmisten tietoja, jotka eivät ole Facebookin tai Instagramin käyttäjiä, sillä yhtiö kerää internetistä tietoja ihmisistä, joihin sen palveluissa viitataan.

Meta puolestaan katsoo toimineensa EU:n säännösten mukaisesti sillä tietojen luovutuksen tekoälyn kehitykseen voi yrittää kieltää jos Facebookissa löytää valikon missä sen voi tehdä. Kun kiellon käy tekemässä, Meta ei lupaa estää tietojen luovutusta tekoälylle vaan toteaa harkitsevansa asiaa.

Valveutunut tietosuojastaan huolehtiva kansalainen saattaisi ajatella, ettei Facebookin ja Instagramin käyttöehdoissa mainita sanallakaan tekoälyä ja koneoppimista. Ehkä ei mainita, mutta Meta on jo käynyt päivittämässä palveluidensa käyttöehdot sellaisiksi, että tietojen luovutus myös tekoälyn kehitykseen on ehtojen mukaista.

Mihin ihmisten Facebook-kommentteja ja Instagram-kuvia tekoälyn opettamisessa oikein tarvitaan?

Tällä hetkellä eniten huomiota tekoälyteknologiassa saavat suurten kielimallien (large language model, LLM) kehitysprojektit. Metan suureen kielimalliin perustuva tuote on nimeltään Llama. Tämän tyyppisiä tuotteita kehitetään paitsi algoritmejä viilaamalla myös opettamalla niille kirjoitettua ja puhuttua kieltä. Siihen tarvitaan valtava määrä tekstiä, ja kuvien ollessa kyseessä miljoonia kuvia. Esimerkiksi Meta on jo aiemmin myöntänyt käyttäneensä piraattikirjoja saadakseen mahdollisimman nopeasti mahdollisimman laajan opetusaineiston Llaman pureksittavaksi.

Tavallinen Facebook- ja Instagram-kansalainen saattaa havaita omien tietojen käytön seuraukset tekoälyn kehitykseen sillä tavalla, että oudon tuttuja lauseita, sanontoja ja kuvia löytyy jatkossa Llama-tekoälyn tuottamasta aineistosta, jota organisaatiot ja ihmiset käyttävät omiin tarkoituksiinsa. On erittäin todennäköistä, että alkuperäistä lähdettä ei voi kuitenkaan tunnistaa.

Meta ei suinkaan ole ainoa yritys, joka on takautuvasti muuttanut käyttöehtojaan varmistaakseen käyttäjien vanhan ja uuden datan hyväksikäytön tekoälyn kehityksessä. Esimerkiksi Reddit ja Adobe ovat muuttaneet käyttöehtojaan voidakseen hyödyntää käyttäjien dataa myös tekoälyn kehitykseen.