Meta (Facebook) myönsi oikeudessa käyttäneensä kirjoja luvattomasti tekoälytuotteensa kehitykseen

Tekijänoikeuksista ja oikeussalidraamasta kiinnostuneille vuosi 2024 tulee olemaan jännittävää aikaa. Tekoäly on kiistatta muuttamassa maailmaa, mutta miljardien dollareiden liikevaihtoa tahkoavat teknologiaa kehittävät yritykset näyttävät käyttäneen kyseenalaisia konsteja sen kehitystyössä. Yhdysvalloissa San Franciscossa on alkanut oikeudenkäynti, jossa Meta-yhtiötä (Facebookin, Instagramin ja Whatsappin omistaja) syytetään kirjojen luvattomasta käytöstä Llama-tekoälytuotteen kehityksessä. 10.1.2024 yhtiön juristit myönsivät kirjojen hyödyntämisen oikeudessa.

Ihmisten kanssa luontevasti kommunikoivat tekoälytuotteet, kuten ChatGPT ja Llama rakennetaan algoritmeistä ja valtavasta datamäärästä. Tuotteet opetetaan näennäisesti älykkäiksi syöttämällä niille tuhansia tai miljoonia kirjoja, artikkeleita ja dokumentteja. Web-sivuilta on helppo tietokoneohjelman avulla kerätä dataa mielin määrin ja piraattisivustoilla on pitkään ollut saatavilla suuria kirjapaketteja, joiden sisältö ei suinkaan aina ole tekijänoikeuksista vapaata aineistoa.

Metaa syytetään yhden sellaisen, Books3-nimisen piraattikirjapaketin käytöstä Llama-tekoälyn kehitykseen. Tämän yhtiö on oikeudessa myöntänyt. Books3-paketti sisältää noin 200 000 kirjaa. Oikeusjutun käsittely on vasta alussa (tammikuussa 2024), joten joudumme hetken odottamaan miten jännitysnäytelmässä lopulta käy.

Kaikista eniten huomiota herättänyt tekoälytuote ChatGPT on myös liemessä samasta syystä kuin Meta – syytettynä laittomasta aineiston kopioinnista omien tuotteiden kehitystä varten. ChatGPT on OpenAI-nimisen yhtiön kehityksen tulosta. Britanniassa OpenAI on joutunut vastaamaan House of Lordsin komitealle piratismikysymyksiin. Näin yhtiö vastasi:

Koska tekijänoikeudet tänä päivänä kattavat käytännössä kaiken ihmisen tuottaman ilmaisun – kuten blogikirjoitukset, valokuvat, verkossa käydyt keskustelut, ohjelmistot ja hallinnolliset asiakirjat – olisi mahdotonta kouluttaa hyviä tekoälyjärjestelmiä ilman tekijänoikeuksilla suojattua aineistoa. Jos koulutusta varten tarvittava data rajataan vain yli sata vuotta sitten tehtyihin tekijänoikeuksista vapaisiin kirjoihin ja piirroksiin, se olisi kenties mielenkiintoinen kokeilu, mutta ei tuottaisi tekoälysovelluksia, jotka auttaisivat tämän päivän kansalaisia.

The New York Times ja monet kirjailijat ovat haastaneet OpenAI:n piratismista oikeuteen Yhdysvalloissa. Esimerkiksi The New York Times vaatii OpenAI:ta tuhoamaan kaikki yhtiön tuotteet, joissa on käytetty lehden aineistoa. Mikäli tämä vaatimus toteutuu, se olisi todennäköisesti OpenAI:n tarun loppu – sen verran aikaa, työtä ja rahaa kehitykseen on laitettu.

Kaikesta tästä huolimatta OpenAI on jo solminut sopimuksia joidenkin kustantajien kanssa heidän aineistonsa käytöstä kehitystyöhön. Associated Press ja Axel Springer ovat suurimpia sopimuksen tehneitä.

Onko suuryhtiöiden piratismi rahasta kiinni, vai mikä niitä ajaa syytteiden mukaan luvattomille teille? Meta-yhtiö on maailman seitsemänneksi arvokkain yritys (909 miljardia dollaria joulukuussa 2023) ja edelleen investointeja hakeva OpenAI on jo arvioitu 100 miljardin dollarin arvoiseksi.

Varsinkin suursijoittajat varoittelevat lainsäätäjiä ja sen soveltajia liian tiukasta tekijänoikeussuojasta. He näkevät tiukkapipoisuuden vakavana riskinä teknologian kehitykselle. Kiina ajaa omaa tietään ja omilla säännöillään lännen ohi jos uusi teknologia ei saa rauhassa kulkea eteenpäin.

Ainakin yksi yritys on puolestaan nähnyt mahdollisuuden tekijänoikeuksista huolehtimiselle myös tekoälyn kehittämisessä. Fairly Trained myöntää sertifikaatteja aineistoille, jotka sisältävät vain tekijöiden suostumuksella saatuja teoksia. Näitä sertifioituja datapaketteja tekoälyn kehittäjä voi sitten hyödyntää oman sovelluksensa tekemisessä ilman huolta oikeussalidraamasta.