Tekoälyjärjestelmien muistista löytyy monen kirjan sisältö, vaikka yhtiöt ovat muuta kertoneet

kolme kirjaa, jokaisen kirjan sivun yhdistää kaavio

Kirjailijat, valokuvaajat ja elokuvantekijät ovat jo vuosia olleet huolestuneita teostensa luvattomasta käytöstä tekoälyjärjestelmien opettamiseen. Oikeussalissa on käsitelty, ja tullaan jatkossa käsittelemään useita tapauksia, joita kirjailijat ja kustantajat ovat nostaneet suuria kielimalleja kehittäviä yhtiöitä vastaan. Teknologiayhtiöiden vastaus luovan tekijöiden huoleen on tähän asti ollut yhtenäinen: tekoälyn koulutuksessa sovelletaan koneoppimista, joka on erittäin kallis, monimutkainen ja valtavasti dataa vaativa operaatio. Koneoppiminen pureksii kaiken hankitun datan tekoälyn ymmärtämäksi rakenteeksi, eikä alkuperäisiä teoksia ole järjestelmässä tallessa. Näin ei kuitenkaan ole. Stanfordin ja Yalen yliopistojen tutkijat ovat kalastaneet neljän yhdysvaltalaisen tekoälyn syövereistä esimerkiksi Harry Potter -kirjan käytännössä koko sisällön.

The Atlantic kertoo tutkijoiden testanneen neljää suosittua suurta kielimallia – OpenAI ChatGPT, Anthropic Claude, Google Gemini ja xAI Grok – joista jokainen piti tallessa alkuperäisiä kirjoja tai pitkiä jaksoja kirjoista. He testasivat kielimallien kirja-arkistoa kyselemällä niiltä kolmentoista kirjan tekstejä. Käytännössä kokonaiset Harry Potter and the Sorcerer’s Stone, The Great Gatsby, 1984 ja Frankenstein -kirjat löytyivät kielimallien muistista.

Tekoälyä kehittävät asiantuntijat pitävät todennäköisenä syynä kirjojen löytymiseen kielimallien tietokannoista niin kutsuttua lossy compression tekniikkaa, jolla dataa paloitellaan ja tiivistetään. Idea on hieman sama kuin valokuvista tutussa JPG-formaatissa ja audiotallenteissa käytetyssä MP3 tiedostoformaatissa.

The Atlanticin artikkelissa on hyvä esimerkki valokuvasta, jonka Stability AI:n koneoppimisalgoritmi oli kopioinut internetistä. Valokuva on kärsinyt hieman koneoppimisen aikana, mutta se on edelleen heti tunnistettavissa samaksi alkuperäisen kuvan kanssa. Tekstiä algoritmit eivät käsittele samalla tavalla, vaan algoritmi muodostaa kopioiduista tekstipalasista uusia lauseita käyttäjilleen. Tutkijat tosin löysivät myös laajat alkuperäistekstit esimerkiksi George R. R. Martinin A Game of Thrones ja Toni Morrisonin Beloved kirjoista.

Joka tapauksessa, tekijänoikeuksilla suojattuja teoksia on kopioitu – pääasiassa ilman sopimusta – tekoälyjärjestelmiin, niitä on hyödynnetty kaupallisiin tarkoituksiin, ja ne edelleen ovat tallessa järjestelmissä koska tekoälyn toiminta niitä tarvitsee. Kiistat tekijänoikeuslakien soveltamisesta uuteen tekoälyteknologiaan todennäköisesti tulevat entistä monimutkaisemmiksi.