Nordia News

Avoimen lähdekoodin piratismi tekoälyn avulla

By Tuomas Pelkonen
Julkaistu: 14.11.2023 | Posted in Ajankohtaista

Avoimen lähdekoodin ja tekoälyn integrointi

Tässä artikkelissa käsittelemme avoimen lähdekoodin ohjelmistojen (Open-source software eli OSS) ja tekoälyn (AI) integraatioita sekä niiden ympärillä käytyjä oikeudellisia keskusteluja.

Avoimen lähdekoodin ohjelmistojen lähdekoodia voi kuka tahansa tarkastella, muokata ja parantaa ilmaiseksi. Se on usein tallennettu julkiseen tietovarastoon ja jaettu julkisesti. OSS sisältää tyypillisesti jakeluluvan, joka määrittelee, miten ohjelmoijat voivat käyttää, tutkia, muokata ja jakaa ohjelmistoa. Yksi suosituimmista OSS-lisensseistä on MIT-lisenssi. Lisenssi sallii monenlaisia käyttötarkoituksia, kuten koodin käytön sekä avoimen lähdekoodin että omistusoikeuden piiriin kuuluvissa hankkeissa, kunhan alkuperäinen lisenssi ja tekijänoikeustiedote säilytetään uudelleen jaettavassa koodissa.

Tekoälyn kasvava käyttö on levinnyt ohjelmointiin, ja tekoälyä hyödynnetään yhä enemmän tehokkuuden parantamiseen, tehtävien automatisointiin ja ohjelmistokehitysprosessien tehostamiseen.

GitHub Copilot ja käynnissä oleva joukkokanne

GitHub Copilot on maailman laajimmin käytetty tekoälypohjainen koodausavustaja. Työkalun julkaisi lokakuussa 2021 GitHub, jonka Microsoft osti vuonna 2018. GitHub Copilot perustuu OpenAI:n Codexiin ja on koulutettu miljardeilla koodiriveillä. Työkalu auttaa ohjelmoijia kirjoittamaan koodia nopeammin tarjoamalla automaattisia ehdotuksia heidän syötteensä perusteella.

Vaikka GitHub Copilot epäilemättä nopeuttaa koodinkirjoitusprosessia, sen julkisen avoimen lähdekoodin hyödyntämisestä on herännyt huolia; kysymyksiä on noussut jopa potentiaalisista loukkauksista lisenssiehtojen ja -rajoitusten suhteen. Nämä huolenaiheet ovat nyt johtaneet oikeuskanteisiin.

Marraskuussa 2022 ohjelmoija ja juristi Matthew Butterick nosti San Franciscossa joukkokanteen Microsoftia, sen tytäryhtiötä GitHubia ja sen osittain omistamaa OpenAI:ta vastaan. Käynnissä olevassa oikeustapauksessa kantajat väittävät, että yhtiöt kouluttivat GitHub Copilotia GitHubin tietovarastojen koodilla noudattamatta avoimen lähdekoodin lisenssiehtoja, ja että GitHub Copilot laittomasti toistaa heidän koodiaan tuottamalla loppukäyttäjille koodia, joka on lähes identtistä GitHubin tietovarastojen koodin kanssa, mutta ei anna tunnustusta alkuperäisille avoimen lähdekoodin tekijöille, kuten lisenssiehdot vaativat. Joukkokanne viittaa 11 eri avoimen lähdekoodin lisenssiin, mukaan lukien MIT-, GPL- ja Apache-lisenssit, jotka kaikki edellyttävät tekijän nimen mainitsemista ja tiettyjen tekijänoikeuksien tunnustamista.

Microsoft ja OpenAI vaativat oikeutta hylkäämään kanteen ja väittävät, että kantajat eivät ole osoittaneet kärsineensä erityisiä vahinkoja yhtiöiden väitetystä toiminnasta. Yhtiöt huomauttivat myös, että kantajat eivät ole identifioineet niitä tekijänoikeudella suojattuja tuotoksia, joita he väittävät väärinkäytetyiksi, tai sopimuksia, joita he ovat rikkoneet. Microsoft kommentoi myös jättämässään vastineessa, että tekijänoikeussyytökset törmäisivät Yhdysvaltalaisessa tekijänoikeuslainsäädännössä käytössä olevaan Fair use –doktriiniin, eli eräänlaiseen kohtuullisen käytön periaatteeseen, joka sallii tekijänoikeudella suojattujen teosten käyttämisen tietyissä erityistilanteissa. Yhtiö ja OpenAI viittasivat myös Yhdysvaltain korkeimman oikeuden päätökseen vuodelta 2021, jossa todettiin Googlen Oracle-lähdekoodin käyttämisen Android-käyttöjärjestelmä rakentamiseen olleen Yhdysvaltojen tekijänoikeuslainsäädännön edellyttämällä tavalla muuntavaa ja kohtuullista käyttöä.

Tuomari hylkäsi puolustuksen pyynnön hylätä kantajien väite, jonka mukaan Codexin mahdollisuus kopiointiin rikkoo ohjelmistojen lisenssiehtoja. Tuomari hylkäsi myös puolustuksen pyynnön hylätä kantajien väite, jonka mukaan GitHub Copilot ja Codex jäljentävät tekijänoikeudellisesti suojattua koodia ilman vaadittuja hallinnointitietoja, ja viittasi Digital Millennium Copyright Act:in 1202(b) pykälään, joka kieltää tekijänoikeuksien hallinnointitietojen tahallisen poistamisen tai muuttamisen sekä sellaisten teosten tai teoskopioiden levittämisen, joissa on tekijänoikeustietoja muutettu tai poistettu. Siksi tapaus jatkuu ainakin näiltä osin.

Tärkeimmät opit ja suositukset tekoälyohjatulle ohjelmistokehitykselle

Käynnissä oleva oikeustapaus on kolmas suuri joukkokanne Microsoftia ja OpenAI:ta vastaan. Toiset kaksi kannetta nostettiin syyskuussa 2023. Ensimmäisessä syytetään yhtiöitä useiden yksityisyydensuojalakien rikkomisesta väärinkäyttämällä satojen miljoonien internetin käyttäjien sosiaalisen median alustoilta ja muilta sivustoilta saatuja henkilötietoja tekoälyn kouluttamiseen. Toisessa tapauksessa joukko Yhdysvaltain kirjailijoita, mukaan lukien Pulitzer-palkittu Michael Chabon, syyttävät OpenAI:ta siitä, että se on käyttänyt väärin heidän kirjoituksiaan kopioimalla tekijöiden teoksia ilman lupaa kouluttaakseen ChatGPT:n vastaamaan ihmisten tekstikehotuksiin. OpenAI:n verkkosivuston mukaan OpenAI:n suuret kielimallit, mukaan lukien kielimallit, joita ChatGPT käyttää, kehitetään kolmesta pääasiallisesta tietolähteestä: (1) internetistä vapaasti saatavilla olevasta tiedosta, (2) kolmansilta osapuolilta lisensioidusta tiedosta ja (3) käyttäjien tai ihmiskouluttajientarjoamasta tiedosta.

Internet sisältää valtavan määrän julkisesti saatavilla olevaa tietoa ja materiaalia. Tämä ei kuitenkaan aina tarkoita, että materiaalia voidaan käyttää vapaasti. Microsoft ja OpenAI ovat väittäneet, että tekoälykoulutuksessa käytetään fair use -doktriinin mukaisesti tekijänoikeudellisesti suojattua materiaalia, joka on kerätty internetistä. Fair use -doktriinin mukaan tekijänoikeuksia voidaan rajoittaa tietyin edellytyksin. Tästä asiasta ei kuitenkaan ole vielä vallinnut oikeudellista yksimielisyyttä tekoälyn yhteydessä. Microsoft ja OpenAI eivät ole suinkaan ainoita, jotka hakevat tekijänoikeudella suojattua aineistoa internetistä tekoälyjärjestelmien kouluttamiseksi, ja monet tekoälytyökalut luodaan samalla tavalla. Oletettavasti oikeuden päätökset suosivat kantajia. Tällöin tekoälyn kehittäjien on arvioitava uudelleen tekoälyn kouluttamistapaa ja kouluttamisessa käytettävää materiaalia sekä tarkasteltava kriittisesti tekoälytyökalujen tuottamia tuloksia.

Mitä tulee EU:hun, joukkokanne GitHub Copilotista ei aiheuta välittömiä oikeudellisia seurauksia Euroopassa. Kanne voi kuitenkin rohkaista oikeudenomistajia ryhtymään vastaaviin toimiin Euroopassa. Euroopassa on jo vireillä oikeudenkäynti, jossa kuvapalvelu Getty Images on haastanut Stability AI:n oikeuteen väitetystä tekijänoikeusrikkomuksesta.

Käynnissä olevat tapaukset herättävät myös kysymyksiä tekoälytyökalujen tuloksista ja saattavat mahdollisesti vaikuttaa merkittävästi yrityksiin, jotka käyttävät tekoälytyökaluja ohjelmoinnissa tai omaisuuserien tai muun aineiston tuottamisessa.

GitHub Copilotin tapaus osoittaa, että on tärkeää kiinnittää huomiota siihen, miten tekoälytyökaluja käytetään ohjelmistokehitysprosessissa. Yrityksille, jotka sisällyttävät tekoälyä ohjelmistokehitysprosesseihin, voidaan oikeustapauksesta koota seuraavat johtopäätökset ja vinkit, joiden avulla yrityksen immateriaalioikeudet kannattaa turvata ja välttää muiden immateriaalioikeuksien loukkaaminen:

Ymmärrä avoimen lähdekoodin lisensointiehdot

Yritysten on ymmärrettävä avoimen lähdekoodin lisensiointi selkeästi. Avoimen lähdekoodin lisensseillä, kuten MIT, GPL ja Apache, on erityisiä vaatimuksia, jotka liittyvät niiden ominaisuuksiin, jakeluun ja käyttöön. Näiden ehtojen noudattamatta jättäminen voi johtaa tekijänoikeusrikkomukseen.

Noudata lisenssiehtoja ja seuraa sääntöjen noudattamista

Yritysten tulee säännöllisesti seurata tekoälytyökalujen tuottamaa koodia ja varmistaa, että se noudattaa avoimen lähdekoodin lisenssiehtoja.

Yritysten kannattaa laatia sisäisiä protokollia ja suojatoimia, joilla voidaan seurata sääntöjen noudattamista koko ohjelmistokehitysprosessin ajan.

Läpinäkyvyys ja dokumentointi

On tärkeää pitää kirjanpitoa tekoälyn käytöstä. Kun yritystä ollaan myymässä, due diligence -prosessissa kiinnostus siihen, onko kohdeyritys käyttänyt tekoälyä ohjelmistokehityksessä tai luonut tekoälyä hyödyntävää materiaalia, kasvaa epäilemättä.

Lue lisää teknologiaan liittyvistä oikeudellisista palveluistamme.

Ota yhteyttä

 

Tuomas Pelkonen
Senior Associate, Helsinki tuomas.pelkonen@nordialaw.com +358 40 846 8107

Aiheeseen liittyvää