Yksityisyys Yhteiskunta Etiikka
Koodiin erikoistuneet tekoälymallit eivät vuoda kaikkea yksityistietoa yhtä herkästi
Kuuntele uutinen
0:00 / 0:00 Uusi tekoälytutkimus tarkastelee, miten erilaiseen henkilötietoon perustuvat tietovuotoriskit poikkeavat toisistaan, kun koodia tuottavia kielimalleja koulutetaan avoimen lähdekoodin arkistoilla.
Ohjelmointia auttavat suuret kielimallit rakentuvat valtavista koodikokoelmista, joihin on usein jäänyt kehittäjien nimiä, sähköpostiosoitteita ja muuta henkilötietoa. Aiemmat selvitykset ovat osoittaneet, että kaupalliset mallit voivat tuottaa tällaisia tunnistetietoja uudelleen, mutta ovat kohdelleet henkilötietoja yhtenä, tasaisena riskiluokkana.
Nyt Hua Yangin, Alejandro Velascon, Sen Fangin, Bowen Xun ja Denys Poshyvanykin työ pureutuu tarkemmin siihen, oppivatko mallit joitakin henkilötietotyyppejä toisia helpommin ja vuotavatko ne niitä useammin. Henkilöön yhdistettävä tieto (personally identifiable information, PII) kattaa hyvin erilaisia asioita yksittäisistä käyttäjätunnuksista osoitteisiin ja tunnistenumeroihin, ja näiden riskit voivat poiketa merkittävästi.
Tutkijat rakensivat tätä varten aineiston, joka sisältää monenlaisia henkilötietotyyppejä todellisesta koodista. He hienosäätivät useita erikokoisia kielellisiä koodimalleja tällä aineistolla ja seurasivat niin sanottuja oppimisdynamiikkoja: miten ja millä varmuudella mallit oppivat eri tietoja koulutuksen aikana.
Lisäksi he muodostivat rakenteellisen kausaalimallin, tilastollisen menetelmän, jonka avulla pyritään erottamaan pelkkä yhteys todellisesta syy-seuraussuhteesta. Näin he arvioivat, johtuuko tietovuotoriski nimenomaan henkilötiedon tyypistä vai esimerkiksi mallin koosta tai muista taustatekijöistä.
Tutkimus ei keskity vain siihen, vuotaako malli herkkiä tietoja, vaan siihen, miten ja miksi tietyt tiedot tarttuvat malliin toisia helpommin. Tämä voi auttaa kehittämään tarkempia ja kohdennetumpia suojakeinoja koodiin erikoistuneiden tekoälymallien koulutukseen.
Lähde: Understanding Privacy Risks in Code Models Through Training Dynamics: A Causal Approach, ArXiv (AI).
Teksti on tuotettu tekoälyn avulla ja siinä saattaa olla virheitä. Tarkasta tarkat tiedot alkuperäislähteestä.
Alkuperäinen tutkimus: Understanding Privacy Risks in Code Models Through Training Dynamics: A Causal Approach
Julkaisija: ArXiv (AI)
Tekijät: Hua Yang, Alejandro Velasco, Sen Fang, Bowen Xu, Denys Poshyvanyk
26. joulukuuta 2025
Lue alkuperäinen →