Yksityisyys Etiikka
Taulukkodataa tuottavat kielimallit voivat paljastaa numerotietoja koulutusdatasta
Kuuntele uutinen
0:00 / 0:00 Suuret kielimallit, joita on viime aikoina alettu käyttää synteettisen taulukkomuotoisen datan tuottamiseen, voivat vahingossa paljastaa koulutusdataansa sisältyviä numerotietoja. ArXiv-palveluun julkaistussa esityksessä osoitetaan, että suosituissa toteutuksissa mallit toistavat muistamiaan numerosarjoja sen sijaan, että keksisivät täysin uutta dataa.
Taulukkomuotoisen datan, kuten asiakasrekisterien tai mittaustaulukoiden, synteettinen versio kiinnostaa yrityksiä ja viranomaisia, koska se mahdollistaa analyysin ilman, että yksittäisten ihmisten tiedot paljastuvat. Käytännössä on yleistynyt kaksi tapaa hyödyntää suuria kielimalleja: joko hienosäädetään pienempi malli suoraan taulukkoaineistolla tai syötetään suurelle mallille esimerkkirivejä osana kyselyä.
Tekijät osoittavat, että molemmissa lähestymistavoissa mallit voivat "vuotaa" numeerisia merkkijonoja, kuten pitkiä numerosarjoja, jotka ovat peräisin koulutusdatasta. Tätä ilmiötä tarkastellaan yksityisyysriskinä: jos synteettinen taulukko sisältää liian tarkkoja kopioita alkuperäisestä datasta, ulkopuolinen voi päätellä, onko jokin havainto ollut mukana mallin opetusmateriaalissa.
Tutkijat esittelevät tätä varten yksinkertaisen niin sanotun jäsenyyspäätöshyökkäyksen (membership inference attack), jonka he nimeävät LevAttiksi. Hyökkäys olettaa, että hyökkääjällä on pääsy vain mallin tuottamaan synteettiseen dataan, ei itse malliin. LevAtt kohdistuu nimenomaan numeeristen merkkijonojen esiintymiseen synteettisissä havainnoissa ja arvioi niiden perusteella, mitä alkuperäisestä datasta malli on saattanut muistaa.
Työ korostaa, että synteettinenkään data ei ole automaattisesti yksityistä, jos taustalla oleva kielimalli toistaa oppimiaan numerojaksoja suoraan koulutusdatasta.
Lähde: When Tables Leak: Attacking String Memorization in LLM-Based Tabular Data Generation, ArXiv (AI).
Teksti on tuotettu tekoälyn avulla ja siinä saattaa olla virheitä. Tarkasta tarkat tiedot alkuperäislähteestä.
Alkuperäinen tutkimus: When Tables Leak: Attacking String Memorization in LLM-Based Tabular Data Generation
Julkaisija: ArXiv (AI)
Tekijät: Joshua Ward, Bochao Gu, Chi-Hua Wang, Guang Cheng
28. joulukuuta 2025
Lue alkuperäinen →