Etiikka Politiikka

Tutkijat nimeävät uuden turvallisuusongelman: tekoäly kieltäytyy samoista pyynnöistä sattumanvaraisesti

Kuuntele uutinen

Turvallisuuteen viritetyt suuret kielimallit, kuten tekstigeneraattorit, voivat kieltäytyä vastaamasta myös harmittomiin pyyntöihin – ja tehdä sen epäjohdonmukaisesti. Uusi tutkimus esittelee ilmiön nimeltä "semanttinen sekaannus" ja ehdottaa tapaa mitata sitä järjestelmällisesti. Semanttisella sekaannuksella tarkoitetaan tilannetta, jossa tekoäly hyväksyy yhden tavan esittää jokin pyyntö mutta hylkää lähes saman sisällön toisella, vain pintamuodoltaan muutetulla tavalla. Nykyiset arviointitavat mittaavat yleensä vain kokonaisprosentteja, kuten kuinka usein malli suostuu tai kieltäytyy, tarkastelemalla jokaista pyyntöä erikseen. Tällöin jää huomaamatta paikallinen epäjohdonmukaisuus, jossa saman tarkoituksen eri muotoilut johtavat ristiriitaisiin tuloksiin. Tutkimuksessa rakennettiin ParaGuard-niminen aineisto, joka sisältää 10 000 huolellisesti laadittua pyyntöä. Ne on ryhmitelty parafraasiklusteriksi kutsuttuihin ryhmiin, joissa pyyntöjen tarkoitus pidetään samana mutta sanamuotoa muutellaan. Näin voidaan tarkastella, miten malli reagoi, kun sisältö pysyy olennaisesti samana mutta kieli vaihtelee. Lisäksi tekijät ehdottavat kolmea mallista riippumatonta mittaria sanatasolla: sekaannusindeksi, sekaannusaste ja sekaannussyvyys. Ne vertaavat jokaista yksittäistä kieltäytymistä sen lähimpiin hyväksyttyihin vastauksiin saman klusterin sisällä ja hyödyntävät sanatasoista tarkastelua, jotta pienetkin erot reaktioissa näkyvät. Työ ei keskity uuden tekoälymallin kehittämiseen vaan ongelman nimeämiseen ja mittaamiseen. Ajatus on, että kun semanttinen sekaannus saadaan näkyväksi numeroina, turvallisuusasetuksia voidaan hienosäätää niin, että mallit pysyvät varovaisina mutta suhtautuvat johdonmukaisemmin harmittomiin, eri tavoin muotoiltuihin pyyntöihin. Lähde: When Safety Blocks Sense: Measuring Semantic Confusion in LLM Refusals, ArXiv (AI).

Teksti on tuotettu tekoälyn avulla ja siinä saattaa olla virheitä. Tarkasta tarkat tiedot alkuperäislähteestä.

Alkuperäinen tutkimus: When Safety Blocks Sense: Measuring Semantic Confusion in LLM Refusals

Julkaisija: ArXiv (AI)

Tekijät: Riad Ahmed Anonto, Md Labid Al Nahiyan, Md Tanvir Hassan, Ch. Md. Rakin Haider

22. joulukuuta 2025

Lue alkuperäinen →