Etiikka Yhteiskunta

Baskin kielelle rakennettu tekoäly ottaa huomioon murteet, somekielen ja vanhan kirjakielen

Kuuntele uutinen

Tutkijat ovat kehittäneet baskin kielelle uuden kielimalliperheen, joka on tarkoituksella opetettu myös murteista, sosiaalisen median kielestä ja historiallisista teksteistä – ei vain siistitystä nykykirjakielestä. Työn taustalla on huoli siitä, että tavallinen aineiston suodatus tekee kielimalleista vinoutuneita ja haavoittuvia, koska epästandardit kielimuodot jäävät kokonaan pois. Suuret kielimallit opetetaan tyypillisesti valtavilla tekstiaineistoilla, joita siivotaan virheiden, puhekielen ja ”huonolaatuisen” tekstin poistamiseksi. Tutkijoiden mukaan tämä voi tarkoittaa sitä, että murteet, nuorten käyttämä somekieli tai vanhat kielimuodot katoavat näkyvistä – ja malli oppii ymmärtämään vain normitettua kirjakieltä. Työssä keskitytään baskiin, joka on sekä voimakkaasti taivuttava että tietoteknisesti vähäresurssinen kieli. Tutkijat kokosivat baskiksi kolme erilaista tekstikokonaisuutta: standardoitua kirjakieltä, sosiaalisen median viestejä ja historiallisia tekstejä. Näiden pohjalta he esittelivät BERnaT-nimisen perheen kooderipohjaisia kielimalleja, joista koulutettiin kolme versiota: vain standardikieleen perustuva, monimuotoinen epästandardeilla aineistoilla koulutettu sekä yhdistelmä näistä. Lisäksi tutkijat ehdottavat uutta arviointitapaa, jossa kielen ymmärtämistehtävät jaetaan erikseen standardoidun kielen ja luonnollisen kielen vaihtelun testaamiseen. Tarkoitus on mitata, miten hyvin mallit selviävät juuri todellisesta, vaihtelevasta kielestä sen sijaan, että ne pärjäisivät vain huolellisesti muokatuissa teksteissä. Tutkimus tuo esiin, että kielimallien kehityksessä on kiinnitetty vähän huomiota kielen sisäiseen monimuotoisuuteen. Tekijöiden mukaan mallit pitäisi suunnitella alusta lähtien niin, että ne heijastavat koko kielen kirjoa – myös marginaaliin jääviä kielimuotoja. Lähde: BERnaT: Basque Encoders for Representing Natural Textual Diversity, ArXiv (AI).

Teksti on tuotettu tekoälyn avulla ja siinä saattaa olla virheitä. Tarkasta tarkat tiedot alkuperäislähteestä.

Alkuperäinen tutkimus: BERnaT: Basque Encoders for Representing Natural Textual Diversity

Julkaisija: ArXiv (AI)

Tekijät: Ekhi Azurmendi, Joseba Fernandez de Landa, Jaione Bengoetxea, Maite Heredia, Julen Etxaniz, Mikel Zubillaga, Ander Soraluze, Aitor Soroa

22. joulukuuta 2025

Lue alkuperäinen →