Euskarazko testuen komunikagaitasun-maila automatikoki sailkatzeko lehendabiziko urratsak

Argitaratua: Tuesday, 29 March 2022, 4:29 PM
Xabier Azpillaga

Artikulu honetan, HABEren eta IXA ikerketa-taldearen arteko egitasmo baten lehen urratsak azaltzen dira. Proiektuaren helburua komunikagaitasun-mailen araberako testu-sailkatzaile automatiko bat sortzea da, ikasleen ulermen-mailarako egokiak diren idatizko testuak objektiboki hautatzeko aukera emango duena. Horretarako, HEOCeko mailaz mailako adierazpide linguistikoak literaturan erabili izan diren bigarren hizkuntzen jabekuntzako (SLA, Second Language Acquisition) parametroen gisakotzat hartu dira, eta horiekin informatika-aplikazioetarako linguagrama bat sortu.

https://doi.org/10.54512/YZBR4203

Show comments
  • Hasier Agirre Aranburu - Thu, 10 Nov 2022, 10:29 AM
    Oso da interesgarria egitasmoa. Atzerapen handi samarrez bada ere, zera gehituko nioke artikuluko hirugarren puntuari, SLA parametroak aipatzen diren horri: bariazioa edo aniztasuna (adjektiboena, aditzena eta abar) testu baten komunikagaitasuna mailakatzeko ahaztu ezineko alderdia bada ere, aditu batzuek diotenez, komeni da bariazio-faktore hori egungo diskurtsoan gutxien erabiltzen diren hitzen faktorearekin konbinatzea.

    Egun, corpus asko eta askori esker, badakigu egungo euskarazko hitzen maiztasuna zenbatekoa den, zein maiztasun-tartetan dauden. Egungo Testuen Corpuseko lemetan sartuta, esaterako. Badirudi maiztasun-tarte txikienetan dauden hitzak erabiltzeak ikusteko handia duela testu baten zailtasun-mailarekin, eta, testuak luzatu ahala, fidagarriagoa dela hitzen bariazioaren ratioa (type-token ratio) baino. Type-token ratioak, ideia bat egin dezazuen, testu bateko hitz ezberdinen eta testuko hitz guztien arteko ratioa ateratzen du. Testua luzatu ahalean, ordea, eraginkortasun apur bat galtzen omen du.

    Bien konbinaketa litzateke, ahal balitz, egokiena: bariazioarena gehi gutxien erabiltzen diren hitzena. Eta horri guztiari, jakina, artikuluan argi asko adierazten denez, HEOCa erantsiko litzaioke kontua biribiltzeko.

    Neuk, neure eskasean, berretsi egiten dut egungo diskurtsoan gutxien erabiltzen diren hitzen (actual infrequent words) eta testuen zailtasunaren artean erlazio oso zuzena dagoena.

    Argi dagoena da hizkuntzaren teknologiek ezin baztertuzko rola dutela egun eta are handiagoa izango dutela etorkizuneko ikas-irakaskuntzan. Beraz, pozgarria da zinez HABE eta IXA ikerketa-taldea halako egitasmo batean eskutik aritzea.