HABE-IXA euskarazko idazmen-proben corpuseko idazlanen mailakatze automatikoa

Argitaratua: Thursday, 11 May 2023, 12:34 PM
e-Hizpide

Gero eta euskarazko testu gehiago idazten da ordenagailuz eta hainbat erabileratarako interesgarria litzateke Helduen Euskalduntzearen Oinarrizko Curriculumeko (HEOC) komunikagaitasun-mailetan oinarrituta testuok automatikoki mailakatzea. Artikulu honetan azalduko den lanaren helburua honako hau da: HABE-IXA euskarazko idazmen-proben corpusa aurkeztea eta, Europako Erreferentzia Marko Bateratuko (EEMB) B1, B2, C1 eta C2 mailen arabera sailkatzeko tresna automatikoekin lortutako emaitzak azaltzea. HABE-IXA corpusa HABE erakundeak egiaztatzegintza-prozesuetan jasotako 480 idazlanez eta horien ebaluazioez osaturik dago. Testu-sailkapenean, Ixa taldeak (UPV/EHU) hizkuntza-prozesamendurako sorturiko analisi-tresnak eta ikasketa automatikoko teknikak erabiliz, zenbait sailkapen-ataza garatu dira eta emaitzarik onena (% 97ko zehaztasuna) idazlanei dagokien maila esleitzean lortu da. Etorkizuneko asmoa da corpus handiagoak osatu eta euskararen irakaskuntzarako baliagarriak izan daitezkeen sailkapen-tresnak garatzea. Corpusa eskura dago CC BY-NC 4.0 lizentziapean.

https://doi.org/10.54512/AGRJ9063

Beste eduki interesgarriak

Mikel Osinalde eta Mikel Iruskieta

Hizkuntza-ikasleen testu-corpus etiketatuaren analisia eta interpretazioa B2 eta C1 mailetan

Gero eta garrantzitsuagoa da ikerketan sorturiko datuak erakustea, are ikerketaren fidagarritasuna edota gai berean interesa duten ikerlariekin partekatzea ere, itxi gabeko ikerketa-ildoak garatzeko. Hori horrela, Humanitate Digitalen esparrutik eta ikerketa-azpiegiturak erabiliz, hizkuntzen irakaskuntzan datuetan oinarrituriko ebaluazioan urratsak emateko asmoz egin dugu lan hau. Lan honetan zinezko gizabanakoek benetako azterketatan ekoitzitako testuak aztertu dira, B2 eta C1 mailakoak. Lan hau HABEren eta Ixa Taldearen (UPV/EHU) elkarlanari esker burutu izan da. Egindako azterketa-lanaz gain, zenbait tresna eta bitartekoren berri ematen da eta etorkizunean horiek hizkuntza-gaitasunen ebaluazioan zein azterketan zenbaterainoko laguntza ekar lezaketen hausnartu da. Testu-zuzenketaren etiketatze-mailan "Markin" tresnarekin erabiltzeko etiketa-zerrenda ere proposatzen da eta hori baliatuta testuetako erroreak B2 eta C1 mailetan deskribatzeko saiakera ere egiten da, hein batean, halako ekimenek aurrera begira ekar ditzaketen onuren isla eskainita. Egindako irizpenak zein baliatutako datu gehienak eta bitartekoak arloko komunitatearen esku uzteko erabakiak lanaren zein jarduera esparruaren helburuekin bat egiten du, EuDat datuen azpiegitura europarra erabili dugu xede horretarako. https://doi.org/10.54512/HLFA9295