2017
|
|
Euskal hizkeren arteko aldakortasun sintaktikoa aztertzeko garatu dugun BASYQUE aplikazioa ikerketarako tresna baliagarria dela ikusita, hasierako lan hori
|
euskarazko
corpus historikoa maila sintaktikoan arakatzeko gai izango den bitarteko bat garatzeko asmoarekin zabaldu dugu.
|
|
Guk ere horrelako corpus bat osatu eta prestatu nahi dugu. Izan ere,
|
euskarazko
corpus historikoa sintaktikoki arakatzeko baliabideak prestatzeak aukera emango digu euskal gramatikaren ezaugarri nagusien inguruan azterketa diakroniko sistematikoak egiteko, egitura gramatikal jakin batzuen bilakaera ezagutzeko eta gaur egungo sintaxi diakronikoaren eta hizkuntzalaritza teorikoaren alorretan egin diren aurkikuntza teorikoekin alderatzeko. Hain zuzen ere, sintaxi mailan etiketatutako corpus historikoak egitura sintaktikoak mendez mende nola aldatzen joan diren erakutsiko digu.
|
|
Beraz, esku artean ditugun bi proiektu hauekin euskararen sintaxi diakronikoa bitarteko informatikoen laguntzaz aztertzeko oinarriak finkatzen hasi gara eta alor honetan lanean jarraituko dugu. BASYQUE aplikazioari dagokionez, datu bilketarekin segituko dugu (orain arte osatu duguna baino corpus zabalago eta sendoago bat eskuratu arte) eta horrekin batera, helburu dugun
|
euskarazko
corpus historikoaren arakatzaile sintaktikoa garatzeko xedea dugu, sintaxi diakronikoa aztertzeko oinarriak finkatzearekin batera.
|
|
Hala, gure xede nagusia HAPren alorrean garatutako tresnek eskaintzen dizkiguten abantailak eta bitartekoak baliatuz, izaera dialektala duten corpusak maila sintaktikoan aztertu eta automatikoki tratatzeko baliabideak garatzea da, gure hizkuntza komunitaterako ekarpen interesgarria dela aurreikusten baitugu, eta adierazpen hori baieztatzen duten bi baliabide aurkezten ditugu artikulu honetan: BASYQUE aplikazioa18 eta
|
euskarazko
corpus historikoaren arakatzaile sintaktikoa.
|
|
Lehenik eta behin
|
euskarazko
corpus historiko adierazgarri bat osatu beharra dugu, garai eta leku desberdinetako euskalkiak ordezkatuta izango dituen corpusa, hain zuzen. Corpus hori osatzeko, Klasikoen Gordailua (KG) 27 webgunean eskuragarri dauden testu digitalizatuak baliatzeko asmoa dugu28 Izan ere, testu horietan egon daitezkeen erroreen detekzioa eta zuzenketa egin dugula jakin arren, testuak egungo grafian digitalizatuta izateak lan handia aurrezten digu.
|
|
Artikulu honetan euskara ez estandarra aztergai duten bi proiekturen berri eman nahi dugu: 2009an abiarazi genuen BASYQUE aplikazioa eta diseinu fasean dagoen
|
euskarazko
corpus historikoaren arakatzaile sintaktikoa.
|
2022
|
|
Bigramak (bi letra batera) eta trigramak (hiru letra batera) praktikatu ondoren, lotura horiek dituzten hitzekin praktikatzen da. Lan horretan transkribatu beharreko hitzak aukeratzeko, hizkuntzen corpusak erabili dira, Txikipedia
|
euskarazko
corpusa eta Vikipedia gaztelaniazkoa (260.000 hitz inguruko corpusa da euskarazkoa eta 500.000 hitzekoa gaztelaniazkoa). Ixa taldeak CLARIN azpiegituraren (Bel, Gonzalez Balcon eta Iruskieta, 2019) bitartez ematen duen zerbitzuari esker (http://ixa2.si.ehu.eus/clarink/).
|