2007
|
|
Hala, Internet baliabide linguistiko eta corpusen iturri aproposa bilakatzen ari da pixkanaka. Horren adibide bat da CorpEus, Internet
|
euskarazko
corpus erraldoi gisa baliatzeko aukera ematen duen tresna.
|
|
Corpusak egitea, berriz, lan garestia eta neketsua da, eta zaila da beti eguneratuta edukitzea. Horregatik,
|
euskarazko
corpusak gutxi eta txikiak dira, beste hizkuntzetakoekin konparatuta behintzat.
|
|
Muga horiek gainditu ahal izateko sortu dute CorpEus. Tresna hori Elhuyar Fundazioko I+G taldeak garatu du, EHUko Informatika Fakultateko IXA Taldearen laguntzarekin, eta, esan bezala, Internet
|
euskarazko
corpustzat erabiltzeko aukera ematen du. Izan ere, Internet corpus erraldoi bat dela esan liteke, euskaraz dagoen edozein corpus baino askoz ere handiagoa.
|
|
Horixe gertatzen da, hain justu, zenbait hitz teknikorekin adibidez, anorexia, sulfuroso eta byte, hitz labur batzuekin katu eta esne, esate baterako eta izen bereziekin Fiji eta Newton, besteak beste. Hain zuzen, hitz teknikoen bilaketak oso ohikoak eta erabilgarriak dira
|
euskarazko
corpusetan, terminologia ez baitago behar bezain normalizatuta euskaran.
|
2008
|
|
Hizkuntza guztiak kontuan hartuta, ingelesaren agerrera erabat gailentzen da besteen aldean, bai kantitatez bai corpus moten aniztasunez. Bestalde, aitortu beharra dago
|
euskarazko
corpusen erreferentziarik ez dela izaten horrelakoetan (ELDAren bidez banatzen direnak alde batera utzita).
|
|
Erreferentzia corpusen garrantziaz ohartarazi gaituzte hainbat adituk (Leech 2002), eta, beharbada, alderdi hori da
|
euskarazko
corpusetan dagoen gabezia nabarmenena. Azken urteetan, maiz hitz egiten da euskararen erreferentzia corpusaren proiektua egiteko dagoen premiaz.
|
|
Aipatzekoa ere bada
|
euskarazko
corpusen asmoa deskriptiboa dela.
|
|
Atzerapen hori nagusiki erreferentzia corpusei dagokie, eta, nabarmen, tamainari. OEHTC eta XXMECE lorpen handiak izan dira, baina azpimarratzekoa da ez dagoela oraingoz
|
euskarazko
corpus ‘erraldoirik’, eta neurri ‘txikiko’ baliabideak direla aitortu behar da. Ereduzko Prosa gaur da, tamaina aldetik, nabarmenena, baina ezin genezake erreferentzia corpustzat hartu (orekatu gabea da).
|
|
Corpusen egituratzeeta prozesatze linguistikoa dela eta,
|
euskarazko
corpus batzuek betetzen dituzte gaur egungo estandarrak. Adierazi dugu OEHTCn informazio linguistikoa (lema, kategoria...) ez izatea tamalgarria dela, baina geroztik egin diren testu corpus nagusietan behintzat ez da hutsegite hori berriz gertatu (XXMECE, ZTC, EPG...).
|
|
Aipatzekoa ere bada
|
euskarazko
corpusen asmoa deskriptiboa dela, batean izan ezik (EPG). Hizkuntza ereduari dagokionez, berrienak euskara batuari so daude (tresna automatikoak horrekin dabiltza hobekien), baina euskalkien eta beste barietate batzuen presentzia ere badago.
|
|
Tresna horren bidez eratu dira, adibidez, Wacky proiektuaren barruko ItWaC eta DeWaC italierazko eta alemanezko corpusak, 2 mila milioi eta 1,7 mila milioi hitzekoak, hurrenez hurren. Gainera, Corpus building for minority languages gunean12, K. P. Scannell ek An Crúbadán web crawler aren bidez osatutako 419 hizkuntzaren corpusen berri ematen du, eta, horien artean,
|
euskarazko
corpusen datu batzuk ematen ditu (Scannell 2007).
|
|
Elhuyar Fundazioaren bi proiektu dira aipagarriak hemen, azaldu ditugun bi ikuspegietan oinarrituak. Lehena CorpEus proiektua da, Internet
|
euskarazko
corpus erraldoi gisa baliatzea helburu duena (Leturia et al., 2007a). WebCorp eta horien antzeko zerbitzu bat ezarri da13, baina euskararen berezitasunei egokitua.
|
|
Bigarrena Co3 proiektua da (Comparable Corpus Compiler), Internetetik corpusak osatzeko testuak automatikoki eratuko dituen tresna. Batez ere corpus eleaniztun konparagarriak lortzera bideratuta badago ere,
|
euskarazko
corpus elebakarrak egiteko ere balioko du, bai corpus orokor handiak bai espezializatu txikiagoak14.
|
|
Ahal dela, corpusak linguistikoki prozesatu behar dira, gero corpusetik informazio linguistikoa lortu ahal izateko. Prozesatze horren bidez, testuko formen lema, kategoria, kasua, funtzio sintaktikoa, adiera eta abar etiErreferentzia corpusen garrantziaz ohartarazi gaituzte hainbat adituk (Leech 2002), eta, beharbada, alderdi hori da
|
euskarazko
corpusetan dagoen gabezia nabarmenena.
|
|
Gainera, kontuan hartu behar da corpus batzuk diru publikoz osorik finantzatuak izan direla, eta ez dela erraz ulertzen corpus horiek ez askatzea (ikerkuntzarako, esaterako) edo lizentzia baten truke ustiapen komertzialerako eskuragarri ez jartzea. Horrek ez du
|
euskarazko
corpusen erabilgarritasuna eta emankortasuna murriztu baizik egiten.
|
|
Bestetik, gure azterketan nabaritu dugu mundu mailako ikusmiran
|
euskarazko
corpusak ez direla nahikoa ‘ikusten’, hau da, corpusen eta hizkuntza teknologien erreferentzia gune ezagunetan oso informazio gutxi aurkitu dugu euskarazko baliabideez. Arazo hori ez da euskarazko corpusena bakarrik, noski; esaterako, P. Bilbaok salatu duenez, Europako hizkuntza politika ‘txarrak’, edo ezegokiak, Europa mailan" ikusgabe
|
|
Bestetik, gure azterketan nabaritu dugu mundu mailako ikusmiran euskarazko corpusak ez direla nahikoa ‘ikusten’, hau da, corpusen eta hizkuntza teknologien erreferentzia gune ezagunetan oso informazio gutxi aurkitu dugu euskarazko baliabideez. Arazo hori ez da
|
euskarazko
corpusena bakarrik, noski; esaterako, P. Bilbaok salatu duenez, Europako hizkuntza politika ‘txarrak’, edo ezegokiak, Europa mailan" ikusgabe
|
|
Nolanahi ere, nabarmentzekoa da ikerketa talde eta erakunde batzuek egiten duten ahalegina
|
euskarazko
corpusen eta, oro har, hizkuntza teknologien informazioa argitalpen eta biltzar espezializatuetan agertzeko. Horien denen bilduma luzeegia litzateke, baina artikulu honetan bildu dugun bibliografiak agerian jar dezake errealitate hori.
|
|
Ikuspegieta tresna aniztasuna ez daitezela oztopo izan corpusgintzan ditugun premiei behar bezala ez erantzuteko. Hemendik urte batzuetara, artikulu honetan aurkeztu dugun grafikoa eguneratzen dugunean,
|
euskarazko
corpus gehiago eta handiagoak ikusi nahi genituzke, eta, horien artean, euskararen erreferentzia corpusa. Badugu zeregina.❚
|
2011
|
|
Weba
|
euskarazko
corpus gisa kontsultatzea ahalbidetzen duen zerbitzua da CorpEus.14 Internet euskarazko corpus erraldoi bat balitz bezala kontsultatzeko aukera ematen du zerbitzu honek. Sartutako hitzaren lema bidezko bilaketa egiten du Interneteko euskarazko orrien artean.
|
|
Weba euskarazko corpus gisa kontsultatzea ahalbidetzen duen zerbitzua da CorpEus.14 Internet
|
euskarazko
corpus erraldoi bat balitz bezala kontsultatzeko aukera ematen du zerbitzu honek. Sartutako hitzaren lema bidezko bilaketa egiten du Interneteko euskarazko orrien artean.
|
2013
|
|
Azterketa hurbilbide diskurtsibo pragmatiko batetik egiten da. Horretarako behar diren hizkuntza ekoizpen enpirikoak eskuratzeko,
|
euskarazko
corpus zabala osatzen duten testuetatik ateratako adibideak baliatzen dira. Erabilerari erreparatuz gero, emaitzek erakusten dute, kontzesiozko eta argudiozko balioez gain, markatzaile hauek balio diskurtsibo anitz bereganatzen dituztela eta, bestalde, lau birformulatzaileek elkarren baliokide moduan funtziona dezaketela.
|
|
Adibideen erauzketa bi bidetatik egin da. Alde batetik, sarean eskuragarri dauden
|
euskarazko
corpusak erabili dira, eta bestetik, EUDIMA proiekturako apropos egokitutako tresna. Biak ala biak zehaztasun eta adierazgarritasun handikoak.
|
2014
|
|
Ahotsak Ahozko Tradiziozko Corpusa izendatu dugun proiektu honen helburua daahozko materialean oinarritutako
|
euskarazko
corpus linguistiko bat osatzea. EuskalHerriko Ahotsak proiektuan zehar egindako transkripzioetan oinarrituz, 1900 1950bitartean jaiotako euskaldunen bat bateko hizkera naturalaren ezaugarriak bildu nahiditu.
|
|
Euskararen kalitatea hobetu eta erabilera sustatzeko, nahitaezkoa dugu ereduaeta bidea erakutsiko diguten adibideak eta lanabesak izatea. Beharrezko erremintenartean
|
euskarazko
corpusak daude, ahal dela libreak eta denon esku izango direnak, eta gure aurrekoek erabilitako euskara zein den erakutsiko digutenak. Euskarakesparru berrietara zabaldu nahi badu datozen urteotan, behar beharrezkoa dugujakitea orain arteko euskaldunek nola erabili izan duten gure hizkuntza.
|
2015
|
|
KARMEL-en
|
euskarazko
corpusa jasotzeko baldintzak:
|
|
Eleaniztasun hori dela-eta, hiru datu multzorekin egin dugu lan, euskarazko eta gaztelerazko urre patroiak ingelesekoaren itzulpenak izanik. Arrazoi beragatik, hiru hizkuntzen bektore adierazpenak erauzteko hiru corpus erabili ditugu:
|
euskarazko
corpusa Elhuyar fundazioak utzitako corpusa da, artikulu zientifikoz osatua dago eta 1.5? 108berbaz osatua; ingeleseko bektore adierazpenak 1011 berbako Google News corpusetik erauzita daude, eta Google Code tik5 jaitsi ditugu zuzenean; gaztelerazkoa QTLeap protiektuan erabilitako corpusenbilduma da, 0.8?
|
|
Lan honetan, Web as Corpus planteamendua erabilita
|
euskarazko
corpus orokor oso handibat biltzen eta weba euskarazko corpus bat bailitzan zuzenean kontsultatzen saiatu gara.
|
|
Lan honetan, Web as Corpus planteamendua erabilita euskarazko corpus orokor oso handibat biltzen eta weba
|
euskarazko
corpus bat bailitzan zuzenean kontsultatzen saiatu gara.
|
|
2.2 Weba
|
euskarazko
corpus bat bailitzan kontsultatzea
|
|
Edonola ere, zerbitzu eta tresna hauek ez dabiltza ongi euskararen kasuan, morfologiagatikbatetik eta bilatzaileek euskarari ematen dioten tratamenduagatik (edo, hobeto, tratamenduezagatik) bestetik. Horregatik, tesiaren helburuetako bat izan da tresna bat eraikitzea, ahalbidetuko duena weba kontsultatzea
|
euskarazko
corpus bat bailitzan.
|
|
Kalitate aldetik corpus egokiak dira, corpus klasikoen hitzak ia osorik barnehartzen dituztenak eta besteek ez dituzten hitzen ekarpen handia egiten dutenak. Beraz, webaiturburu egokia da
|
euskarazko
corpus orokorren egoera nabarmen hobetzeko, eta hobekuntzahau gauzatu egin da, 100 milioi hitzetik gorako corpus handi horietako bat Web CorpusenAtarian jarri baita jendearen eskuragarri6.
|
|
3.2 Weba
|
euskarazko
corpus bat bailitzan kontsultatzea
|
|
Weba
|
euskarazko
corpus gisa kontsultatu ahal izateko tresna bat eraiki ahal izateko, biteknika garatu dira: morfologia bidezko galderaren hedapena eta hizkuntza filtratzeko hitzak.Lehenengoa honetan datza:
|
|
Horrez gain, weba
|
euskarazko
corpus gisa kontsultatu ahal izateko tresna eraiki egin da etaeuskal gizartearen eskura online jarri: CorpEus7 (Leturia, Gurrutxaga, Alegria, et al., 2007).
|
|
Artikuluaren sarreran, corpusei dagokienez euskararen egoera txarra azpimarratzen genuen.Gure hipotesia zen Web as Corpus planteamendua baliozkoa zela
|
euskarazko
corpusen egoeranhobekuntza esanguratsua lortzeko, eta lan hau hipotesi horren zuzentasuna frogatzera eta, aldiberean, euskarazko corpusen egoera hobetzera bideratu da.
|
|
Artikuluaren sarreran, corpusei dagokienez euskararen egoera txarra azpimarratzen genuen.Gure hipotesia zen Web as Corpus planteamendua baliozkoa zela euskarazko corpusen egoeranhobekuntza esanguratsua lortzeko, eta lan hau hipotesi horren zuzentasuna frogatzera eta, aldiberean
|
,
euskarazko corpusen egoera hobetzera bideratu da.
|
|
Helburu horren bila, lehenbizi bi tresna garatu genituen, bata bilatzaileetan oinarritua etabestea crawling metodoan,
|
euskarazko
corpus orokor handiak lortzeko. Horien bidez, orduraarteko corpusen tamaina 8 aldiz gainditzen zuten corpusak osatu dira, 200 milioi hitzeraailegatuz, eta etorkizunean are handiagoak lortzea espero dugu crawling metodoaren bidez.Corpus horietako bat, 125 milioi hitzekoa (ordura arte bildu genuen handiena), online jarri dakontsulta publikorako Web Corpusen Atarian.
|
|
Ondoren, web zerbitzu bat osatzea lortu genuen (CorpEus) weba
|
euskarazko
corpus gisakontsultatzea ahalbidetzen duena, horrelako beste zerbitzu batzuek euskararekin dituztenarazoak gainditzen zituena. Horretarako, morfologia bidezko galderaren hedapena eta hizkuntzairagazteko hitzen teknikak asmatu, inplementatu eta optimizatu genituen, tresna honetan erabilidena baina baita tesian bilatzaileen bidez corpusak biltzeko garatu diren beste tresna denetan etaeuskarazko bilatzaile batean (Elebila) ere.
|
|
Honegatik guztiagatik, ondoriozta dezakegu gure hasierako hipotesia egiaztatu dela, hau da, Web as Corpus planteamenduak euskararen corpusen egoeran aldaketa ekar zezakeela, etaaldaketa hori etorri etorri dela hemen deskribatzen den lanarekin. Beste hizkuntza handiagoenegoerarekin ezin dezakegu konparatu euskararena, baina metodologia eta tresna batzuk garatuditugu dagoena biltzeko eta asko bildu da,
|
euskarazko
corpusen kantitatea eta tamaina moduesanguratsuan handituz.
|
|
1.4 Weba
|
euskarazko
corpus gisa
|
|
Testu corpusak behar beharrezkoak dira egoera normalean bizi nahi duen hizkuntza batentzat, etahala da euskararentzat ere. Baina
|
euskarazko
corpus orokorren tamaina oso txikia da beste hizkuntzahandiagoenekin konparatzen badugu. Horregatik, logikoa da, beste hizkuntza horiek egin duten bezala, euskarak ere. Web as Corpus?
|
|
Horregatik, logikoa da, beste hizkuntza horiek egin duten bezala, euskarak ere. Web as Corpus? planteamendua (hau da, weba eta metodo automatikoak) baliatzea.Artikulu honetan azaltzen dira egileak bere doktore tesian
|
euskarazko
corpus orokor handi bat biltzekoeta weba euskarazko corpus gisa kontsultatzeko egindako ikerketak, garatutako tresnak eta lortutakoemaitzak. Lan horretan lehenbiziko aldiz lortu da 100 milioi hitzetik gorako euskarazko corpus batosatzea, eta online jarri dira gizartearen eskura corpus hori eta weba corpus bat bailitzankontsultatzeko tresna.
|
|
Horregatik, logikoa da, beste hizkuntza horiek egin duten bezala, euskarak ere. Web as Corpus? planteamendua (hau da, weba eta metodo automatikoak) baliatzea.Artikulu honetan azaltzen dira egileak bere doktore tesian euskarazko corpus orokor handi bat biltzekoeta weba
|
euskarazko
corpus gisa kontsultatzeko egindako ikerketak, garatutako tresnak eta lortutakoemaitzak. Lan horretan lehenbiziko aldiz lortu da 100 milioi hitzetik gorako euskarazko corpus batosatzea, eta online jarri dira gizartearen eskura corpus hori eta weba corpus bat bailitzankontsultatzeko tresna.
|
|
planteamendua (hau da, weba eta metodo automatikoak) baliatzea.Artikulu honetan azaltzen dira egileak bere doktore tesian euskarazko corpus orokor handi bat biltzekoeta weba euskarazko corpus gisa kontsultatzeko egindako ikerketak, garatutako tresnak eta lortutakoemaitzak. Lan horretan lehenbiziko aldiz lortu da 100 milioi hitzetik gorako
|
euskarazko
corpus batosatzea, eta online jarri dira gizartearen eskura corpus hori eta weba corpus bat bailitzankontsultatzeko tresna.
|
|
Eta hala ere,
|
euskarazko
corpusak ez dira luketen adina edo luketen bezainhandiak, euskarak, edozein hizkuntza txikik bezala, ez baititu nahi beste baliabide (gizabaliabideak zein ekonomikoak) eta corpusak modu klasikoan egitea (hau da, inprimatutakotestuetatik erauzita) oso garestia eta mantsoa baita. Euskaraz sei corpus orokor besterik ezdaude eskuragai:
|
|
Ikusten denez,
|
euskarazko
corpusak gutxi dira, gehienbat txikiak (beste hizkuntzahandiagoetakoekin konparatuz behintzat) eta ez eguneratuak, euskarak, edozein hizkuntza txikikbezala, ez baititu nahi beste baliabide (giza baliabideak zein ekonomikoak) eta corpusak moduklasikoan egitea (hau da, inprimatutako testuetatik erauzita) oso garestia eta mantsoa baita.
|
2017
|
|
Badira hainbat aspektu etorkizunean landu nahiko genituzkeenak. Lehenik eta behin, lanok
|
euskarazko
corpus batean aplikatu nahiko genituzke, horrela euskarazko poesiaren analisi prosodikoa egin ahalizateko eta honetan bide berriak jorratu ahal izateko. Horretarako poema bilduma bat metrikoki etiketatzeko bidean gabiltza, ingelesezko corpusaren antzera.
|
|
Euskal hizkeren arteko aldakortasun sintaktikoa aztertzeko garatu dugun BASYQUE aplikazioa ikerketarako tresna baliagarria dela ikusita, hasierako lan hori
|
euskarazko
corpus historikoa maila sintaktikoan arakatzeko gai izango den bitarteko bat garatzeko asmoarekin zabaldu dugu.
|
|
Guk ere horrelako corpus bat osatu eta prestatu nahi dugu. Izan ere,
|
euskarazko
corpus historikoa sintaktikoki arakatzeko baliabideak prestatzeak aukera emango digu euskal gramatikaren ezaugarri nagusien inguruan azterketa diakroniko sistematikoak egiteko, egitura gramatikal jakin batzuen bilakaera ezagutzeko eta gaur egungo sintaxi diakronikoaren eta hizkuntzalaritza teorikoaren alorretan egin diren aurkikuntza teorikoekin alderatzeko. Hain zuzen ere, sintaxi mailan etiketatutako corpus historikoak egitura sintaktikoak mendez mende nola aldatzen joan diren erakutsiko digu.
|
|
Beraz, esku artean ditugun bi proiektu hauekin euskararen sintaxi diakronikoa bitarteko informatikoen laguntzaz aztertzeko oinarriak finkatzen hasi gara eta alor honetan lanean jarraituko dugu. BASYQUE aplikazioari dagokionez, datu bilketarekin segituko dugu (orain arte osatu duguna baino corpus zabalago eta sendoago bat eskuratu arte) eta horrekin batera, helburu dugun
|
euskarazko
corpus historikoaren arakatzaile sintaktikoa garatzeko xedea dugu, sintaxi diakronikoa aztertzeko oinarriak finkatzearekin batera.
|
|
Hala, gure xede nagusia HAPren alorrean garatutako tresnek eskaintzen dizkiguten abantailak eta bitartekoak baliatuz, izaera dialektala duten corpusak maila sintaktikoan aztertu eta automatikoki tratatzeko baliabideak garatzea da, gure hizkuntza komunitaterako ekarpen interesgarria dela aurreikusten baitugu, eta adierazpen hori baieztatzen duten bi baliabide aurkezten ditugu artikulu honetan: BASYQUE aplikazioa18 eta
|
euskarazko
corpus historikoaren arakatzaile sintaktikoa.
|
|
Lehenik eta behin
|
euskarazko
corpus historiko adierazgarri bat osatu beharra dugu, garai eta leku desberdinetako euskalkiak ordezkatuta izango dituen corpusa, hain zuzen. Corpus hori osatzeko, Klasikoen Gordailua (KG) 27 webgunean eskuragarri dauden testu digitalizatuak baliatzeko asmoa dugu28 Izan ere, testu horietan egon daitezkeen erroreen detekzioa eta zuzenketa egin dugula jakin arren, testuak egungo grafian digitalizatuta izateak lan handia aurrezten digu.
|
|
Artikulu honetan euskara ez estandarra aztergai duten bi proiekturen berri eman nahi dugu: 2009an abiarazi genuen BASYQUE aplikazioa eta diseinu fasean dagoen
|
euskarazko
corpus historikoaren arakatzaile sintaktikoa.
|
2018
|
|
Dena den, hilketa bortitzak, asasinamenduak izanen dira bildu ahal izan dugun
|
euskarazko
corpuseko kantu gehienak, hots, hamahirutik hamaika. Eta zergatik hori?
|
2019
|
|
Euskararen estandarizazioan baliabide digitalak nola erabili izan diren errepasatu ditu lehenik. Tartean, Ibon Sarasolaren lana eta Klaudio Harluxeten ekarpena gogoratu ditu, lehena,?
|
euskarazko
corpus bat informatika erabiliz arakatzeko lehen saioa, egin zuelako, eta bigarrenak, irtenbide ez konbentzionalak proposatzeko argitasuna izan zuelako:
|
|
Hastapeneko urteez, bi izen izan zituen espresuki gogoan. Batetik, Ibon Sarasolarena,?
|
euskarazko
corpus bat informatika erabiliz arakatzeko lehendabiziko saioa, haren eskutik egin zelako, eta bestetik, Klaudio Harluxet zenarena, UZEIk lanerako sistema informatiko propioaren alde egin zuenean,, mundu guztiak halakorik lortzea ezinezko jo zuen arren, neurrira kodetutako datu base bat, guztiz ez konbentzionala?
|
|
Corpus horretan zer nolako etiketak dauden azaltzeko, labur ditzagun orain etiketatzegidalerroetako kontzeptu nagusiak (3.1 azpiatala), corpusean bereizten diren UF moten ezaugarriak (3.2 azpiatala) eta corpus etiketatuari buruzko datu orokorrak (3.3 atala). Xehetasun gehiago behar dituenak Savary et al. enlanean (2018) ditu eskuragarri gidalerroak osorik1, eta Inurrieta et al. enean (2018)
|
euskarazko
corpusari buruzkoargibideak eta gogoetak.
|
|
1 taula. PARSEMEko
|
euskarazko
corpusaren datuak
|
|
Horretarako, Turingen testaren ideia era konputazionalean inplementatzen duten sare neuronal sortzaileaurkariak erabili ditugu. Normalean erabiltzen diren ingelesezko corpusak baino bi magnitude ordena txikiagoaden
|
euskarazko
corpus batekin halako sareak entrenatzea badagoela frogatzen dugu. Amaitzeko, euskararenmorfologia kontuan hartzen duen aurreprozesamendua erabiltzea komenigarria dela erakusten dugu.
|
|
Esan dugunez
|
euskarazko
corpus batekin entrenatuko ditugu sareak. Ingelesa ez bezala, euskara hizkuntza eranskaria da egitura morfologikoaren aldetik.
|
|
Ikasketa automatikoko sistemek, erregeletan oinarritutakoek baino corpus handiagoa eskatzen dute, sistemak datuetatik ikastenduelako, baina corpus ez oso handiekin ere emaitza onak eman ditzakete. Ikasketa sakonean ordea, neuronasareak entrenatzeko datu gehiago behar da, lan honetan erabili den EPEC KORREF
|
euskarazko
corpusa txikiada, eta lortu diren emaitza kaxkarren erantzule nagusia dela ondorioztatu da. Kokatzearren, polonierazko corpusaEPEC KORREF corpusa baino 10 aldiz handiagoa da eta neurona sareekin erregelatan oinarritutako sistemarenantzeko emaitzak lortu dituzte; ingeleserako erabili ohi den corpusa euskarazkoa baino 20 bat aldiz handiagoa daeta artearen egoeran dauden emaitzak lortu dira.
|
|
Azkenik,
|
euskarazko
corpusa handitzeaz eta arkitektura aldatzeaz gain, hizkuntza arteko sistema bat eraiki daiteke (Kundu et al., 2018; Cruz et al., 2018); baliabide askoko hizkuntza batean (ingelesean adibidez) korreferentzia ebazpenerako sistema bat entrenatuz, eta ondoren sistema hau euskarako korreferentziaebazpenerako baliatuz. Hizkuntza batetik ikasitako ezagutza bigarren hizkuntza bati aplikatuta emaitza onak lortubaitira hizkuntzaren prozesamenduko ataza ezberdinetan.
|
2020
|
|
Kontuak horrela, eta
|
euskarazko
corpus elebakar erraldoirik ez dugunez, euskaratik gaztelaniarakoitzultzailea izango litzateke bideragarria gaur eguneko baliabideekin. Itzulpen automatikoen adibide batzuk ikus ditzakezue jarraian:
|
2021
|
|
Haien ekarpena ez da zuzenki sartzen euskal literaturaren historian, bainan halarik ere, haiek gabe ez zen euskal literaturaren historiarik egin ahal izan. Euskal literaturaren historialariek erabili duten
|
euskarazko
korpusa finkatu dute argitaratzaileek. Aipatzaileek berriz, beren kritika eta aipamenen bitartez, euskal literaturaren osagaiak eta bizi literarioaren mamia argitan utzia dute beren artikuluetan.
|
2022
|
|
Lizardik eta Munduatek (2015) Goenkaleko hitanoaren erabilerari erreparatu zioten, azterketa sintaktikoa egite aldera. Basterretxeak (2021) gaztelaniazko eta euskarazko tratamenduak erkatzeko Goenkale erabili zuen
|
euskarazko
corpus gisa.
|
|
Bigramak (bi letra batera) eta trigramak (hiru letra batera) praktikatu ondoren, lotura horiek dituzten hitzekin praktikatzen da. Lan horretan transkribatu beharreko hitzak aukeratzeko, hizkuntzen corpusak erabili dira, Txikipedia
|
euskarazko
corpusa eta Vikipedia gaztelaniazkoa (260.000 hitz inguruko corpusa da euskarazkoa eta 500.000 hitzekoa gaztelaniazkoa). Ixa taldeak CLARIN azpiegituraren (Bel, Gonzalez Balcon eta Iruskieta, 2019) bitartez ematen duen zerbitzuari esker (http://ixa2.si.ehu.eus/clarink/).
|