2000
|
|
Ezinbestekoa da
|
euskararen
corpusaren normalkuntzak maila diskurtsiboari erreparatzea, bai eta errepertorioari ere. Badago zer eginik horretan.
|
2002
|
|
Eta biak dira geroago sortu diren hainbat tresna informatikoren gurasoak, Xuxen zuzentzaile ortografikoa, Morfeus analizatzaile morfologikoa eta Euslem lematizatzailea. Azken tresna horiek UZEIk landu duen XX. mendeko
|
euskararen
corpus estatistikoaren (www.euskaracorpusa.net/XXmendea) azken urteak lematizatzeko erabili dira, baita zientzia.net (www.zientzia.net) eta Egunkariako hemerotekan (www.egunkaria.com/hemeroteka) guneetan bilaketak egiteko ere. Tresna horien oinarri teknikoak azaltzen dira liburu honetan.
|
2009
|
|
Horrela, gaur egun Klasikoen Gordailua bezalako proiektuak daude, tarte horretako hainbat generotako 300 obra baino gehiago on line eskaintzen dituena, eta masa idatzi horretan guztian terminoak bilatzeko aukera ematen duena. Edo
|
Euskararen
Corpusa, XX. mende osoko ekoizpenaren oso lagin oparoarekin gauza bera egiten duena».
|
2011
|
|
Euzko Gogoaren hizkuntza eredua gerraurrekoa zen, baina ez sabindar hertsien moldekoa, baizik eta Azkuek proposatutako gipuzkera osotuaren ildokoa (garbizalea baina ez hiperpurista). Aldizkariaren bidez euskal hizkuntzarentzat estatus berria aldarrikatzen zuen, baina ez erdararen bidetik, euskararenetik baizik, bidenabar
|
euskararen
corpusa osatuz.
|
2014
|
|
Ahotsak Ahozko Tradiziozko Corpusa izendatu dugun proiektu honen helburua daahozko materialean oinarritutako
|
euskarazko
corpus linguistiko bat osatzea. EuskalHerriko Ahotsak proiektuan zehar egindako transkripzioetan oinarrituz, 1900 1950bitartean jaiotako euskaldunen bat bateko hizkera naturalaren ezaugarriak bildu nahiditu.
|
|
Euskararen kalitatea hobetu eta erabilera sustatzeko, nahitaezkoa dugu ereduaeta bidea erakutsiko diguten adibideak eta lanabesak izatea. Beharrezko erremintenartean
|
euskarazko
corpusak daude, ahal dela libreak eta denon esku izango direnak, eta gure aurrekoek erabilitako euskara zein den erakutsiko digutenak. Euskarakesparru berrietara zabaldu nahi badu datozen urteotan, behar beharrezkoa dugujakitea orain arteko euskaldunek nola erabili izan duten gure hizkuntza.
|
|
|
Euskarazko
corpusen egoera sakon ezagutu nahi duenak jo beza Urkiaren (2010) laburpen artikulura. Gure aldetik, nagusienak zerrendatuko ditugu2:
|
2015
|
|
Eleaniztasun hori dela-eta, hiru datu multzorekin egin dugu lan, euskarazko eta gaztelerazko urre patroiak ingelesekoaren itzulpenak izanik. Arrazoi beragatik, hiru hizkuntzen bektore adierazpenak erauzteko hiru corpus erabili ditugu:
|
euskarazko
corpusa Elhuyar fundazioak utzitako corpusa da, artikulu zientifikoz osatua dago eta 1.5? 108berbaz osatua; ingeleseko bektore adierazpenak 1011 berbako Google News corpusetik erauzita daude, eta Google Code tik5 jaitsi ditugu zuzenean; gaztelerazkoa QTLeap protiektuan erabilitako corpusenbilduma da, 0.8?
|
|
Lan honetan, Web as Corpus planteamendua erabilita
|
euskarazko
corpus orokor oso handibat biltzen eta weba euskarazko corpus bat bailitzan zuzenean kontsultatzen saiatu gara.
|
|
Lan honetan, Web as Corpus planteamendua erabilita euskarazko corpus orokor oso handibat biltzen eta weba
|
euskarazko
corpus bat bailitzan zuzenean kontsultatzen saiatu gara.
|
|
2.2 Weba
|
euskarazko
corpus bat bailitzan kontsultatzea
|
|
Edonola ere, zerbitzu eta tresna hauek ez dabiltza ongi euskararen kasuan, morfologiagatikbatetik eta bilatzaileek euskarari ematen dioten tratamenduagatik (edo, hobeto, tratamenduezagatik) bestetik. Horregatik, tesiaren helburuetako bat izan da tresna bat eraikitzea, ahalbidetuko duena weba kontsultatzea
|
euskarazko
corpus bat bailitzan.
|
|
3.1
|
Euskarazko
corpus orokor handi bat osatzea weba testuen iturburutzat hartuta
|
|
|
Euskarazko
corpus orokor handi bat lortzeko helburuarekin, bi metodoak probatu eta ebaluatudira, crawling arena eta bilatzaileena, ikusteko zein den onena euskararentzat, abiadura, kostua, tamaina edo kalitateari dagokionez (Leturia, 2012).
|
|
hitzenluzerarentzat, 500, 1.000, 2.000, 5.000 eta 10.000 probatu dira eta konbinazioen luzeraridagokionez, 1, 2, 3, 4 eta 5. Hazi? hitzentzat XX. mendeko
|
Euskararen
Corpuseko hitzmaizenak erabili dira, funtzio hitzak kenduta. Eta bilaketek euskararentzat emaitza optimoaeman dezaten, gorago deskribatutako morfologia bidezko galderaren hedapena eta hizkuntzairagazteko hitzen teknikak erabiltzen dira berriz ere.
|
|
Corpusen kalitatea ebaluatzeko, bilatzaileen bidez lortu den corpus handiena eta crawlingbidez lortutako corpusa XX. mendeko
|
Euskararen
Corpusa eta Lexikoaren BehatokikoCorpusarekin konparatu dira, lau ezaugarriri begiratuta: zeintzuk diren corpus bakoitzeanbesteekiko gehien nabarmentzen diren hitzak (LLR elkartze neurriaren bidez kalkulatuta), corpus bakoitzeko hitz erabilgarrien kopurua (20 baino maiztasun handiagokoena), corpus batenestaldura besteekiko eta corpus baten ekarpena besteekiko.
|
|
Kalitate aldetik corpus egokiak dira, corpus klasikoen hitzak ia osorik barnehartzen dituztenak eta besteek ez dituzten hitzen ekarpen handia egiten dutenak. Beraz, webaiturburu egokia da
|
euskarazko
corpus orokorren egoera nabarmen hobetzeko, eta hobekuntzahau gauzatu egin da, 100 milioi hitzetik gorako corpus handi horietako bat Web CorpusenAtarian jarri baita jendearen eskuragarri6.
|
|
3.2 Weba
|
euskarazko
corpus bat bailitzan kontsultatzea
|
|
Weba
|
euskarazko
corpus gisa kontsultatu ahal izateko tresna bat eraiki ahal izateko, biteknika garatu dira: morfologia bidezko galderaren hedapena eta hizkuntza filtratzeko hitzak.Lehenengoa honetan datza:
|
|
Horrez gain, weba
|
euskarazko
corpus gisa kontsultatu ahal izateko tresna eraiki egin da etaeuskal gizartearen eskura online jarri: CorpEus7 (Leturia, Gurrutxaga, Alegria, et al., 2007).
|
|
Artikuluaren sarreran, corpusei dagokienez euskararen egoera txarra azpimarratzen genuen.Gure hipotesia zen Web as Corpus planteamendua baliozkoa zela
|
euskarazko
corpusen egoeranhobekuntza esanguratsua lortzeko, eta lan hau hipotesi horren zuzentasuna frogatzera eta, aldiberean, euskarazko corpusen egoera hobetzera bideratu da.
|
|
Artikuluaren sarreran, corpusei dagokienez euskararen egoera txarra azpimarratzen genuen.Gure hipotesia zen Web as Corpus planteamendua baliozkoa zela euskarazko corpusen egoeranhobekuntza esanguratsua lortzeko, eta lan hau hipotesi horren zuzentasuna frogatzera eta, aldiberean
|
,
euskarazko corpusen egoera hobetzera bideratu da.
|
|
Helburu horren bila, lehenbizi bi tresna garatu genituen, bata bilatzaileetan oinarritua etabestea crawling metodoan,
|
euskarazko
corpus orokor handiak lortzeko. Horien bidez, orduraarteko corpusen tamaina 8 aldiz gainditzen zuten corpusak osatu dira, 200 milioi hitzeraailegatuz, eta etorkizunean are handiagoak lortzea espero dugu crawling metodoaren bidez.Corpus horietako bat, 125 milioi hitzekoa (ordura arte bildu genuen handiena), online jarri dakontsulta publikorako Web Corpusen Atarian.
|
|
Ondoren, web zerbitzu bat osatzea lortu genuen (CorpEus) weba
|
euskarazko
corpus gisakontsultatzea ahalbidetzen duena, horrelako beste zerbitzu batzuek euskararekin dituztenarazoak gainditzen zituena. Horretarako, morfologia bidezko galderaren hedapena eta hizkuntzairagazteko hitzen teknikak asmatu, inplementatu eta optimizatu genituen, tresna honetan erabilidena baina baita tesian bilatzaileen bidez corpusak biltzeko garatu diren beste tresna denetan etaeuskarazko bilatzaile batean (Elebila) ere.
|
|
Honegatik guztiagatik, ondoriozta dezakegu gure hasierako hipotesia egiaztatu dela, hau da, Web as Corpus planteamenduak
|
euskararen
corpusen egoeran aldaketa ekar zezakeela, etaaldaketa hori etorri etorri dela hemen deskribatzen den lanarekin. Beste hizkuntza handiagoenegoerarekin ezin dezakegu konparatu euskararena, baina metodologia eta tresna batzuk garatuditugu dagoena biltzeko eta asko bildu da, euskarazko corpusen kantitatea eta tamaina moduesanguratsuan handituz.
|
|
Honegatik guztiagatik, ondoriozta dezakegu gure hasierako hipotesia egiaztatu dela, hau da, Web as Corpus planteamenduak euskararen corpusen egoeran aldaketa ekar zezakeela, etaaldaketa hori etorri etorri dela hemen deskribatzen den lanarekin. Beste hizkuntza handiagoenegoerarekin ezin dezakegu konparatu euskararena, baina metodologia eta tresna batzuk garatuditugu dagoena biltzeko eta asko bildu da,
|
euskarazko
corpusen kantitatea eta tamaina moduesanguratsuan handituz.
|
|
1.4 Weba
|
euskarazko
corpus gisa
|
|
|
Euskarazko
corpus orokorrak osatzeko weba ustiatzen
|
|
Testu corpusak behar beharrezkoak dira egoera normalean bizi nahi duen hizkuntza batentzat, etahala da euskararentzat ere. Baina
|
euskarazko
corpus orokorren tamaina oso txikia da beste hizkuntzahandiagoenekin konparatzen badugu. Horregatik, logikoa da, beste hizkuntza horiek egin duten bezala, euskarak ere. Web as Corpus?
|
|
Horregatik, logikoa da, beste hizkuntza horiek egin duten bezala, euskarak ere. Web as Corpus? planteamendua (hau da, weba eta metodo automatikoak) baliatzea.Artikulu honetan azaltzen dira egileak bere doktore tesian
|
euskarazko
corpus orokor handi bat biltzekoeta weba euskarazko corpus gisa kontsultatzeko egindako ikerketak, garatutako tresnak eta lortutakoemaitzak. Lan horretan lehenbiziko aldiz lortu da 100 milioi hitzetik gorako euskarazko corpus batosatzea, eta online jarri dira gizartearen eskura corpus hori eta weba corpus bat bailitzankontsultatzeko tresna.
|
|
Horregatik, logikoa da, beste hizkuntza horiek egin duten bezala, euskarak ere. Web as Corpus? planteamendua (hau da, weba eta metodo automatikoak) baliatzea.Artikulu honetan azaltzen dira egileak bere doktore tesian euskarazko corpus orokor handi bat biltzekoeta weba
|
euskarazko
corpus gisa kontsultatzeko egindako ikerketak, garatutako tresnak eta lortutakoemaitzak. Lan horretan lehenbiziko aldiz lortu da 100 milioi hitzetik gorako euskarazko corpus batosatzea, eta online jarri dira gizartearen eskura corpus hori eta weba corpus bat bailitzankontsultatzeko tresna.
|
|
planteamendua (hau da, weba eta metodo automatikoak) baliatzea.Artikulu honetan azaltzen dira egileak bere doktore tesian euskarazko corpus orokor handi bat biltzekoeta weba euskarazko corpus gisa kontsultatzeko egindako ikerketak, garatutako tresnak eta lortutakoemaitzak. Lan horretan lehenbiziko aldiz lortu da 100 milioi hitzetik gorako
|
euskarazko
corpus batosatzea, eta online jarri dira gizartearen eskura corpus hori eta weba corpus bat bailitzankontsultatzeko tresna.
|
|
1.2
|
Euskarazko
corpusak
|
|
Eta hala ere,
|
euskarazko
corpusak ez dira luketen adina edo luketen bezainhandiak, euskarak, edozein hizkuntza txikik bezala, ez baititu nahi beste baliabide (gizabaliabideak zein ekonomikoak) eta corpusak modu klasikoan egitea (hau da, inprimatutakotestuetatik erauzita) oso garestia eta mantsoa baita. Euskaraz sei corpus orokor besterik ezdaude eskuragai:
|
|
Ikusten denez,
|
euskarazko
corpusak gutxi dira, gehienbat txikiak (beste hizkuntzahandiagoetakoekin konparatuz behintzat) eta ez eguneratuak, euskarak, edozein hizkuntza txikikbezala, ez baititu nahi beste baliabide (giza baliabideak zein ekonomikoak) eta corpusak moduklasikoan egitea (hau da, inprimatutako testuetatik erauzita) oso garestia eta mantsoa baita.
|
2017
|
|
Badira hainbat aspektu etorkizunean landu nahiko genituzkeenak. Lehenik eta behin, lanok
|
euskarazko
corpus batean aplikatu nahiko genituzke, horrela euskarazko poesiaren analisi prosodikoa egin ahalizateko eta honetan bide berriak jorratu ahal izateko. Horretarako poema bilduma bat metrikoki etiketatzeko bidean gabiltza, ingelesezko corpusaren antzera.
|
2019
|
|
Corpus horretan zer nolako etiketak dauden azaltzeko, labur ditzagun orain etiketatzegidalerroetako kontzeptu nagusiak (3.1 azpiatala), corpusean bereizten diren UF moten ezaugarriak (3.2 azpiatala) eta corpus etiketatuari buruzko datu orokorrak (3.3 atala). Xehetasun gehiago behar dituenak Savary et al. enlanean (2018) ditu eskuragarri gidalerroak osorik1, eta Inurrieta et al. enean (2018)
|
euskarazko
corpusari buruzkoargibideak eta gogoetak.
|
|
|
Euskarazko
corpus etiketatuak3 bi iturritako testuak biltzen ditu: Dependentzia Unibertsalen corpuseko 6.621esaldi, hau da, corpus osoa (Aranzabe et al., 2019), eta Elhuyar Web Corpuseko4 4.537 esaldi.
|
|
1 taula. PARSEMEko
|
euskarazko
corpusaren datuak
|
|
Horretarako, Turingen testaren ideia era konputazionalean inplementatzen duten sare neuronal sortzaileaurkariak erabili ditugu. Normalean erabiltzen diren ingelesezko corpusak baino bi magnitude ordena txikiagoaden
|
euskarazko
corpus batekin halako sareak entrenatzea badagoela frogatzen dugu. Amaitzeko, euskararenmorfologia kontuan hartzen duen aurreprozesamendua erabiltzea komenigarria dela erakusten dugu.
|
|
Esan dugunez
|
euskarazko
corpus batekin entrenatuko ditugu sareak. Ingelesa ez bezala, euskara hizkuntza eranskaria da egitura morfologikoaren aldetik.
|
|
Ikasketa automatikoko sistemek, erregeletan oinarritutakoek baino corpus handiagoa eskatzen dute, sistemak datuetatik ikastenduelako, baina corpus ez oso handiekin ere emaitza onak eman ditzakete. Ikasketa sakonean ordea, neuronasareak entrenatzeko datu gehiago behar da, lan honetan erabili den EPEC KORREF
|
euskarazko
corpusa txikiada, eta lortu diren emaitza kaxkarren erantzule nagusia dela ondorioztatu da. Kokatzearren, polonierazko corpusaEPEC KORREF corpusa baino 10 aldiz handiagoa da eta neurona sareekin erregelatan oinarritutako sistemarenantzeko emaitzak lortu dituzte; ingeleserako erabili ohi den corpusa euskarazkoa baino 20 bat aldiz handiagoa daeta artearen egoeran dauden emaitzak lortu dira.
|
|
Azkenik,
|
euskarazko
corpusa handitzeaz eta arkitektura aldatzeaz gain, hizkuntza arteko sistema bat eraiki daiteke (Kundu et al., 2018; Cruz et al., 2018); baliabide askoko hizkuntza batean (ingelesean adibidez) korreferentzia ebazpenerako sistema bat entrenatuz, eta ondoren sistema hau euskarako korreferentziaebazpenerako baliatuz. Hizkuntza batetik ikasitako ezagutza bigarren hizkuntza bati aplikatuta emaitza onak lortubaitira hizkuntzaren prozesamenduko ataza ezberdinetan.
|