Bilaketa
dist.
non
lema/forma
nola
bilaketa
kategoria
Iragazkiak

Emaitzak: 43

2000
‎Ezinbestekoa da euskararen corpusaren normalkuntzak maila diskurtsiboari erreparatzea, bai eta errepertorioari ere. Badago zer eginik horretan.
2002
‎Eta biak dira geroago sortu diren hainbat tresna informatikoren gurasoak, Xuxen zuzentzaile ortografikoa, Morfeus analizatzaile morfologikoa eta Euslem lematizatzailea. Azken tresna horiek UZEIk landu duen XX. mendeko euskararen corpus estatistikoaren (www.euskaracorpusa.net/XXmendea) azken urteak lematizatzeko erabili dira, baita zientzia.net (www.zientzia.net) eta Egunkariako hemerotekan (www.egunkaria.com/hemeroteka) guneetan bilaketak egiteko ere. Tresna horien oinarri teknikoak azaltzen dira liburu honetan.
2009
‎Horrela, gaur egun Klasikoen Gordailua bezalako proiektuak daude, tarte horretako hainbat generotako 300 obra baino gehiago on line eskaintzen dituena, eta masa idatzi horretan guztian terminoak bilatzeko aukera ematen duena. Edo Euskararen Corpusa, XX. mende osoko ekoizpenaren oso lagin oparoarekin gauza bera egiten duena».
2011
‎Euzko Gogoaren hizkuntza eredua gerraurrekoa zen, baina ez sabindar hertsien moldekoa, baizik eta Azkuek proposatutako gipuzkera osotuaren ildokoa (garbizalea baina ez hiperpurista). Aldizkariaren bidez euskal hizkuntzarentzat estatus berria aldarrikatzen zuen, baina ez erdararen bidetik, euskararenetik baizik, bidenabar euskararen corpusa osatuz.
2014
‎Ahotsak Ahozko Tradiziozko Corpusa izendatu dugun proiektu honen helburua daahozko materialean oinarritutako euskarazko corpus linguistiko bat osatzea. EuskalHerriko Ahotsak proiektuan zehar egindako transkripzioetan oinarrituz, 1900 1950bitartean jaiotako euskaldunen bat bateko hizkera naturalaren ezaugarriak bildu nahiditu.
‎Euskararen kalitatea hobetu eta erabilera sustatzeko, nahitaezkoa dugu ereduaeta bidea erakutsiko diguten adibideak eta lanabesak izatea. Beharrezko erremintenartean euskarazko corpusak daude, ahal dela libreak eta denon esku izango direnak, eta gure aurrekoek erabilitako euskara zein den erakutsiko digutenak. Euskarakesparru berrietara zabaldu nahi badu datozen urteotan, behar beharrezkoa dugujakitea orain arteko euskaldunek nola erabili izan duten gure hizkuntza.
Euskarazko corpusen egoera sakon ezagutu nahi duenak jo beza Urkiaren (2010) laburpen artikulura. Gure aldetik, nagusienak zerrendatuko ditugu2:
2015
‎Eleaniztasun hori dela-eta, hiru datu multzorekin egin dugu lan, euskarazko eta gaztelerazko urre patroiak ingelesekoaren itzulpenak izanik. Arrazoi beragatik, hiru hizkuntzen bektore adierazpenak erauzteko hiru corpus erabili ditugu: euskarazko corpusa Elhuyar fundazioak utzitako corpusa da, artikulu zientifikoz osatua dago eta 1.5? 108berbaz osatua; ingeleseko bektore adierazpenak 1011 berbako Google News corpusetik erauzita daude, eta Google Code tik5 jaitsi ditugu zuzenean; gaztelerazkoa QTLeap protiektuan erabilitako corpusenbilduma da, 0.8?
‎Lan honetan, Web as Corpus planteamendua erabilita euskarazko corpus orokor oso handibat biltzen eta weba euskarazko corpus bat bailitzan zuzenean kontsultatzen saiatu gara.
‎Lan honetan, Web as Corpus planteamendua erabilita euskarazko corpus orokor oso handibat biltzen eta weba euskarazko corpus bat bailitzan zuzenean kontsultatzen saiatu gara.
‎2.2 Weba euskarazko corpus bat bailitzan kontsultatzea
‎Edonola ere, zerbitzu eta tresna hauek ez dabiltza ongi euskararen kasuan, morfologiagatikbatetik eta bilatzaileek euskarari ematen dioten tratamenduagatik (edo, hobeto, tratamenduezagatik) bestetik. Horregatik, tesiaren helburuetako bat izan da tresna bat eraikitzea, ahalbidetuko duena weba kontsultatzea euskarazko corpus bat bailitzan.
‎3.1 Euskarazko corpus orokor handi bat osatzea weba testuen iturburutzat hartuta
Euskarazko corpus orokor handi bat lortzeko helburuarekin, bi metodoak probatu eta ebaluatudira, crawling arena eta bilatzaileena, ikusteko zein den onena euskararentzat, abiadura, kostua, tamaina edo kalitateari dagokionez (Leturia, 2012).
‎hitzenluzerarentzat, 500, 1.000, 2.000, 5.000 eta 10.000 probatu dira eta konbinazioen luzeraridagokionez, 1, 2, 3, 4 eta 5. Hazi? hitzentzat XX. mendeko Euskararen Corpuseko hitzmaizenak erabili dira, funtzio hitzak kenduta. Eta bilaketek euskararentzat emaitza optimoaeman dezaten, gorago deskribatutako morfologia bidezko galderaren hedapena eta hizkuntzairagazteko hitzen teknikak erabiltzen dira berriz ere.
‎Corpusen kalitatea ebaluatzeko, bilatzaileen bidez lortu den corpus handiena eta crawlingbidez lortutako corpusa XX. mendeko Euskararen Corpusa eta Lexikoaren BehatokikoCorpusarekin konparatu dira, lau ezaugarriri begiratuta: zeintzuk diren corpus bakoitzeanbesteekiko gehien nabarmentzen diren hitzak (LLR elkartze neurriaren bidez kalkulatuta), corpus bakoitzeko hitz erabilgarrien kopurua (20 baino maiztasun handiagokoena), corpus batenestaldura besteekiko eta corpus baten ekarpena besteekiko.
‎Kalitate aldetik corpus egokiak dira, corpus klasikoen hitzak ia osorik barnehartzen dituztenak eta besteek ez dituzten hitzen ekarpen handia egiten dutenak. Beraz, webaiturburu egokia da euskarazko corpus orokorren egoera nabarmen hobetzeko, eta hobekuntzahau gauzatu egin da, 100 milioi hitzetik gorako corpus handi horietako bat Web CorpusenAtarian jarri baita jendearen eskuragarri6.
‎3.2 Weba euskarazko corpus bat bailitzan kontsultatzea
‎Weba euskarazko corpus gisa kontsultatu ahal izateko tresna bat eraiki ahal izateko, biteknika garatu dira: morfologia bidezko galderaren hedapena eta hizkuntza filtratzeko hitzak.Lehenengoa honetan datza:
‎Horrez gain, weba euskarazko corpus gisa kontsultatu ahal izateko tresna eraiki egin da etaeuskal gizartearen eskura online jarri: CorpEus7 (Leturia, Gurrutxaga, Alegria, et al., 2007).
‎Artikuluaren sarreran, corpusei dagokienez euskararen egoera txarra azpimarratzen genuen.Gure hipotesia zen Web as Corpus planteamendua baliozkoa zela euskarazko corpusen egoeranhobekuntza esanguratsua lortzeko, eta lan hau hipotesi horren zuzentasuna frogatzera eta, aldiberean, euskarazko corpusen egoera hobetzera bideratu da.
‎Artikuluaren sarreran, corpusei dagokienez euskararen egoera txarra azpimarratzen genuen.Gure hipotesia zen Web as Corpus planteamendua baliozkoa zela euskarazko corpusen egoeranhobekuntza esanguratsua lortzeko, eta lan hau hipotesi horren zuzentasuna frogatzera eta, aldiberean , euskarazko corpusen egoera hobetzera bideratu da.
‎Helburu horren bila, lehenbizi bi tresna garatu genituen, bata bilatzaileetan oinarritua etabestea crawling metodoan, euskarazko corpus orokor handiak lortzeko. Horien bidez, orduraarteko corpusen tamaina 8 aldiz gainditzen zuten corpusak osatu dira, 200 milioi hitzeraailegatuz, eta etorkizunean are handiagoak lortzea espero dugu crawling metodoaren bidez.Corpus horietako bat, 125 milioi hitzekoa (ordura arte bildu genuen handiena), online jarri dakontsulta publikorako Web Corpusen Atarian.
‎Ondoren, web zerbitzu bat osatzea lortu genuen (CorpEus) weba euskarazko corpus gisakontsultatzea ahalbidetzen duena, horrelako beste zerbitzu batzuek euskararekin dituztenarazoak gainditzen zituena. Horretarako, morfologia bidezko galderaren hedapena eta hizkuntzairagazteko hitzen teknikak asmatu, inplementatu eta optimizatu genituen, tresna honetan erabilidena baina baita tesian bilatzaileen bidez corpusak biltzeko garatu diren beste tresna denetan etaeuskarazko bilatzaile batean (Elebila) ere.
‎Honegatik guztiagatik, ondoriozta dezakegu gure hasierako hipotesia egiaztatu dela, hau da, Web as Corpus planteamenduak euskararen corpusen egoeran aldaketa ekar zezakeela, etaaldaketa hori etorri etorri dela hemen deskribatzen den lanarekin. Beste hizkuntza handiagoenegoerarekin ezin dezakegu konparatu euskararena, baina metodologia eta tresna batzuk garatuditugu dagoena biltzeko eta asko bildu da, euskarazko corpusen kantitatea eta tamaina moduesanguratsuan handituz.
‎Honegatik guztiagatik, ondoriozta dezakegu gure hasierako hipotesia egiaztatu dela, hau da, Web as Corpus planteamenduak euskararen corpusen egoeran aldaketa ekar zezakeela, etaaldaketa hori etorri etorri dela hemen deskribatzen den lanarekin. Beste hizkuntza handiagoenegoerarekin ezin dezakegu konparatu euskararena, baina metodologia eta tresna batzuk garatuditugu dagoena biltzeko eta asko bildu da, euskarazko corpusen kantitatea eta tamaina moduesanguratsuan handituz.
‎1.4 Weba euskarazko corpus gisa
Euskarazko corpus orokorrak osatzeko weba ustiatzen
‎Testu corpusak behar beharrezkoak dira egoera normalean bizi nahi duen hizkuntza batentzat, etahala da euskararentzat ere. Baina euskarazko corpus orokorren tamaina oso txikia da beste hizkuntzahandiagoenekin konparatzen badugu. Horregatik, logikoa da, beste hizkuntza horiek egin duten bezala, euskarak ere. Web as Corpus?
‎Horregatik, logikoa da, beste hizkuntza horiek egin duten bezala, euskarak ere. Web as Corpus? planteamendua (hau da, weba eta metodo automatikoak) baliatzea.Artikulu honetan azaltzen dira egileak bere doktore tesian euskarazko corpus orokor handi bat biltzekoeta weba euskarazko corpus gisa kontsultatzeko egindako ikerketak, garatutako tresnak eta lortutakoemaitzak. Lan horretan lehenbiziko aldiz lortu da 100 milioi hitzetik gorako euskarazko corpus batosatzea, eta online jarri dira gizartearen eskura corpus hori eta weba corpus bat bailitzankontsultatzeko tresna.
‎Horregatik, logikoa da, beste hizkuntza horiek egin duten bezala, euskarak ere. Web as Corpus? planteamendua (hau da, weba eta metodo automatikoak) baliatzea.Artikulu honetan azaltzen dira egileak bere doktore tesian euskarazko corpus orokor handi bat biltzekoeta weba euskarazko corpus gisa kontsultatzeko egindako ikerketak, garatutako tresnak eta lortutakoemaitzak. Lan horretan lehenbiziko aldiz lortu da 100 milioi hitzetik gorako euskarazko corpus batosatzea, eta online jarri dira gizartearen eskura corpus hori eta weba corpus bat bailitzankontsultatzeko tresna.
‎planteamendua (hau da, weba eta metodo automatikoak) baliatzea.Artikulu honetan azaltzen dira egileak bere doktore tesian euskarazko corpus orokor handi bat biltzekoeta weba euskarazko corpus gisa kontsultatzeko egindako ikerketak, garatutako tresnak eta lortutakoemaitzak. Lan horretan lehenbiziko aldiz lortu da 100 milioi hitzetik gorako euskarazko corpus batosatzea, eta online jarri dira gizartearen eskura corpus hori eta weba corpus bat bailitzankontsultatzeko tresna.
‎1.2 Euskarazko corpusak
‎Eta hala ere, euskarazko corpusak ez dira luketen adina edo luketen bezainhandiak, euskarak, edozein hizkuntza txikik bezala, ez baititu nahi beste baliabide (gizabaliabideak zein ekonomikoak) eta corpusak modu klasikoan egitea (hau da, inprimatutakotestuetatik erauzita) oso garestia eta mantsoa baita. Euskaraz sei corpus orokor besterik ezdaude eskuragai:
‎Ikusten denez, euskarazko corpusak gutxi dira, gehienbat txikiak (beste hizkuntzahandiagoetakoekin konparatuz behintzat) eta ez eguneratuak, euskarak, edozein hizkuntza txikikbezala, ez baititu nahi beste baliabide (giza baliabideak zein ekonomikoak) eta corpusak moduklasikoan egitea (hau da, inprimatutako testuetatik erauzita) oso garestia eta mantsoa baita.
2017
‎Badira hainbat aspektu etorkizunean landu nahiko genituzkeenak. Lehenik eta behin, lanok euskarazko corpus batean aplikatu nahiko genituzke, horrela euskarazko poesiaren analisi prosodikoa egin ahalizateko eta honetan bide berriak jorratu ahal izateko. Horretarako poema bilduma bat metrikoki etiketatzeko bidean gabiltza, ingelesezko corpusaren antzera.
2019
‎Corpus horretan zer nolako etiketak dauden azaltzeko, labur ditzagun orain etiketatzegidalerroetako kontzeptu nagusiak (3.1 azpiatala), corpusean bereizten diren UF moten ezaugarriak (3.2 azpiatala) eta corpus etiketatuari buruzko datu orokorrak (3.3 atala). Xehetasun gehiago behar dituenak Savary et al. enlanean (2018) ditu eskuragarri gidalerroak osorik1, eta Inurrieta et al. enean (2018) euskarazko corpusari buruzkoargibideak eta gogoetak.
Euskarazko corpus etiketatuak3 bi iturritako testuak biltzen ditu: Dependentzia Unibertsalen corpuseko 6.621esaldi, hau da, corpus osoa (Aranzabe et al., 2019), eta Elhuyar Web Corpuseko4 4.537 esaldi.
‎1 taula. PARSEMEko euskarazko corpusaren datuak
‎Horretarako, Turingen testaren ideia era konputazionalean inplementatzen duten sare neuronal sortzaileaurkariak erabili ditugu. Normalean erabiltzen diren ingelesezko corpusak baino bi magnitude ordena txikiagoaden euskarazko corpus batekin halako sareak entrenatzea badagoela frogatzen dugu. Amaitzeko, euskararenmorfologia kontuan hartzen duen aurreprozesamendua erabiltzea komenigarria dela erakusten dugu.
‎Esan dugunez euskarazko corpus batekin entrenatuko ditugu sareak. Ingelesa ez bezala, euskara hizkuntza eranskaria da egitura morfologikoaren aldetik.
‎Ikasketa automatikoko sistemek, erregeletan oinarritutakoek baino corpus handiagoa eskatzen dute, sistemak datuetatik ikastenduelako, baina corpus ez oso handiekin ere emaitza onak eman ditzakete. Ikasketa sakonean ordea, neuronasareak entrenatzeko datu gehiago behar da, lan honetan erabili den EPEC KORREF euskarazko corpusa txikiada, eta lortu diren emaitza kaxkarren erantzule nagusia dela ondorioztatu da. Kokatzearren, polonierazko corpusaEPEC KORREF corpusa baino 10 aldiz handiagoa da eta neurona sareekin erregelatan oinarritutako sistemarenantzeko emaitzak lortu dituzte; ingeleserako erabili ohi den corpusa euskarazkoa baino 20 bat aldiz handiagoa daeta artearen egoeran dauden emaitzak lortu dira.
‎Azkenik, euskarazko corpusa handitzeaz eta arkitektura aldatzeaz gain, hizkuntza arteko sistema bat eraiki daiteke (Kundu et al., 2018; Cruz et al., 2018); baliabide askoko hizkuntza batean (ingelesean adibidez) korreferentzia ebazpenerako sistema bat entrenatuz, eta ondoren sistema hau euskarako korreferentziaebazpenerako baliatuz. Hizkuntza batetik ikasitako ezagutza bigarren hizkuntza bati aplikatuta emaitza onak lortubaitira hizkuntzaren prozesamenduko ataza ezberdinetan.
Emaitza gehiago eskuratzen...
Loading...

Bilaketarako laguntza: adibideak

Oinarrizko galderak
katu "katu" lema duten agerpen guztiak bilatu
!katuaren "katuaren" formaren agerpenak bilatu
katu* "katu" hasiera duten lema guztiak bilatzen ditu
!katu* "katu" hasiera duten forma guztiak bilatzen ditu
*ganatu "ganatu" bukaera duten lema guztiak bilatzen ditu
!*ganatu "ganatu" bukaera duten forma guztiak bilatzen ditu
katu + handi "katu" eta "handi" lemak jarraian bilatu
katu + !handia "katu" lema eta "handia" forma jarraian bilatu
Distantziak
katu +3 handi "katu" eta "handi" lemak 3 elementuetako distantzian bilatu
katu +2 !handia "katu" lema eta "handia" forma 2 elementuetako distantzian bilatu
katu +2 !handi* "katu" lema eta "handi"z hasten diren formak 2 elementuetako distantzian bilatu
Formen konbinazioa desberdinak
bero + handi | asko "bero" lema eta jarraian "handi" edo "asko" lemak bilatu
bero +2 !handi* | !asko* "bero" lema eta jarraian "handi"z edo "asko"z hasten diren formak
!bero + handi|asko|gutxi|txiki "bero" forma eta jarraian "handi", "asko", "gutxi", "txiki" lemak
Ezaugarri morfologikoekin
proba + m:adj "proba" lema eta jarraian adjketibo bat
proba +2 m:adj "proba" lema eta bi hitzetako distantziak adjektibo bat adjketibo bat
bero + handi|asko + m:adi "bero" lema jarraian "handi" edo "asko" eta jarraian aditz bat
proba + m:izearr-erg "proba" lema eta ergatibo kasuan dagoen izen arrunta

Ezaugarri morfologikoak

KATEGORIA
adb adberbioa
adi aditza
adilok aditz-lokuzioa
adj adjektiboa
det determinatzailea
ior izenordaina
izearr izen arrunta
izepib pertsona-izena
izelib leku-izena
izeizb erakunde-izena
lbt laburtzapena
lotjnt juntagailua
lotlok lokailua
esr esaera
esk esklamazioa
prt partikula
ono onomatopeia
tit titulua
KASUA
abs absolutiboa
abl ablatiboa
ala adlatiboa
ban banatzailea
dat datiboa
des destinatiboa
erg ergatiboa
abz hurbiltze-adlatiboa
ine inesiboa
ins instrumentala
gel leku-genitiboa
mot motibatiboa
abu muga-adlatiboa
par partitiboa
psp postposizioa
pro prolatiboa
soz soziatiboa
MUGATASUNA/NUMEROA
mg mugagabea
ms mugatu singularra
mp mugatu plurala
mph mugatu plural hurbila
ADITZ MOTA
da da
du du
dio dio
zaio zaio
da-du da-du
du-zaio du-zaio
dio-zaio dio-zaio
da-zaio da-zaio
du-dio du-dio
da-zaio-du da-zaio-du
da-zaio-du-dio da-zaio-du-dio

Euskararen Erreferentzia Corpusa Euskararen Erreferentzia Corpusa (EEC)
© 2025 Euskaltzaindia