Testuinguruan

Bilaketa

dist.

non

lema/forma

nola

bilaketa

kategoria

Iragazkiak

Mota/Gaia

Euskalkia

Itzulpena

Erregistroa

Ordena

Formularioa garbitu

Emaitzak: 43

2000
	‎Ezinbestekoa da	euskararen corpusaren normalkuntzak maila diskurtsiboari erreparatzea, bai eta errepertorioari ere. Badago zer eginik horretan.
2002
	‎Eta biak dira geroago sortu diren hainbat tresna informatikoren gurasoak, Xuxen zuzentzaile ortografikoa, Morfeus analizatzaile morfologikoa eta Euslem lematizatzailea. Azken tresna horiek UZEIk landu duen XX. mendeko	euskararen corpus estatistikoaren (www.euskaracorpusa.net/XXmendea) azken urteak lematizatzeko erabili dira, baita zientzia.net (www.zientzia.net) eta Egunkariako hemerotekan (www.egunkaria.com/hemeroteka) guneetan bilaketak egiteko ere. Tresna horien oinarri teknikoak azaltzen dira liburu honetan.
2009
	‎Horrela, gaur egun Klasikoen Gordailua bezalako proiektuak daude, tarte horretako hainbat generotako 300 obra baino gehiago on line eskaintzen dituena, eta masa idatzi horretan guztian terminoak bilatzeko aukera ematen duena. Edo	Euskararen Corpusa, XX. mende osoko ekoizpenaren oso lagin oparoarekin gauza bera egiten duena».
2011
	‎Euzko Gogoaren hizkuntza eredua gerraurrekoa zen, baina ez sabindar hertsien moldekoa, baizik eta Azkuek proposatutako gipuzkera osotuaren ildokoa (garbizalea baina ez hiperpurista). Aldizkariaren bidez euskal hizkuntzarentzat estatus berria aldarrikatzen zuen, baina ez erdararen bidetik, euskararenetik baizik, bidenabar	euskararen corpusa osatuz.
2014
	‎Ahotsak Ahozko Tradiziozko Corpusa izendatu dugun proiektu honen helburua daahozko materialean oinarritutako	euskarazko corpus linguistiko bat osatzea. EuskalHerriko Ahotsak proiektuan zehar egindako transkripzioetan oinarrituz, 1900 1950bitartean jaiotako euskaldunen bat bateko hizkera naturalaren ezaugarriak bildu nahiditu.
	‎Euskararen kalitatea hobetu eta erabilera sustatzeko, nahitaezkoa dugu ereduaeta bidea erakutsiko diguten adibideak eta lanabesak izatea. Beharrezko erremintenartean	euskarazko corpusak daude, ahal dela libreak eta denon esku izango direnak, eta gure aurrekoek erabilitako euskara zein den erakutsiko digutenak. Euskarakesparru berrietara zabaldu nahi badu datozen urteotan, behar beharrezkoa dugujakitea orain arteko euskaldunek nola erabili izan duten gure hizkuntza.
	‎	Euskarazko corpusen egoera sakon ezagutu nahi duenak jo beza Urkiaren (2010) laburpen artikulura. Gure aldetik, nagusienak zerrendatuko ditugu2:
2015
	‎Eleaniztasun hori dela-eta, hiru datu multzorekin egin dugu lan, euskarazko eta gaztelerazko urre patroiak ingelesekoaren itzulpenak izanik. Arrazoi beragatik, hiru hizkuntzen bektore adierazpenak erauzteko hiru corpus erabili ditugu:	euskarazko corpusa Elhuyar fundazioak utzitako corpusa da, artikulu zientifikoz osatua dago eta 1.5? 108berbaz osatua; ingeleseko bektore adierazpenak 1011 berbako Google News corpusetik erauzita daude, eta Google Code tik5 jaitsi ditugu zuzenean; gaztelerazkoa QTLeap protiektuan erabilitako corpusenbilduma da, 0.8?
	‎Lan honetan, Web as Corpus planteamendua erabilita	euskarazko corpus orokor oso handibat biltzen eta weba euskarazko corpus bat bailitzan zuzenean kontsultatzen saiatu gara.
	‎Lan honetan, Web as Corpus planteamendua erabilita euskarazko corpus orokor oso handibat biltzen eta weba	euskarazko corpus bat bailitzan zuzenean kontsultatzen saiatu gara.
	‎2.2 Weba	euskarazko corpus bat bailitzan kontsultatzea
	‎Edonola ere, zerbitzu eta tresna hauek ez dabiltza ongi euskararen kasuan, morfologiagatikbatetik eta bilatzaileek euskarari ematen dioten tratamenduagatik (edo, hobeto, tratamenduezagatik) bestetik. Horregatik, tesiaren helburuetako bat izan da tresna bat eraikitzea, ahalbidetuko duena weba kontsultatzea	euskarazko corpus bat bailitzan.
	‎3.1	Euskarazko corpus orokor handi bat osatzea weba testuen iturburutzat hartuta
	‎	Euskarazko corpus orokor handi bat lortzeko helburuarekin, bi metodoak probatu eta ebaluatudira, crawling arena eta bilatzaileena, ikusteko zein den onena euskararentzat, abiadura, kostua, tamaina edo kalitateari dagokionez (Leturia, 2012).
	‎hitzenluzerarentzat, 500, 1.000, 2.000, 5.000 eta 10.000 probatu dira eta konbinazioen luzeraridagokionez, 1, 2, 3, 4 eta 5. Hazi? hitzentzat XX. mendeko	Euskararen Corpuseko hitzmaizenak erabili dira, funtzio hitzak kenduta. Eta bilaketek euskararentzat emaitza optimoaeman dezaten, gorago deskribatutako morfologia bidezko galderaren hedapena eta hizkuntzairagazteko hitzen teknikak erabiltzen dira berriz ere.
	‎Corpusen kalitatea ebaluatzeko, bilatzaileen bidez lortu den corpus handiena eta crawlingbidez lortutako corpusa XX. mendeko	Euskararen Corpusa eta Lexikoaren BehatokikoCorpusarekin konparatu dira, lau ezaugarriri begiratuta: zeintzuk diren corpus bakoitzeanbesteekiko gehien nabarmentzen diren hitzak (LLR elkartze neurriaren bidez kalkulatuta), corpus bakoitzeko hitz erabilgarrien kopurua (20 baino maiztasun handiagokoena), corpus batenestaldura besteekiko eta corpus baten ekarpena besteekiko.
	‎Kalitate aldetik corpus egokiak dira, corpus klasikoen hitzak ia osorik barnehartzen dituztenak eta besteek ez dituzten hitzen ekarpen handia egiten dutenak. Beraz, webaiturburu egokia da	euskarazko corpus orokorren egoera nabarmen hobetzeko, eta hobekuntzahau gauzatu egin da, 100 milioi hitzetik gorako corpus handi horietako bat Web CorpusenAtarian jarri baita jendearen eskuragarri6.
	‎3.2 Weba	euskarazko corpus bat bailitzan kontsultatzea
	‎Weba	euskarazko corpus gisa kontsultatu ahal izateko tresna bat eraiki ahal izateko, biteknika garatu dira: morfologia bidezko galderaren hedapena eta hizkuntza filtratzeko hitzak.Lehenengoa honetan datza:
	‎Horrez gain, weba	euskarazko corpus gisa kontsultatu ahal izateko tresna eraiki egin da etaeuskal gizartearen eskura online jarri: CorpEus7 (Leturia, Gurrutxaga, Alegria, et al., 2007).
	‎Artikuluaren sarreran, corpusei dagokienez euskararen egoera txarra azpimarratzen genuen.Gure hipotesia zen Web as Corpus planteamendua baliozkoa zela	euskarazko corpusen egoeranhobekuntza esanguratsua lortzeko, eta lan hau hipotesi horren zuzentasuna frogatzera eta, aldiberean, euskarazko corpusen egoera hobetzera bideratu da.
	‎Artikuluaren sarreran, corpusei dagokienez euskararen egoera txarra azpimarratzen genuen.Gure hipotesia zen Web as Corpus planteamendua baliozkoa zela euskarazko corpusen egoeranhobekuntza esanguratsua lortzeko, eta lan hau hipotesi horren zuzentasuna frogatzera eta, aldiberean	, euskarazko corpusen egoera hobetzera bideratu da.
	‎Helburu horren bila, lehenbizi bi tresna garatu genituen, bata bilatzaileetan oinarritua etabestea crawling metodoan,	euskarazko corpus orokor handiak lortzeko. Horien bidez, orduraarteko corpusen tamaina 8 aldiz gainditzen zuten corpusak osatu dira, 200 milioi hitzeraailegatuz, eta etorkizunean are handiagoak lortzea espero dugu crawling metodoaren bidez.Corpus horietako bat, 125 milioi hitzekoa (ordura arte bildu genuen handiena), online jarri dakontsulta publikorako Web Corpusen Atarian.
	‎Ondoren, web zerbitzu bat osatzea lortu genuen (CorpEus) weba	euskarazko corpus gisakontsultatzea ahalbidetzen duena, horrelako beste zerbitzu batzuek euskararekin dituztenarazoak gainditzen zituena. Horretarako, morfologia bidezko galderaren hedapena eta hizkuntzairagazteko hitzen teknikak asmatu, inplementatu eta optimizatu genituen, tresna honetan erabilidena baina baita tesian bilatzaileen bidez corpusak biltzeko garatu diren beste tresna denetan etaeuskarazko bilatzaile batean (Elebila) ere.
	‎Honegatik guztiagatik, ondoriozta dezakegu gure hasierako hipotesia egiaztatu dela, hau da, Web as Corpus planteamenduak	euskararen corpusen egoeran aldaketa ekar zezakeela, etaaldaketa hori etorri etorri dela hemen deskribatzen den lanarekin. Beste hizkuntza handiagoenegoerarekin ezin dezakegu konparatu euskararena, baina metodologia eta tresna batzuk garatuditugu dagoena biltzeko eta asko bildu da, euskarazko corpusen kantitatea eta tamaina moduesanguratsuan handituz.
	‎Honegatik guztiagatik, ondoriozta dezakegu gure hasierako hipotesia egiaztatu dela, hau da, Web as Corpus planteamenduak euskararen corpusen egoeran aldaketa ekar zezakeela, etaaldaketa hori etorri etorri dela hemen deskribatzen den lanarekin. Beste hizkuntza handiagoenegoerarekin ezin dezakegu konparatu euskararena, baina metodologia eta tresna batzuk garatuditugu dagoena biltzeko eta asko bildu da,	euskarazko corpusen kantitatea eta tamaina moduesanguratsuan handituz.
	‎1.4 Weba	euskarazko corpus gisa
	‎	Euskarazko corpus orokorrak osatzeko weba ustiatzen
	‎Testu corpusak behar beharrezkoak dira egoera normalean bizi nahi duen hizkuntza batentzat, etahala da euskararentzat ere. Baina	euskarazko corpus orokorren tamaina oso txikia da beste hizkuntzahandiagoenekin konparatzen badugu. Horregatik, logikoa da, beste hizkuntza horiek egin duten bezala, euskarak ere. Web as Corpus?
	‎Horregatik, logikoa da, beste hizkuntza horiek egin duten bezala, euskarak ere. Web as Corpus? planteamendua (hau da, weba eta metodo automatikoak) baliatzea.Artikulu honetan azaltzen dira egileak bere doktore tesian	euskarazko corpus orokor handi bat biltzekoeta weba euskarazko corpus gisa kontsultatzeko egindako ikerketak, garatutako tresnak eta lortutakoemaitzak. Lan horretan lehenbiziko aldiz lortu da 100 milioi hitzetik gorako euskarazko corpus batosatzea, eta online jarri dira gizartearen eskura corpus hori eta weba corpus bat bailitzankontsultatzeko tresna.
	‎Horregatik, logikoa da, beste hizkuntza horiek egin duten bezala, euskarak ere. Web as Corpus? planteamendua (hau da, weba eta metodo automatikoak) baliatzea.Artikulu honetan azaltzen dira egileak bere doktore tesian euskarazko corpus orokor handi bat biltzekoeta weba	euskarazko corpus gisa kontsultatzeko egindako ikerketak, garatutako tresnak eta lortutakoemaitzak. Lan horretan lehenbiziko aldiz lortu da 100 milioi hitzetik gorako euskarazko corpus batosatzea, eta online jarri dira gizartearen eskura corpus hori eta weba corpus bat bailitzankontsultatzeko tresna.
	‎planteamendua (hau da, weba eta metodo automatikoak) baliatzea.Artikulu honetan azaltzen dira egileak bere doktore tesian euskarazko corpus orokor handi bat biltzekoeta weba euskarazko corpus gisa kontsultatzeko egindako ikerketak, garatutako tresnak eta lortutakoemaitzak. Lan horretan lehenbiziko aldiz lortu da 100 milioi hitzetik gorako	euskarazko corpus batosatzea, eta online jarri dira gizartearen eskura corpus hori eta weba corpus bat bailitzankontsultatzeko tresna.
	‎1.2	Euskarazko corpusak
	‎Eta hala ere,	euskarazko corpusak ez dira luketen adina edo luketen bezainhandiak, euskarak, edozein hizkuntza txikik bezala, ez baititu nahi beste baliabide (gizabaliabideak zein ekonomikoak) eta corpusak modu klasikoan egitea (hau da, inprimatutakotestuetatik erauzita) oso garestia eta mantsoa baita. Euskaraz sei corpus orokor besterik ezdaude eskuragai:
	‎Ikusten denez,	euskarazko corpusak gutxi dira, gehienbat txikiak (beste hizkuntzahandiagoetakoekin konparatuz behintzat) eta ez eguneratuak, euskarak, edozein hizkuntza txikikbezala, ez baititu nahi beste baliabide (giza baliabideak zein ekonomikoak) eta corpusak moduklasikoan egitea (hau da, inprimatutako testuetatik erauzita) oso garestia eta mantsoa baita.
2017
	‎Badira hainbat aspektu etorkizunean landu nahiko genituzkeenak. Lehenik eta behin, lanok	euskarazko corpus batean aplikatu nahiko genituzke, horrela euskarazko poesiaren analisi prosodikoa egin ahalizateko eta honetan bide berriak jorratu ahal izateko. Horretarako poema bilduma bat metrikoki etiketatzeko bidean gabiltza, ingelesezko corpusaren antzera.
2019
	‎Corpus horretan zer nolako etiketak dauden azaltzeko, labur ditzagun orain etiketatzegidalerroetako kontzeptu nagusiak (3.1 azpiatala), corpusean bereizten diren UF moten ezaugarriak (3.2 azpiatala) eta corpus etiketatuari buruzko datu orokorrak (3.3 atala). Xehetasun gehiago behar dituenak Savary et al. enlanean (2018) ditu eskuragarri gidalerroak osorik1, eta Inurrieta et al. enean (2018)	euskarazko corpusari buruzkoargibideak eta gogoetak.
	‎	Euskarazko corpus etiketatuak3 bi iturritako testuak biltzen ditu: Dependentzia Unibertsalen corpuseko 6.621esaldi, hau da, corpus osoa (Aranzabe et al., 2019), eta Elhuyar Web Corpuseko4 4.537 esaldi.
	‎1 taula. PARSEMEko	euskarazko corpusaren datuak
	‎Horretarako, Turingen testaren ideia era konputazionalean inplementatzen duten sare neuronal sortzaileaurkariak erabili ditugu. Normalean erabiltzen diren ingelesezko corpusak baino bi magnitude ordena txikiagoaden	euskarazko corpus batekin halako sareak entrenatzea badagoela frogatzen dugu. Amaitzeko, euskararenmorfologia kontuan hartzen duen aurreprozesamendua erabiltzea komenigarria dela erakusten dugu.
	‎Esan dugunez	euskarazko corpus batekin entrenatuko ditugu sareak. Ingelesa ez bezala, euskara hizkuntza eranskaria da egitura morfologikoaren aldetik.
	‎Ikasketa automatikoko sistemek, erregeletan oinarritutakoek baino corpus handiagoa eskatzen dute, sistemak datuetatik ikastenduelako, baina corpus ez oso handiekin ere emaitza onak eman ditzakete. Ikasketa sakonean ordea, neuronasareak entrenatzeko datu gehiago behar da, lan honetan erabili den EPEC KORREF	euskarazko corpusa txikiada, eta lortu diren emaitza kaxkarren erantzule nagusia dela ondorioztatu da. Kokatzearren, polonierazko corpusaEPEC KORREF corpusa baino 10 aldiz handiagoa da eta neurona sareekin erregelatan oinarritutako sistemarenantzeko emaitzak lortu dituzte; ingeleserako erabili ohi den corpusa euskarazkoa baino 20 bat aldiz handiagoa daeta artearen egoeran dauden emaitzak lortu dira.
	‎Azkenik,	euskarazko corpusa handitzeaz eta arkitektura aldatzeaz gain, hizkuntza arteko sistema bat eraiki daiteke (Kundu et al., 2018; Cruz et al., 2018); baliabide askoko hizkuntza batean (ingelesean adibidez) korreferentzia ebazpenerako sistema bat entrenatuz, eta ondoren sistema hau euskarako korreferentziaebazpenerako baliatuz. Hizkuntza batetik ikasitako ezagutza bigarren hizkuntza bati aplikatuta emaitza onak lortubaitira hizkuntzaren prozesamenduko ataza ezberdinetan.

Emaitza gehiago eskuratzen...

Aldaerak

Lehen forma

Argitaratzailea

Konbinazioak (2 lema)

Konbinazioak (3 lema)

Urtea

Bilaketarako laguntza: adibideak

Oinarrizko galderak
katu	"katu" lema duten agerpen guztiak bilatu
!katuaren	"katuaren" formaren agerpenak bilatu
katu*	"katu" hasiera duten lema guztiak bilatzen ditu
!katu*	"katu" hasiera duten forma guztiak bilatzen ditu
*ganatu	"ganatu" bukaera duten lema guztiak bilatzen ditu
!*ganatu	"ganatu" bukaera duten forma guztiak bilatzen ditu
katu + handi	"katu" eta "handi" lemak jarraian bilatu
katu + !handia	"katu" lema eta "handia" forma jarraian bilatu
Distantziak
katu +3 handi	"katu" eta "handi" lemak 3 elementuetako distantzian bilatu
katu +2 !handia	"katu" lema eta "handia" forma 2 elementuetako distantzian bilatu
katu +2 !handi*	"katu" lema eta "handi"z hasten diren formak 2 elementuetako distantzian bilatu
Formen konbinazioa desberdinak
bero + handi \| asko	"bero" lema eta jarraian "handi" edo "asko" lemak bilatu
bero +2 !handi* \| !asko*	"bero" lema eta jarraian "handi"z edo "asko"z hasten diren formak
!bero + handi\|asko\|gutxi\|txiki	"bero" forma eta jarraian "handi", "asko", "gutxi", "txiki" lemak
Ezaugarri morfologikoekin
proba + m:adj	"proba" lema eta jarraian adjketibo bat
proba +2 m:adj	"proba" lema eta bi hitzetako distantziak adjektibo bat adjketibo bat
bero + handi\|asko + m:adi	"bero" lema jarraian "handi" edo "asko" eta jarraian aditz bat
proba + m:izearr-erg	"proba" lema eta ergatibo kasuan dagoen izen arrunta

Ezaugarri morfologikoak

KATEGORIA

adb	adberbioa
adi	aditza
adilok	aditz-lokuzioa
adj	adjektiboa
det	determinatzailea
ior	izenordaina
izearr	izen arrunta
izepib	pertsona-izena
izelib	leku-izena
izeizb	erakunde-izena
lbt	laburtzapena
lotjnt	juntagailua
lotlok	lokailua
esr	esaera
esk	esklamazioa
prt	partikula
ono	onomatopeia
tit	titulua

KASUA

abs	absolutiboa
abl	ablatiboa
ala	adlatiboa
ban	banatzailea
dat	datiboa
des	destinatiboa
erg	ergatiboa
abz	hurbiltze-adlatiboa
ine	inesiboa
ins	instrumentala
gel	leku-genitiboa
mot	motibatiboa
abu	muga-adlatiboa
par	partitiboa
psp	postposizioa
pro	prolatiboa
soz	soziatiboa

MUGATASUNA/NUMEROA

mg	mugagabea
ms	mugatu singularra
mp	mugatu plurala
mph	mugatu plural hurbila

ADITZ MOTA

da	da
du	du
dio	dio
zaio	zaio
da-du	da-du
du-zaio	du-zaio
dio-zaio	dio-zaio
da-zaio	da-zaio
du-dio	du-dio
da-zaio-du	da-zaio-du
da-zaio-du-dio	da-zaio-du-dio

euskara corpus	40 (0,26)
euskara Corpus	3 (0,02)

euskara corpus orokor	8 (0,05)
euskara corpus bat	7 (0,05)
euskara corpus gisa	4 (0,03)
euskara corpus egoera	3 (0,02)
euskara corpus datu	1 (0,01)
euskara corpus egon	1 (0,01)
euskara corpus Elhuyar	1 (0,01)
euskara corpus estatistiko	1 (0,01)
euskara corpus ez	1 (0,01)
euskara corpus gutxi	1 (0,01)
euskara corpus handitu	1 (0,01)
euskara corpus kantitate	1 (0,01)
euskara corpus linguistiko	1 (0,01)
euskara corpus osatu	1 (0,01)

euskarazko	30 (0,20)
Euskarazko	6 (0,04)
euskararen	4 (0,03)
Euskararen	3 (0,02)