Bilaketa
dist.
non
lema/forma
nola
bilaketa
kategoria
Iragazkiak

Emaitzak: 67

2007
‎Hala, Internet baliabide linguistiko eta corpusen iturri aproposa bilakatzen ari da pixkanaka. Horren adibide bat da CorpEus, Internet euskarazko corpus erraldoi gisa baliatzeko aukera ematen duen tresna.
‎Corpusak egitea, berriz, lan garestia eta neketsua da, eta zaila da beti eguneratuta edukitzea. Horregatik, euskarazko corpusak gutxi eta txikiak dira, beste hizkuntzetakoekin konparatuta behintzat.
‎Muga horiek gainditu ahal izateko sortu dute CorpEus. Tresna hori Elhuyar Fundazioko I+G taldeak garatu du, EHUko Informatika Fakultateko IXA Taldearen laguntzarekin, eta, esan bezala, Internet euskarazko corpustzat erabiltzeko aukera ematen du. Izan ere, Internet corpus erraldoi bat dela esan liteke, euskaraz dagoen edozein corpus baino askoz ere handiagoa.
‎Horixe gertatzen da, hain justu, zenbait hitz teknikorekin adibidez, anorexia, sulfuroso eta byte, hitz labur batzuekin katu eta esne, esate baterako eta izen bereziekin Fiji eta Newton, besteak beste. Hain zuzen, hitz teknikoen bilaketak oso ohikoak eta erabilgarriak dira euskarazko corpusetan, terminologia ez baitago behar bezain normalizatuta euskaran.
2008
‎Hizkuntza guztiak kontuan hartuta, ingelesaren agerrera erabat gailentzen da besteen aldean, bai kantitatez bai corpus moten aniztasunez. Bestalde, aitortu beharra dago euskarazko corpusen erreferentziarik ez dela izaten horrelakoetan (ELDAren bidez banatzen direnak alde batera utzita).
‎Erreferentzia corpusen garrantziaz ohartarazi gaituzte hainbat adituk (Leech 2002), eta, beharbada, alderdi hori da euskarazko corpusetan dagoen gabezia nabarmenena. Azken urteetan, maiz hitz egiten da euskararen erreferentzia corpusaren proiektua egiteko dagoen premiaz.
‎Aipatzekoa ere bada euskarazko corpusen asmoa deskriptiboa dela.
‎Atzerapen hori nagusiki erreferentzia corpusei dagokie, eta, nabarmen, tamainari. OEHTC eta XXMECE lorpen handiak izan dira, baina azpimarratzekoa da ez dagoela oraingoz euskarazko corpus ‘erraldoirik’, eta neurri ‘txikiko’ baliabideak direla aitortu behar da. Ereduzko Prosa gaur da, tamaina aldetik, nabarmenena, baina ezin genezake erreferentzia corpustzat hartu (orekatu gabea da).
‎Corpusen egituratzeeta prozesatze linguistikoa dela eta, euskarazko corpus batzuek betetzen dituzte gaur egungo estandarrak. Adierazi dugu OEHTCn informazio linguistikoa (lema, kategoria...) ez izatea tamalgarria dela, baina geroztik egin diren testu corpus nagusietan behintzat ez da hutsegite hori berriz gertatu (XXMECE, ZTC, EPG...).
‎Aipatzekoa ere bada euskarazko corpusen asmoa deskriptiboa dela, batean izan ezik (EPG). Hizkuntza ereduari dagokionez, berrienak euskara batuari so daude (tresna automatikoak horrekin dabiltza hobekien), baina euskalkien eta beste barietate batzuen presentzia ere badago.
‎Tresna horren bidez eratu dira, adibidez, Wacky proiektuaren barruko ItWaC eta DeWaC italierazko eta alemanezko corpusak, 2 mila milioi eta 1,7 mila milioi hitzekoak, hurrenez hurren. Gainera, Corpus building for minority languages gunean12, K. P. Scannell ek An Crúbadán web crawler aren bidez osatutako 419 hizkuntzaren corpusen berri ematen du, eta, horien artean, euskarazko corpusen datu batzuk ematen ditu (Scannell 2007).
‎Elhuyar Fundazioaren bi proiektu dira aipagarriak hemen, azaldu ditugun bi ikuspegietan oinarrituak. Lehena CorpEus proiektua da, Internet euskarazko corpus erraldoi gisa baliatzea helburu duena (Leturia et al., 2007a). WebCorp eta horien antzeko zerbitzu bat ezarri da13, baina euskararen berezitasunei egokitua.
‎Bigarrena Co3 proiektua da (Comparable Corpus Compiler), Internetetik corpusak osatzeko testuak automatikoki eratuko dituen tresna. Batez ere corpus eleaniztun konparagarriak lortzera bideratuta badago ere, euskarazko corpus elebakarrak egiteko ere balioko du, bai corpus orokor handiak bai espezializatu txikiagoak14.
‎Ahal dela, corpusak linguistikoki prozesatu behar dira, gero corpusetik informazio linguistikoa lortu ahal izateko. Prozesatze horren bidez, testuko formen lema, kategoria, kasua, funtzio sintaktikoa, adiera eta abar etiErreferentzia corpusen garrantziaz ohartarazi gaituzte hainbat adituk (Leech 2002), eta, beharbada, alderdi hori da euskarazko corpusetan dagoen gabezia nabarmenena.
‎Gainera, kontuan hartu behar da corpus batzuk diru publikoz osorik finantzatuak izan direla, eta ez dela erraz ulertzen corpus horiek ez askatzea (ikerkuntzarako, esaterako) edo lizentzia baten truke ustiapen komertzialerako eskuragarri ez jartzea. Horrek ez du euskarazko corpusen erabilgarritasuna eta emankortasuna murriztu baizik egiten.
‎Bestetik, gure azterketan nabaritu dugu mundu mailako ikusmiran euskarazko corpusak ez direla nahikoa ‘ikusten’, hau da, corpusen eta hizkuntza teknologien erreferentzia gune ezagunetan oso informazio gutxi aurkitu dugu euskarazko baliabideez. Arazo hori ez da euskarazko corpusena bakarrik, noski; esaterako, P. Bilbaok salatu duenez, Europako hizkuntza politika ‘txarrak’, edo ezegokiak, Europa mailan" ikusgabe
‎Bestetik, gure azterketan nabaritu dugu mundu mailako ikusmiran euskarazko corpusak ez direla nahikoa ‘ikusten’, hau da, corpusen eta hizkuntza teknologien erreferentzia gune ezagunetan oso informazio gutxi aurkitu dugu euskarazko baliabideez. Arazo hori ez da euskarazko corpusena bakarrik, noski; esaterako, P. Bilbaok salatu duenez, Europako hizkuntza politika ‘txarrak’, edo ezegokiak, Europa mailan" ikusgabe
‎Nolanahi ere, nabarmentzekoa da ikerketa talde eta erakunde batzuek egiten duten ahalegina euskarazko corpusen eta, oro har, hizkuntza teknologien informazioa argitalpen eta biltzar espezializatuetan agertzeko. Horien denen bilduma luzeegia litzateke, baina artikulu honetan bildu dugun bibliografiak agerian jar dezake errealitate hori.
‎Ikuspegieta tresna aniztasuna ez daitezela oztopo izan corpusgintzan ditugun premiei behar bezala ez erantzuteko. Hemendik urte batzuetara, artikulu honetan aurkeztu dugun grafikoa eguneratzen dugunean, euskarazko corpus gehiago eta handiagoak ikusi nahi genituzke, eta, horien artean, euskararen erreferentzia corpusa. Badugu zeregina.❚
2011
‎Weba euskarazko corpus gisa kontsultatzea ahalbidetzen duen zerbitzua da CorpEus.14 Internet euskarazko corpus erraldoi bat balitz bezala kontsultatzeko aukera ematen du zerbitzu honek. Sartutako hitzaren lema bidezko bilaketa egiten du Interneteko euskarazko orrien artean.
‎Weba euskarazko corpus gisa kontsultatzea ahalbidetzen duen zerbitzua da CorpEus.14 Internet euskarazko corpus erraldoi bat balitz bezala kontsultatzeko aukera ematen du zerbitzu honek. Sartutako hitzaren lema bidezko bilaketa egiten du Interneteko euskarazko orrien artean.
2013
‎Azterketa hurbilbide diskurtsibo pragmatiko batetik egiten da. Horretarako behar diren hizkuntza ekoizpen enpirikoak eskuratzeko, euskarazko corpus zabala osatzen duten testuetatik ateratako adibideak baliatzen dira. Erabilerari erreparatuz gero, emaitzek erakusten dute, kontzesiozko eta argudiozko balioez gain, markatzaile hauek balio diskurtsibo anitz bereganatzen dituztela eta, bestalde, lau birformulatzaileek elkarren baliokide moduan funtziona dezaketela.
‎Adibideen erauzketa bi bidetatik egin da. Alde batetik, sarean eskuragarri dauden euskarazko corpusak erabili dira, eta bestetik, EUDIMA proiekturako apropos egokitutako tresna. Biak ala biak zehaztasun eta adierazgarritasun handikoak.
2014
‎Ahotsak Ahozko Tradiziozko Corpusa izendatu dugun proiektu honen helburua daahozko materialean oinarritutako euskarazko corpus linguistiko bat osatzea. EuskalHerriko Ahotsak proiektuan zehar egindako transkripzioetan oinarrituz, 1900 1950bitartean jaiotako euskaldunen bat bateko hizkera naturalaren ezaugarriak bildu nahiditu.
‎Euskararen kalitatea hobetu eta erabilera sustatzeko, nahitaezkoa dugu ereduaeta bidea erakutsiko diguten adibideak eta lanabesak izatea. Beharrezko erremintenartean euskarazko corpusak daude, ahal dela libreak eta denon esku izango direnak, eta gure aurrekoek erabilitako euskara zein den erakutsiko digutenak. Euskarakesparru berrietara zabaldu nahi badu datozen urteotan, behar beharrezkoa dugujakitea orain arteko euskaldunek nola erabili izan duten gure hizkuntza.
2015
‎KARMEL-en euskarazko corpusa jasotzeko baldintzak:
‎Eleaniztasun hori dela-eta, hiru datu multzorekin egin dugu lan, euskarazko eta gaztelerazko urre patroiak ingelesekoaren itzulpenak izanik. Arrazoi beragatik, hiru hizkuntzen bektore adierazpenak erauzteko hiru corpus erabili ditugu: euskarazko corpusa Elhuyar fundazioak utzitako corpusa da, artikulu zientifikoz osatua dago eta 1.5? 108berbaz osatua; ingeleseko bektore adierazpenak 1011 berbako Google News corpusetik erauzita daude, eta Google Code tik5 jaitsi ditugu zuzenean; gaztelerazkoa QTLeap protiektuan erabilitako corpusenbilduma da, 0.8?
‎Lan honetan, Web as Corpus planteamendua erabilita euskarazko corpus orokor oso handibat biltzen eta weba euskarazko corpus bat bailitzan zuzenean kontsultatzen saiatu gara.
‎Lan honetan, Web as Corpus planteamendua erabilita euskarazko corpus orokor oso handibat biltzen eta weba euskarazko corpus bat bailitzan zuzenean kontsultatzen saiatu gara.
‎2.2 Weba euskarazko corpus bat bailitzan kontsultatzea
‎Edonola ere, zerbitzu eta tresna hauek ez dabiltza ongi euskararen kasuan, morfologiagatikbatetik eta bilatzaileek euskarari ematen dioten tratamenduagatik (edo, hobeto, tratamenduezagatik) bestetik. Horregatik, tesiaren helburuetako bat izan da tresna bat eraikitzea, ahalbidetuko duena weba kontsultatzea euskarazko corpus bat bailitzan.
‎Kalitate aldetik corpus egokiak dira, corpus klasikoen hitzak ia osorik barnehartzen dituztenak eta besteek ez dituzten hitzen ekarpen handia egiten dutenak. Beraz, webaiturburu egokia da euskarazko corpus orokorren egoera nabarmen hobetzeko, eta hobekuntzahau gauzatu egin da, 100 milioi hitzetik gorako corpus handi horietako bat Web CorpusenAtarian jarri baita jendearen eskuragarri6.
‎3.2 Weba euskarazko corpus bat bailitzan kontsultatzea
‎Weba euskarazko corpus gisa kontsultatu ahal izateko tresna bat eraiki ahal izateko, biteknika garatu dira: morfologia bidezko galderaren hedapena eta hizkuntza filtratzeko hitzak.Lehenengoa honetan datza:
‎Horrez gain, weba euskarazko corpus gisa kontsultatu ahal izateko tresna eraiki egin da etaeuskal gizartearen eskura online jarri: CorpEus7 (Leturia, Gurrutxaga, Alegria, et al., 2007).
‎Artikuluaren sarreran, corpusei dagokienez euskararen egoera txarra azpimarratzen genuen.Gure hipotesia zen Web as Corpus planteamendua baliozkoa zela euskarazko corpusen egoeranhobekuntza esanguratsua lortzeko, eta lan hau hipotesi horren zuzentasuna frogatzera eta, aldiberean, euskarazko corpusen egoera hobetzera bideratu da.
‎Artikuluaren sarreran, corpusei dagokienez euskararen egoera txarra azpimarratzen genuen.Gure hipotesia zen Web as Corpus planteamendua baliozkoa zela euskarazko corpusen egoeranhobekuntza esanguratsua lortzeko, eta lan hau hipotesi horren zuzentasuna frogatzera eta, aldiberean , euskarazko corpusen egoera hobetzera bideratu da.
‎Helburu horren bila, lehenbizi bi tresna garatu genituen, bata bilatzaileetan oinarritua etabestea crawling metodoan, euskarazko corpus orokor handiak lortzeko. Horien bidez, orduraarteko corpusen tamaina 8 aldiz gainditzen zuten corpusak osatu dira, 200 milioi hitzeraailegatuz, eta etorkizunean are handiagoak lortzea espero dugu crawling metodoaren bidez.Corpus horietako bat, 125 milioi hitzekoa (ordura arte bildu genuen handiena), online jarri dakontsulta publikorako Web Corpusen Atarian.
‎Ondoren, web zerbitzu bat osatzea lortu genuen (CorpEus) weba euskarazko corpus gisakontsultatzea ahalbidetzen duena, horrelako beste zerbitzu batzuek euskararekin dituztenarazoak gainditzen zituena. Horretarako, morfologia bidezko galderaren hedapena eta hizkuntzairagazteko hitzen teknikak asmatu, inplementatu eta optimizatu genituen, tresna honetan erabilidena baina baita tesian bilatzaileen bidez corpusak biltzeko garatu diren beste tresna denetan etaeuskarazko bilatzaile batean (Elebila) ere.
‎Honegatik guztiagatik, ondoriozta dezakegu gure hasierako hipotesia egiaztatu dela, hau da, Web as Corpus planteamenduak euskararen corpusen egoeran aldaketa ekar zezakeela, etaaldaketa hori etorri etorri dela hemen deskribatzen den lanarekin. Beste hizkuntza handiagoenegoerarekin ezin dezakegu konparatu euskararena, baina metodologia eta tresna batzuk garatuditugu dagoena biltzeko eta asko bildu da, euskarazko corpusen kantitatea eta tamaina moduesanguratsuan handituz.
‎1.4 Weba euskarazko corpus gisa
‎Testu corpusak behar beharrezkoak dira egoera normalean bizi nahi duen hizkuntza batentzat, etahala da euskararentzat ere. Baina euskarazko corpus orokorren tamaina oso txikia da beste hizkuntzahandiagoenekin konparatzen badugu. Horregatik, logikoa da, beste hizkuntza horiek egin duten bezala, euskarak ere. Web as Corpus?
‎Horregatik, logikoa da, beste hizkuntza horiek egin duten bezala, euskarak ere. Web as Corpus? planteamendua (hau da, weba eta metodo automatikoak) baliatzea.Artikulu honetan azaltzen dira egileak bere doktore tesian euskarazko corpus orokor handi bat biltzekoeta weba euskarazko corpus gisa kontsultatzeko egindako ikerketak, garatutako tresnak eta lortutakoemaitzak. Lan horretan lehenbiziko aldiz lortu da 100 milioi hitzetik gorako euskarazko corpus batosatzea, eta online jarri dira gizartearen eskura corpus hori eta weba corpus bat bailitzankontsultatzeko tresna.
‎Horregatik, logikoa da, beste hizkuntza horiek egin duten bezala, euskarak ere. Web as Corpus? planteamendua (hau da, weba eta metodo automatikoak) baliatzea.Artikulu honetan azaltzen dira egileak bere doktore tesian euskarazko corpus orokor handi bat biltzekoeta weba euskarazko corpus gisa kontsultatzeko egindako ikerketak, garatutako tresnak eta lortutakoemaitzak. Lan horretan lehenbiziko aldiz lortu da 100 milioi hitzetik gorako euskarazko corpus batosatzea, eta online jarri dira gizartearen eskura corpus hori eta weba corpus bat bailitzankontsultatzeko tresna.
‎planteamendua (hau da, weba eta metodo automatikoak) baliatzea.Artikulu honetan azaltzen dira egileak bere doktore tesian euskarazko corpus orokor handi bat biltzekoeta weba euskarazko corpus gisa kontsultatzeko egindako ikerketak, garatutako tresnak eta lortutakoemaitzak. Lan horretan lehenbiziko aldiz lortu da 100 milioi hitzetik gorako euskarazko corpus batosatzea, eta online jarri dira gizartearen eskura corpus hori eta weba corpus bat bailitzankontsultatzeko tresna.
‎Eta hala ere, euskarazko corpusak ez dira luketen adina edo luketen bezainhandiak, euskarak, edozein hizkuntza txikik bezala, ez baititu nahi beste baliabide (gizabaliabideak zein ekonomikoak) eta corpusak modu klasikoan egitea (hau da, inprimatutakotestuetatik erauzita) oso garestia eta mantsoa baita. Euskaraz sei corpus orokor besterik ezdaude eskuragai:
‎Ikusten denez, euskarazko corpusak gutxi dira, gehienbat txikiak (beste hizkuntzahandiagoetakoekin konparatuz behintzat) eta ez eguneratuak, euskarak, edozein hizkuntza txikikbezala, ez baititu nahi beste baliabide (giza baliabideak zein ekonomikoak) eta corpusak moduklasikoan egitea (hau da, inprimatutako testuetatik erauzita) oso garestia eta mantsoa baita.
2017
‎Badira hainbat aspektu etorkizunean landu nahiko genituzkeenak. Lehenik eta behin, lanok euskarazko corpus batean aplikatu nahiko genituzke, horrela euskarazko poesiaren analisi prosodikoa egin ahalizateko eta honetan bide berriak jorratu ahal izateko. Horretarako poema bilduma bat metrikoki etiketatzeko bidean gabiltza, ingelesezko corpusaren antzera.
‎Euskal hizkeren arteko aldakortasun sintaktikoa aztertzeko garatu dugun BASYQUE aplikazioa ikerketarako tresna baliagarria dela ikusita, hasierako lan hori euskarazko corpus historikoa maila sintaktikoan arakatzeko gai izango den bitarteko bat garatzeko asmoarekin zabaldu dugu.
‎Guk ere horrelako corpus bat osatu eta prestatu nahi dugu. Izan ere, euskarazko corpus historikoa sintaktikoki arakatzeko baliabideak prestatzeak aukera emango digu euskal gramatikaren ezaugarri nagusien inguruan azterketa diakroniko sistematikoak egiteko, egitura gramatikal jakin batzuen bilakaera ezagutzeko eta gaur egungo sintaxi diakronikoaren eta hizkuntzalaritza teorikoaren alorretan egin diren aurkikuntza teorikoekin alderatzeko. Hain zuzen ere, sintaxi mailan etiketatutako corpus historikoak egitura sintaktikoak mendez mende nola aldatzen joan diren erakutsiko digu.
‎Beraz, esku artean ditugun bi proiektu hauekin euskararen sintaxi diakronikoa bitarteko informatikoen laguntzaz aztertzeko oinarriak finkatzen hasi gara eta alor honetan lanean jarraituko dugu. BASYQUE aplikazioari dagokionez, datu bilketarekin segituko dugu (orain arte osatu duguna baino corpus zabalago eta sendoago bat eskuratu arte) eta horrekin batera, helburu dugun euskarazko corpus historikoaren arakatzaile sintaktikoa garatzeko xedea dugu, sintaxi diakronikoa aztertzeko oinarriak finkatzearekin batera.
‎Hala, gure xede nagusia HAPren alorrean garatutako tresnek eskaintzen dizkiguten abantailak eta bitartekoak baliatuz, izaera dialektala duten corpusak maila sintaktikoan aztertu eta automatikoki tratatzeko baliabideak garatzea da, gure hizkuntza komunitaterako ekarpen interesgarria dela aurreikusten baitugu, eta adierazpen hori baieztatzen duten bi baliabide aurkezten ditugu artikulu honetan: BASYQUE aplikazioa18 eta euskarazko corpus historikoaren arakatzaile sintaktikoa.
‎Lehenik eta behin euskarazko corpus historiko adierazgarri bat osatu beharra dugu, garai eta leku desberdinetako euskalkiak ordezkatuta izango dituen corpusa, hain zuzen. Corpus hori osatzeko, Klasikoen Gordailua (KG) 27 webgunean eskuragarri dauden testu digitalizatuak baliatzeko asmoa dugu28 Izan ere, testu horietan egon daitezkeen erroreen detekzioa eta zuzenketa egin dugula jakin arren, testuak egungo grafian digitalizatuta izateak lan handia aurrezten digu.
‎Artikulu honetan euskara ez estandarra aztergai duten bi proiekturen berri eman nahi dugu: 2009an abiarazi genuen BASYQUE aplikazioa eta diseinu fasean dagoen euskarazko corpus historikoaren arakatzaile sintaktikoa.
2018
‎Dena den, hilketa bortitzak, asasinamenduak izanen dira bildu ahal izan dugun euskarazko corpuseko kantu gehienak, hots, hamahirutik hamaika. Eta zergatik hori?
2019
‎Euskararen estandarizazioan baliabide digitalak nola erabili izan diren errepasatu ditu lehenik. Tartean, Ibon Sarasolaren lana eta Klaudio Harluxeten ekarpena gogoratu ditu, lehena,? euskarazko corpus bat informatika erabiliz arakatzeko lehen saioa, egin zuelako, eta bigarrenak, irtenbide ez konbentzionalak proposatzeko argitasuna izan zuelako:
‎Hastapeneko urteez, bi izen izan zituen espresuki gogoan. Batetik, Ibon Sarasolarena,? euskarazko corpus bat informatika erabiliz arakatzeko lehendabiziko saioa, haren eskutik egin zelako, eta bestetik, Klaudio Harluxet zenarena, UZEIk lanerako sistema informatiko propioaren alde egin zuenean,, mundu guztiak halakorik lortzea ezinezko jo zuen arren, neurrira kodetutako datu base bat, guztiz ez konbentzionala?
‎Corpus horretan zer nolako etiketak dauden azaltzeko, labur ditzagun orain etiketatzegidalerroetako kontzeptu nagusiak (3.1 azpiatala), corpusean bereizten diren UF moten ezaugarriak (3.2 azpiatala) eta corpus etiketatuari buruzko datu orokorrak (3.3 atala). Xehetasun gehiago behar dituenak Savary et al. enlanean (2018) ditu eskuragarri gidalerroak osorik1, eta Inurrieta et al. enean (2018) euskarazko corpusari buruzkoargibideak eta gogoetak.
‎1 taula. PARSEMEko euskarazko corpusaren datuak
‎Horretarako, Turingen testaren ideia era konputazionalean inplementatzen duten sare neuronal sortzaileaurkariak erabili ditugu. Normalean erabiltzen diren ingelesezko corpusak baino bi magnitude ordena txikiagoaden euskarazko corpus batekin halako sareak entrenatzea badagoela frogatzen dugu. Amaitzeko, euskararenmorfologia kontuan hartzen duen aurreprozesamendua erabiltzea komenigarria dela erakusten dugu.
‎Esan dugunez euskarazko corpus batekin entrenatuko ditugu sareak. Ingelesa ez bezala, euskara hizkuntza eranskaria da egitura morfologikoaren aldetik.
‎Ikasketa automatikoko sistemek, erregeletan oinarritutakoek baino corpus handiagoa eskatzen dute, sistemak datuetatik ikastenduelako, baina corpus ez oso handiekin ere emaitza onak eman ditzakete. Ikasketa sakonean ordea, neuronasareak entrenatzeko datu gehiago behar da, lan honetan erabili den EPEC KORREF euskarazko corpusa txikiada, eta lortu diren emaitza kaxkarren erantzule nagusia dela ondorioztatu da. Kokatzearren, polonierazko corpusaEPEC KORREF corpusa baino 10 aldiz handiagoa da eta neurona sareekin erregelatan oinarritutako sistemarenantzeko emaitzak lortu dituzte; ingeleserako erabili ohi den corpusa euskarazkoa baino 20 bat aldiz handiagoa daeta artearen egoeran dauden emaitzak lortu dira.
‎Azkenik, euskarazko corpusa handitzeaz eta arkitektura aldatzeaz gain, hizkuntza arteko sistema bat eraiki daiteke (Kundu et al., 2018; Cruz et al., 2018); baliabide askoko hizkuntza batean (ingelesean adibidez) korreferentzia ebazpenerako sistema bat entrenatuz, eta ondoren sistema hau euskarako korreferentziaebazpenerako baliatuz. Hizkuntza batetik ikasitako ezagutza bigarren hizkuntza bati aplikatuta emaitza onak lortubaitira hizkuntzaren prozesamenduko ataza ezberdinetan.
2020
‎Kontuak horrela, eta euskarazko corpus elebakar erraldoirik ez dugunez, euskaratik gaztelaniarakoitzultzailea izango litzateke bideragarria gaur eguneko baliabideekin. Itzulpen automatikoen adibide batzuk ikus ditzakezue jarraian:
2021
‎Haien ekarpena ez da zuzenki sartzen euskal literaturaren historian, bainan halarik ere, haiek gabe ez zen euskal literaturaren historiarik egin ahal izan. Euskal literaturaren historialariek erabili duten euskarazko korpusa finkatu dute argitaratzaileek. Aipatzaileek berriz, beren kritika eta aipamenen bitartez, euskal literaturaren osagaiak eta bizi literarioaren mamia argitan utzia dute beren artikuluetan.
2022
‎Lizardik eta Munduatek (2015) Goenkaleko hitanoaren erabilerari erreparatu zioten, azterketa sintaktikoa egite aldera. Basterretxeak (2021) gaztelaniazko eta euskarazko tratamenduak erkatzeko Goenkale erabili zuen euskarazko corpus gisa.
‎Bigramak (bi letra batera) eta trigramak (hiru letra batera) praktikatu ondoren, lotura horiek dituzten hitzekin praktikatzen da. Lan horretan transkribatu beharreko hitzak aukeratzeko, hizkuntzen corpusak erabili dira, Txikipedia euskarazko corpusa eta Vikipedia gaztelaniazkoa (260.000 hitz inguruko corpusa da euskarazkoa eta 500.000 hitzekoa gaztelaniazkoa). Ixa taldeak CLARIN azpiegituraren (Bel, Gonzalez Balcon eta Iruskieta, 2019) bitartez ematen duen zerbitzuari esker (http://ixa2.si.ehu.eus/clarink/).
Emaitza gehiago eskuratzen...
Loading...

Bilaketarako laguntza: adibideak

Oinarrizko galderak
katu "katu" lema duten agerpen guztiak bilatu
!katuaren "katuaren" formaren agerpenak bilatu
katu* "katu" hasiera duten lema guztiak bilatzen ditu
!katu* "katu" hasiera duten forma guztiak bilatzen ditu
*ganatu "ganatu" bukaera duten lema guztiak bilatzen ditu
!*ganatu "ganatu" bukaera duten forma guztiak bilatzen ditu
katu + handi "katu" eta "handi" lemak jarraian bilatu
katu + !handia "katu" lema eta "handia" forma jarraian bilatu
Distantziak
katu +3 handi "katu" eta "handi" lemak 3 elementuetako distantzian bilatu
katu +2 !handia "katu" lema eta "handia" forma 2 elementuetako distantzian bilatu
katu +2 !handi* "katu" lema eta "handi"z hasten diren formak 2 elementuetako distantzian bilatu
Formen konbinazioa desberdinak
bero + handi | asko "bero" lema eta jarraian "handi" edo "asko" lemak bilatu
bero +2 !handi* | !asko* "bero" lema eta jarraian "handi"z edo "asko"z hasten diren formak
!bero + handi|asko|gutxi|txiki "bero" forma eta jarraian "handi", "asko", "gutxi", "txiki" lemak
Ezaugarri morfologikoekin
proba + m:adj "proba" lema eta jarraian adjketibo bat
proba +2 m:adj "proba" lema eta bi hitzetako distantziak adjektibo bat adjketibo bat
bero + handi|asko + m:adi "bero" lema jarraian "handi" edo "asko" eta jarraian aditz bat
proba + m:izearr-erg "proba" lema eta ergatibo kasuan dagoen izen arrunta

Ezaugarri morfologikoak

KATEGORIA
adb adberbioa
adi aditza
adilok aditz-lokuzioa
adj adjektiboa
det determinatzailea
ior izenordaina
izearr izen arrunta
izepib pertsona-izena
izelib leku-izena
izeizb erakunde-izena
lbt laburtzapena
lotjnt juntagailua
lotlok lokailua
esr esaera
esk esklamazioa
prt partikula
ono onomatopeia
tit titulua
KASUA
abs absolutiboa
abl ablatiboa
ala adlatiboa
ban banatzailea
dat datiboa
des destinatiboa
erg ergatiboa
abz hurbiltze-adlatiboa
ine inesiboa
ins instrumentala
gel leku-genitiboa
mot motibatiboa
abu muga-adlatiboa
par partitiboa
psp postposizioa
pro prolatiboa
soz soziatiboa
MUGATASUNA/NUMEROA
mg mugagabea
ms mugatu singularra
mp mugatu plurala
mph mugatu plural hurbila
ADITZ MOTA
da da
du du
dio dio
zaio zaio
da-du da-du
du-zaio du-zaio
dio-zaio dio-zaio
da-zaio da-zaio
du-dio du-dio
da-zaio-du da-zaio-du
da-zaio-du-dio da-zaio-du-dio

Euskararen Erreferentzia Corpusa Euskararen Erreferentzia Corpusa (EEC)
© 2025 Euskaltzaindia