Bilaketa
dist.
non
lema/forma
nola
bilaketa
kategoria
Iragazkiak

Emaitzak: 183

2000
‎" Batetik, euskal hizkuntza bere osotasunean, eta bereziki euskara batuari Euskal Herriko Mendebaleko euskarak, bizkaiera izenaz ezagutzen denak, eskain diezaiokeen ondarea ikertzea eta bultzatzea. Bestetik, Mendebaleko euskararen corpusa eta statusa jagon, landu eta bultzatzea". Hara hor Mendebalderen arautegian jasotako helburuak, batuaren iturri joriena euskalkietan dagoela jabetuta.
‎Ezinbestekoa da euskararen corpusaren normalkuntzak maila diskurtsiboari erreparatzea, bai eta errepertorioari ere. Badago zer eginik horretan.
2001
‎Arestian aipatu dudan elkarrizketa alboanitz, zabal eta askotariko  horren oinarri asko daude hemen, nire iritziz. Zorretan gaude Mitxelenarekin, euskararen gaurko egoeraz, Euskaltzaindiak 60ko eta 70eko hamarkadan euskararen korpusa eguneratu eta euskara batua sortzeko egin zuen ahalegin eskergagatik. Bide horretan tinko goazela ziurtaturik daukagunean, beharbada Mitxelenak erakutsiko dizkigu euskararentzako leku nahiko horretara iristeko bide aztarnak
2002
‎Orain, ordea, UZEIko kideek beste asmo batzuk dituzte buruan; Euskararen Erreferentzia Corpusa egiteko proposatu diote Euskaltzaindiari. Urkiaren ustez, hizkuntza bat aurrera baldin badoa eta, gainera, hiztegi arau emailea atera nahi bada, XX. Mendeko Euskararen Corpusa, nolabait, mugatua geratzen da. Hala ere, oraindik ikusgai dago corpus zabal hori orain egiterik izango dutenentz
‎Orain, www.euskaraCorpusa.net gunean guztien eskura jarri dute. Testu horien oinarriak (4.658.036 hitz) osatzen du XX. mendeko euskararen corpusa, eta berau ehun urtean erabili den euskararen erakusgarri eta lekuko da. Ez ordea, ereduzko euskararen adibide.
‎Eta biak dira geroago sortu diren hainbat tresna informatikoren gurasoak, Xuxen zuzentzaile ortografikoa, Morfeus analizatzaile morfologikoa eta Euslem lematizatzailea. Azken tresna horiek UZEIk landu duen XX. mendeko euskararen corpus estatistikoaren (www.euskaracorpusa.net/XXmendea) azken urteak lematizatzeko erabili dira, baita zientzia.net (www.zientzia.net) eta Egunkariako hemerotekan (www.egunkaria.com/hemeroteka) guneetan bilaketak egiteko ere. Tresna horien oinarri teknikoak azaltzen dira liburu honetan.
2004
‎Fishmanen gogaide, euskararen corpusa arautzeko bide liskartsu horietan euskararen ereduan eta kalitatean bertan baino areago euskara aldaera horien sozializazio ahalmenik ezean idoro dute euskaltzale batzuek benetako arazoa. Ez alegia begiz jo behar genukeen hizkuntza moldean, molde hori gizarteratzeko orduan daukagun ahulezian baino.
‎Dena dela ere, euskararen corpusari dagozkion gorabeherek berariazko azterketa eta aterabideak behar dituzte. Ez dezagun hortaz itxura gabeko murrizkeriarik onar, batzuek horretarako grina soberan izaten dugu-eta, berezko problematika berezia duten alorreko gaiak estatusaren esparrura erakartze hutsarekin.
‎Euskararen diglosia historikoa ez da erabateko eragozpen izan gure hizkuntzaren soka ez eteteko. Hori horrela izanda ere, ordea, diglosia horren berorren ondorioa izan daiteke egungo euskararen egoera larria, eta larritasuna ahotan hartu dudanean, euskararen corpusa baino areago bere estatusa nuen gogoan. Ondo ulertu badut behintzat, euskararen gaitasun kontuak zituen hizpide Mitxelenak hor idatzi zuena paperean ezarri zuenean, eta, jakina, diglosiak erakarri digun hondamendia ez da corpusaren sailean kabitzen.
Euskararen corpusa bideratua zegoela jabeturik, estatusak ere bere Normalkuntzaindia behar zuela uste izanik, euskaltzale sutsu hauek Txepetxek aurrez egindako ekarpen teorikoen argitan txosten gihartsu bat aurkeztu ziguten orain dela zenbait urte. Asmoa, mamiz, honetan zetzan:
‎Koldo Zuazori eskakizuna, Euskaldunon Egunkaria, 2001/9/29 Orobat, Iñaki Martinez de Lunak ere antzeko kritika egiten dio Zuazori gai hau ahotan hartuta: . Baina gaitz horien (euskararen gaitz nagusiak Zuazoren ustez) sorburutzat euskararen corpus a hartzen du Zuazok, hizkuntza horren estatus a ahaztuta, eta gaixotasun horiek, aldiz, beste hizkuntza batekiko meneko egoeran dagoen hizkuntza gutxituaren ahuleziak ohi dira gehienbat?. Euskararen ajeak eta sendabelarrak, Jakin, 2001, 106.
2005
‎Eman dezagun Euskaltzaindiak 1968an hartu erabakiak eta gerora emeki emeki hedatu dituen arauakakademikoak eta, beraz, heinbatezbederenartifizialak direla. Horrekezdu adierazten, halaere , euskararen corpusaren barrenean aurrerantzeangertatukodirenaldaketaetaberrikuntzaguztiaketaestandarizazio­ areningurukogarapenguztiakartifizialakizanendirenik.
2006
‎Garbi dago filologoak hiz  kuntzaren" korpusa" deitu izan dugun horrekin lotzen ditugula. Eta garbi ere dago euskararen korpusaren beharrak asetzeko jende prestatua eta prestua dugula. Esanen nuke, ordea, gaur egun beharrezkoagoa dela gaurko euskara egokitzeko eta molda  tzeko jendea, garai bateko testuen azterketa kritikoa egiteko jendea baino.
‎Lan hori, aspaldiko testuen azterketa filologikoa, neurri batean behintzat egina dago, edo ez zait hain premiaz  koa iruditzen behintzat. Beste eginkizuna, aldiz, euskararen korpusaren egungo beharrak asetzea, egiteko dago oso neurri handi batean, eta premiazkoa da, zinez. Euskal filologiari, edo euskal filologiako ikasketei, beraz, eta barka dezatela atrebentzia ortodoxoek, izena aldatu eta izana egokitu litzaiokeela uste dut.
‎Are gehiago, kontrakoa ere gerta liteke. Euskaraz ezinean, trakets edo kostata aritzen direnen hizkuntza produkzioa euskarazko produkzioaren osotasunean zati handiena bihurtzen bada, gerta liteke denborarekin euskararen korpusak berak horren ondorioa nabaritzea, eta esan ohi den bezala euskara" pobretzea" edo" eskastea".
2007
‎Hala, Internet baliabide linguistiko eta corpusen iturri aproposa bilakatzen ari da pixkanaka. Horren adibide bat da CorpEus, Internet euskarazko corpus erraldoi gisa baliatzeko aukera ematen duen tresna.
‎Corpusak egitea, berriz, lan garestia eta neketsua da, eta zaila da beti eguneratuta edukitzea. Horregatik, euskarazko corpusak gutxi eta txikiak dira, beste hizkuntzetakoekin konparatuta behintzat.
‎Muga horiek gainditu ahal izateko sortu dute CorpEus. Tresna hori Elhuyar Fundazioko I+G taldeak garatu du, EHUko Informatika Fakultateko IXA Taldearen laguntzarekin, eta, esan bezala, Internet euskarazko corpustzat erabiltzeko aukera ematen du. Izan ere, Internet corpus erraldoi bat dela esan liteke, euskaraz dagoen edozein corpus baino askoz ere handiagoa.
‎Horixe gertatzen da, hain justu, zenbait hitz teknikorekin adibidez, anorexia, sulfuroso eta byte, hitz labur batzuekin katu eta esne, esate baterako eta izen bereziekin Fiji eta Newton, besteak beste. Hain zuzen, hitz teknikoen bilaketak oso ohikoak eta erabilgarriak dira euskarazko corpusetan, terminologia ez baitago behar bezain normalizatuta euskaran.
2008
‎Hizkuntza guztiak kontuan hartuta, ingelesaren agerrera erabat gailentzen da besteen aldean, bai kantitatez bai corpus moten aniztasunez. Bestalde, aitortu beharra dago euskarazko corpusen erreferentziarik ez dela izaten horrelakoetan (ELDAren bidez banatzen direnak alde batera utzita).
‎4.2.1 Euskarazko corpusak
‎Bestetik, nahiz eta, esan dugunez, lan honetan corpus eleaniztunen arloa ez dugun jorratuko, ezin esan gabe utzi Interneten euskarazko bi corpus eleaniztun kontsultagai daudela: LEGE bi corpusa (Deustuko Unibertsitatea) eta Eroski ren Consumer aldizkariaren españolgalego catalán euskara corpusa. Deigarria da, gainera, bi corpus horiek CLUVI Corpus Lingü� stico da Universidade de Vigo gunean egotea3 Lehenak 2,4 milioi hitz inguru ditu guztira, eta bigarrenak 5,6 milioi.
Euskarazko corpusetan zenbait tresna erabili dira. ASP enpresaren Kapsula izeneko tresna da horietako bat.
Euskarazko corpusak kontsultatzeko ia tresna guztiak lehen motakoak dira, hau da, gehienez ere bilagaiaren testuinguruak eta maiztasunak erakusten dituzte. ZTC da bigarren motakotzat jo daitekeen bakarra, hitzaren aurreko eta ondorengo testuinguruan agertzen diren formak/ lemak eta horien maiztasunak erakusten baititu, taulatan zein grafikotan.
‎Erreferentzia corpusen garrantziaz ohartarazi gaituzte hainbat adituk (Leech 2002), eta, beharbada, alderdi hori da euskarazko corpusetan dagoen gabezia nabarmenena. Azken urteetan, maiz hitz egiten da euskararen erreferentzia corpusaren proiektua egiteko dagoen premiaz.
‎Aipatzekoa ere bada euskarazko corpusen asmoa deskriptiboa dela.
‎Atzerapen hori nagusiki erreferentzia corpusei dagokie, eta, nabarmen, tamainari. OEHTC eta XXMECE lorpen handiak izan dira, baina azpimarratzekoa da ez dagoela oraingoz euskarazko corpus ‘erraldoirik’, eta neurri ‘txikiko’ baliabideak direla aitortu behar da. Ereduzko Prosa gaur da, tamaina aldetik, nabarmenena, baina ezin genezake erreferentzia corpustzat hartu (orekatu gabea da).
‎Corpusen egituratzeeta prozesatze linguistikoa dela eta, euskarazko corpus batzuek betetzen dituzte gaur egungo estandarrak. Adierazi dugu OEHTCn informazio linguistikoa (lema, kategoria...) ez izatea tamalgarria dela, baina geroztik egin diren testu corpus nagusietan behintzat ez da hutsegite hori berriz gertatu (XXMECE, ZTC, EPG...).
‎Aipatzekoa ere bada euskarazko corpusen asmoa deskriptiboa dela, batean izan ezik (EPG). Hizkuntza ereduari dagokionez, berrienak euskara batuari so daude (tresna automatikoak horrekin dabiltza hobekien), baina euskalkien eta beste barietate batzuen presentzia ere badago.
‎Tresna horren bidez eratu dira, adibidez, Wacky proiektuaren barruko ItWaC eta DeWaC italierazko eta alemanezko corpusak, 2 mila milioi eta 1,7 mila milioi hitzekoak, hurrenez hurren. Gainera, Corpus building for minority languages gunean12, K. P. Scannell ek An Crúbadán web crawler aren bidez osatutako 419 hizkuntzaren corpusen berri ematen du, eta, horien artean, euskarazko corpusen datu batzuk ematen ditu (Scannell 2007).
‎Elhuyar Fundazioaren bi proiektu dira aipagarriak hemen, azaldu ditugun bi ikuspegietan oinarrituak. Lehena CorpEus proiektua da, Internet euskarazko corpus erraldoi gisa baliatzea helburu duena (Leturia et al., 2007a). WebCorp eta horien antzeko zerbitzu bat ezarri da13, baina euskararen berezitasunei egokitua.
‎Bigarrena Co3 proiektua da (Comparable Corpus Compiler), Internetetik corpusak osatzeko testuak automatikoki eratuko dituen tresna. Batez ere corpus eleaniztun konparagarriak lortzera bideratuta badago ere, euskarazko corpus elebakarrak egiteko ere balioko du, bai corpus orokor handiak bai espezializatu txikiagoak14.
‎Ahal dela, corpusak linguistikoki prozesatu behar dira, gero corpusetik informazio linguistikoa lortu ahal izateko. Prozesatze horren bidez, testuko formen lema, kategoria, kasua, funtzio sintaktikoa, adiera eta abar etiErreferentzia corpusen garrantziaz ohartarazi gaituzte hainbat adituk (Leech 2002), eta, beharbada, alderdi hori da euskarazko corpusetan dagoen gabezia nabarmenena.
‎Gainera, kontuan hartu behar da corpus batzuk diru publikoz osorik finantzatuak izan direla, eta ez dela erraz ulertzen corpus horiek ez askatzea (ikerkuntzarako, esaterako) edo lizentzia baten truke ustiapen komertzialerako eskuragarri ez jartzea. Horrek ez du euskarazko corpusen erabilgarritasuna eta emankortasuna murriztu baizik egiten.
‎Bestetik, gure azterketan nabaritu dugu mundu mailako ikusmiran euskarazko corpusak ez direla nahikoa ‘ikusten’, hau da, corpusen eta hizkuntza teknologien erreferentzia gune ezagunetan oso informazio gutxi aurkitu dugu euskarazko baliabideez. Arazo hori ez da euskarazko corpusena bakarrik, noski; esaterako, P. Bilbaok salatu duenez, Europako hizkuntza politika ‘txarrak’, edo ezegokiak, Europa mailan" ikusgabe
‎Bestetik, gure azterketan nabaritu dugu mundu mailako ikusmiran euskarazko corpusak ez direla nahikoa ‘ikusten’, hau da, corpusen eta hizkuntza teknologien erreferentzia gune ezagunetan oso informazio gutxi aurkitu dugu euskarazko baliabideez. Arazo hori ez da euskarazko corpusena bakarrik, noski; esaterako, P. Bilbaok salatu duenez, Europako hizkuntza politika ‘txarrak’, edo ezegokiak, Europa mailan" ikusgabe
‎Nolanahi ere, nabarmentzekoa da ikerketa talde eta erakunde batzuek egiten duten ahalegina euskarazko corpusen eta, oro har, hizkuntza teknologien informazioa argitalpen eta biltzar espezializatuetan agertzeko. Horien denen bilduma luzeegia litzateke, baina artikulu honetan bildu dugun bibliografiak agerian jar dezake errealitate hori.
‎Ikuspegieta tresna aniztasuna ez daitezela oztopo izan corpusgintzan ditugun premiei behar bezala ez erantzuteko. Hemendik urte batzuetara, artikulu honetan aurkeztu dugun grafikoa eguneratzen dugunean, euskarazko corpus gehiago eta handiagoak ikusi nahi genituzke, eta, horien artean, euskararen erreferentzia corpusa. Badugu zeregina.❚
‎Urkia, M. (2002). " XX. mendeko euskararen corpusa." In Hizkuntza corpusak. Oraina eta geroa.
‎Urkia, M. (2007). " XX. mendeko euskararen corpus estatitistikotik XXI: mendeko erreferentzia corpusera." In Espezialitateko hizkerak eta terminologia II. Euskara estandarra eta espezialitate hizkerak.
‎• Euskarazko corpus fonetikoa: 1995ean EHUren eta UPNAren laguntzaz egina (López de Ipiña, 1995).
‎Horretan zetzan Sarasolak idatzitako artikuluaren mamia. Eta euskararen corpus ak lortu behar lukeen estandarizazioaren eta modernizazioaren harian egindako gogoetaren emaitza da Sarasolari lapurtu diogun aipua.
‎Eta ñabardura hitzari tiraka, neure xehetasun bat erantsiko nioke alde batera edo bestera lerratze horri. Dudarik gabe, nik neuk noraezeko deritzot euskara idatziaren normalizazioari inolako euskal naziorik eraikiko badugu, baina ez deritzot aski nazio eraikuntzaren neurria euskararen corpus aferara mugatzeari. Beraz, ezbairik gabe,, bai euskal nazio kulturalari?, aldi berean nazio politikoaren oinarriak jartzeko balio baldin badu;, ez euskal nazio kulturalari?
Euskararen corpusei begiratuta, OEH eta EEBS aipatu behar dira:
‎Nola egin aurre eginkizun hauei? XXI. mendeak eskatzen duen Euskararen Corpusa sortuaz. Ahozko tradizioa, literatura eta bestelako testuak ere, ondo orekaturik, bilduko dituen Corpusa.
‎(a) Orotariko> egia> eta Hiztegi> osatzea eta bukatzea, eta euskararen corpus zabala prestatzea, gero, ahal delarik, Euskal Hiztegi oso agoa egiteko.
‎Euskara ikergai moduan interesgarria izan zitekeen, baina hizkuntza bizi gisa mintzaira subalterno izatea zegokion, goiz ala berandu espainierak ordezkatu behar zuena. Horregatik euskararen corpusa arautze soila, nahiz momentuz eragin sozialik gabe izan, begi txarrez ikusten zuten, ez baitzuten Hego Euskal Herrian gaztelaniarekin konkurri zezakeen hizkuntza nazional alternatiborik onartu nahi. Izatez, hori zen espainiar nazio­estatuak de facto bultzatzen zuen eredua, eskolan soilik gaztelaniazko alfabetatzea sustatuz (eta berdin Frantziak Iparraldean).
2009
‎Txillardegi maisua eta adiskidea ezagutu nuenetik hona mende laurden luzea joan zaigu. Ordukoan euskara batuaren ezarpenari eustea eta euskararen corpusaren normalizazioa ziren arrangura nagusiak. Euskararen bariazioa ikertzen zenean, aldaki geografikoei egiten zitzaien arretarik handiena.
‎1991n azpibatzordeak lan nagusia amaitutzat eman zuen, baina corpus estatistikoa etengabe eguneratzen jarraitzen du Euskaltzaindiak, UZEIrekin lankidetzan. Gaur egun, XX. Mendeko Euskararen Corpus Estatistikoa izena du, eta eskuragai dago Euskaltzaindiaren webgunean. Andres Urrutia izan zen EEBS azpibatzordeko buru.
‎Helburutzat hizkuntzaren kalitatea harturik, euskararen corpusa jagoteko eginkizuna eman zitzaion Jagon saileko Corpus batzordeari, 1999an sortu zenean. Miren Azkarate izendatu zuten batzordeburu.
‎Jagon saileko Corpus batzordeko atal gisa sortu zen Euskalkien lantaldea 2001 urtean. Helburutzat hizkuntzaren kalitatea harturik, euskararen corpusa jagotea da Corpus batzordearen helburua eta, ildo horretan, euskalkiek duten eta izan behar duten tokiaz gogoeta eta azterketak egitea da Euskalkien lantaldearen xedea. Paskual Rekalde izan da lantaldearen arduraduna, hasieratik.
‎–Edukiak gizarteratzeko planaren barruan, leku berezia izan lukete, alde batetik, euskarazko testu corpusak elikatzeko, egituratzeko, estandarizatzeko eta erabiltzaileen eskueran jartzeko lanak koordinatzeak eta bestetik Euskararen Erreferentzia Corpusa lantzeko oinarriak jartzeak?. Lan ildo honen ondorioz, euskarri digitalean dira gaur egun Orotariko Euskal Hiztegiaren testu corpusa, XX. mendeko euskararen corpus estatistikoa, Euskal Onomastika Corpusa eta beste hainbat datu base, hala nola Euskaltzaindiaren Arauak, Hiztegi Batua, Jagonet datu basea, Ikertegia eta Jagontegia?
‎XX. mendeko euskararen corpus estatistikoa sarean dago kontsultatzeko moduan.
‎Sortu zenetik bertatik euskararen corpusaz, euskara erabilera eremu berrietarako eguneratzeaz arduratzeaz gain, euskararen gizarte erabileraz arduratu da Euskaltzaindia. Izan ere, zer da hizkuntza bat hiztunik eta erabilera eremurik gabe?
‎Horrela, gaur egun Klasikoen Gordailua bezalako proiektuak daude, tarte horretako hainbat generotako 300 obra baino gehiago on line eskaintzen dituena, eta masa idatzi horretan guztian terminoak bilatzeko aukera ematen duena. Edo Euskararen Corpusa, XX. mende osoko ekoizpenaren oso lagin oparoarekin gauza bera egiten duena».
‎XX. mendeko euskararen corpus estatistikoa:
‎Testu guztiak paperean daude, Argia asterokoa izan ezik; azken hori eskaneatuta dago eta, beraz, irudi moduan ikus daiteke (baita inprimatu ere). Testu horietatik Zenbakiztija lenengo ma, ea bakarrik sartuta dago XX. mendeko euskararen corpus estatistikoan.
‎Lehen urratsa, euskara bera mundu horretarako prestatzea da, eta bide bikoitza ikusten dugu horretarako: alde batetik, euskararen korpusa egokitzeko ahalegin koordinatu bat, informazioaren eta komunikazioaren teknologietan adituei ere hitza emango diena; eta, bestetik, hizkuntzaren erabilera formalen gerruntzea askatzea eta hizkera ez formalen jarioa zabaltzea, belaunaldi gazteen artean batik bat.
‎• Corpusa XX. mendeko euskararen corpus estatistikoa (Euskaltzaindia) (www.euskaracorpusa.net/XXmendea/in dex.html). UZEI elkarteak egin duen XX. mendeko euskara jasotzen duen corpus estatistikoa da, 4.658.036 testu hitzez osatua.
‎Corpusa XX. mendeko euskararen corpus estatistikoa* (Euskaltzaindia) (www.euskaracorpusa.net/XXmendea/in dex.html)
‎Artikulu horiek Cantabria Franciscana aldizkarian argitaratu ziren. Bertan argi agertzen da orain dela bi egun euskararen corpusaren eta estatusaren inguruan zeuden eztabaidak zein ziren eta zein lotuta zeuden; gaur egungo ikuspuntutik euskararen prehistoria dela dirudi, baina ez da. Dena den, eztabaida horiek euskara batuaren prehistoria direla irudikatzea oso positiboa da; izan ere, horrek plangintzaren arrakasta frogatzen du.
Euskararen corpusaren plangintza arrakasta baten historia baita. Beharbada zaila, konplexua eta gogorra, baina arrakasta baten historia.
2010
‎XX. mendeko 60ko hamarkadan, erregimen politikoa aldatu beharra euskal gizartearen gehiengo zabal baten aldarrikapena bihurtu zen. dinamika horretan murgilduta, ordura arte debekatua edo gaizki ikusia izan zen guztia, begikotasunez begiratzen hasi zen. abertzaletasunak gidatutako euskal nortasunaren berpizkundea abian zen, euskararen aldeko mugimendua barne, eta abertzaletasunaz kanpoko sektore asko ere joera nagusi horretara bildu ziren. ikastolen mugimendua berreskuratu eta berreraikitzen hasi zen urte haietan, euskal iritzi publikoa euskara deskubritzen hasi zen. gurean beste hizkuntza bat egon bazegoela hasi zen ohartzen, diktadura frankistak ezarritako debekuari muzin eginez. pixkanaka, euskara modan jarri eta erdaldun askorentzat hizkuntza hori erakargarri bihurtu zen. Jende andana hasi zen euskara ikasten. euskal kanta berria ere bidea egiten hasi zen eta jendaurreko erakusleiho ezin hobea eskaini zion euskarari. euskara batuak lehen urratsak eman zituen eta, aldeko zaletasunak eta kontrako jarrerak agerraraziz, euskararen corpusa hizpide —eta auzi— bihurtu zen. Corpusa ez ezik, gure hizkuntzaren statusaren gaineko kezka ere gizartean hedatu zen. gizartea zein euskaltzale gehienak —ez guztiak— erabateko ezjakintasun soziolinguistikoan murgilduta zeuden. horrexegatik, hizkuntza ezagutza eta hizkuntza erabilera ez ziren analitikoki behar bezain ongi bereizten eta euskara ikaste hutsak hizkuntza hori biziberritzeko nahikoa izango zela uste zabaldua zen. aldeko iritzi publikoaren haizeak bultzatuta, ezjakintasun egoera hura lur emankorra zen itxaropen itsua lora zedin.
2011
‎Ale honetan Tantak aldizkarian (12.zb.) jarri du bere arreta J.M. Odriozola lankideak. Isasi irakaslearen inguruko ikertzaileek aspaldisko honetan azpimarratzen dute (oraingoz oihartzunik gabe) haurren euskararen korpusaren ahulezia. Are Urola ibarrean ere, erdal moldeak eta interferentziak dira gailen.
‎B. Eremu akademikoetan dagoen gabezia konpontzeko ahalegintxoa. euskal herriko eremu akademikoek euskararen corpusean lan eskerga egin duten arren, hizkuntzaren statusa ez dute neurri eta adore berdintsuekin jorratu; ezta hurrik eman ere. hutsune hori nabarmenagoa da euskalgintza –herrigintzaren eskutik sortutakoa zein instituzionalaeuskara biziberritze aldera aspalditik egiten ari den ahalegin teoriko eta, batez ere, garapen aplikatuei erreparatuz gero. euskal gizarteak dituen kezka eta premia ho...
‎Izan ere, euskararen munduan denbora hori, 15 urte ez, baizik askoz ere gehiago direla ematen baitu. 1991 urtea, euskararen corpusaz ari garela, iragana dela esan dezakegu.
‎Euzko Gogoaren hizkuntza eredua gerraurrekoa zen, baina ez sabindar hertsien moldekoa, baizik eta Azkuek proposatutako gipuzkera osotuaren ildokoa (garbizalea baina ez hiperpurista). Aldizkariaren bidez euskal hizkuntzarentzat estatus berria aldarrikatzen zuen, baina ez erdararen bidetik, euskararenetik baizik, bidenabar euskararen corpusa osatuz.
‎Weba euskarazko corpus gisa kontsultatzea ahalbidetzen duen zerbitzua da CorpEus.14 Internet euskarazko corpus erraldoi bat balitz bezala kontsultatzeko aukera ematen du zerbitzu honek. Sartutako hitzaren lema bidezko bilaketa egiten du Interneteko euskarazko orrien artean.
‎Weba euskarazko corpus gisa kontsultatzea ahalbidetzen duen zerbitzua da CorpEus.14 Internet euskarazko corpus erraldoi bat balitz bezala kontsultatzeko aukera ematen du zerbitzu honek. Sartutako hitzaren lema bidezko bilaketa egiten du Interneteko euskarazko orrien artean.
‎Corpusa XX. mendeko euskararen corpus estatistikoa (Euskaltzaindia) (172)
2012
‎Urriaren 23an 11:00etan. Euskararen corpusa eguneratzeko lana. Xabier Kintana.
‎Artikulu honen xedea da testu teknikoetan ageri diren zenbait motatako kolokazioak biltzea eta sailkatzeko irizpideak garatzea. Euskarazko corpus zientifiko teknikoan ugari diren magnitude izenen kolokazioak dira ikergai, < magnitude izena+ aditza> bikoteak identifikatu eta bildu ondoren. Nolanahi den, magnitudeen kopurua eta aniztasun handia kontuan izanik, bost magnitude berezi aukeratu dira soilik, izaera nagusien ordezkari.
2013
‎Azterketa hurbilbide diskurtsibo pragmatiko batetik egiten da. Horretarako behar diren hizkuntza ekoizpen enpirikoak eskuratzeko, euskarazko corpus zabala osatzen duten testuetatik ateratako adibideak baliatzen dira. Erabilerari erreparatuz gero, emaitzek erakusten dute, kontzesiozko eta argudiozko balioez gain, markatzaile hauek balio diskurtsibo anitz bereganatzen dituztela eta, bestalde, lau birformulatzaileek elkarren baliokide moduan funtziona dezaketela.
‎Adibideen erauzketa bi bidetatik egin da. Alde batetik, sarean eskuragarri dauden euskarazko corpusak erabili dira, eta bestetik, EUDIMA proiekturako apropos egokitutako tresna. Biak ala biak zehaztasun eta adierazgarritasun handikoak.
‎XX. Mendeko Euskararen Corpus Estatistikoa, internet: http://www.euskaracorpusa.net/XXmendea/
‎Helburutzat hizkuntzaren kalitatea harturik, euskararen corpusa jagoteko eginkizuna eman zitzaion Jagon saileko Corpus batzordeari, 1999an sortu zenean.
‎Euskaltzaindiaren eta UZEI elkartearen arteko harremana 1986an hasi zen, eta hainbat eginkizunetan gauzatu da: hiztegigintzan (Hiztegi Batuaren prestalaneko fase guztietan eta batzorde eta lantaldeetako kide gisa) eta corpusgintzan (XX. mendeko Euskararen Corpus Estatistikoaren osaera fase guztietan eta Lexikoaren Behatokian). Hala, bada, gaur sinatu den lankidetza hitzarmenaren bidez, bi erakundeok aipatu elkarlana indartu eta areagotu nahi dute, betiere euskararen jakitean, erabileran zein haren aldeko sustapenaren ikerketan, dibulgazioan eta sentiberatzean egitasmoak partekatzeko asmoz.
‎Hala, bada, gaur sinatu den lankidetza hitzarmenaren bidez, bi erakundeok aipatu elkarlana indartu eta areagotu nahi dute, betiere euskararen jakitean, erabileran zein haren aldeko sustapenaren ikerketan, dibulgazioan eta sentiberatzean egitasmoak partekatzeko asmoz. Bost urteko iraupena izango duen hitzarmenak jasotzen duen legez, bi erakundeon arteko elkarlana euskararen corpusa eguneratzeko, mantentzeko, gizarteratzeko eta erabiltzaileen beharretara egokitzeko proposatzen diren egitasmoen inguruabarrean gauzatuko da.
‎Horiek horrela, bi erakundeek berariaz adostu dute, XX. Mendeko Euskararen Corpus Estatistikoa (ECE), Hiztegi Batu Oinarriduna (HBO), Lexikoaren Behatokia (LEBE) eta Hiztegi Batuko lantaldean lankidetzan aritzea.
‎Baina edozein zantzurekin ezin da ildo bat asmatu, halako gai potoloan. Euskararen corpusaren zati handi bat kendu eta balizko fonema arkaikoetatik hizkuntza berri bat asmatzen saiatzea bezala da apur bat.
Euskararen corpusak baditu bere jakitunak. Ez dugu horiei zirrika hasteko asmorik, eta labur jardungo dugu.
‎Filologian formazio urria izanagatik, doktore tesia euskararen corpusaren bidetik egin nuen nire garaian. Euskal kazetaritzaren korapiloetako bat kazetari hizkeraren gabezietan zegoen, eta gai horren galdegaien inguruan osatu genuen orri mordo gizena.
‎Eraikuntza tentsio hori, euskararen corpus osoaren koloreetako bat da.
‎Corpusean egindako ibilbidea baliabide ederra da esperientziak trukatzeko orduan, ezertan eredurik ez badago ere, eta honetan gutxiago. Beren hizkuntzen corpusari buruz galdezka hasi diren munduko hiztun komunitateentzat euskararen corpus lanak heldulekuak ditu: etorkizun ikuspegia izaten asmatu zuen, momentu historikoa usaindu zuen, konbergentzia ariketa egitea lortu zuen, zorroztasun teknikoa izan du, terminologiak garatzeko adarrak sortzen jakin du.
‎Horren emaitza da, adibidez, euskararen corpusa bera. Hizkuntzaren ibilbideko edozein mendetan bi ariketadun ariketa hori ikusten dugu egina, hitzen zintzelkada zehatzetan.
Euskararen corpusaren doiketa bakoitzean ere jokatzen da ‘nola’ hori. Egunero dituzte hizkuntzalariek, idazleek eta kazetariek esku artean txirikorda hori egiteko abagune filologikoak.
2014
‎Horregatik ere, euskalgintza ezin da izan bizimodu edo errealitate sozial baten gainean mintzoa, oihal bat izango balitz moduan, zabaltzen duen eskua, ezin da izan errealitatea hizkuntzaren kolore hutsez antzaldatzen duen brotxa. Euskalgintzak ez du lan egiten euskararen corpusean, baizik eta euskararen gorputz sozialean. Eta lan egiten du gorputz hori desartikula ez dadin.
‎–Bitarikoak dira: alde batetik, Euskal Herriko mendebaldeko euskarak, bizkaiera izenaz ezagutzen denak, euskara batuari eskain diezaiokeen ondarea ikertzea eta indartzea, horrela euskara bera ikertu eta indartuz; bestetik, mendebaldeko euskararen corpusa eta estatusa jagotea, jorratzea eta bultzatzea?.
‎Ahotsak Ahozko Tradiziozko Corpusa izendatu dugun proiektu honen helburua daahozko materialean oinarritutako euskarazko corpus linguistiko bat osatzea. EuskalHerriko Ahotsak proiektuan zehar egindako transkripzioetan oinarrituz, 1900 1950bitartean jaiotako euskaldunen bat bateko hizkera naturalaren ezaugarriak bildu nahiditu.
‎Euskararen kalitatea hobetu eta erabilera sustatzeko, nahitaezkoa dugu ereduaeta bidea erakutsiko diguten adibideak eta lanabesak izatea. Beharrezko erremintenartean euskarazko corpusak daude, ahal dela libreak eta denon esku izango direnak, eta gure aurrekoek erabilitako euskara zein den erakutsiko digutenak. Euskarakesparru berrietara zabaldu nahi badu datozen urteotan, behar beharrezkoa dugujakitea orain arteko euskaldunek nola erabili izan duten gure hizkuntza.
Euskarazko corpusen egoera sakon ezagutu nahi duenak jo beza Urkiaren (2010) laburpen artikulura. Gure aldetik, nagusienak zerrendatuko ditugu2:
2015
‎KARMEL-en euskarazko corpusa jasotzeko baldintzak:
‎Eleaniztasun hori dela-eta, hiru datu multzorekin egin dugu lan, euskarazko eta gaztelerazko urre patroiak ingelesekoaren itzulpenak izanik. Arrazoi beragatik, hiru hizkuntzen bektore adierazpenak erauzteko hiru corpus erabili ditugu: euskarazko corpusa Elhuyar fundazioak utzitako corpusa da, artikulu zientifikoz osatua dago eta 1.5? 108berbaz osatua; ingeleseko bektore adierazpenak 1011 berbako Google News corpusetik erauzita daude, eta Google Code tik5 jaitsi ditugu zuzenean; gaztelerazkoa QTLeap protiektuan erabilitako corpusenbilduma da, 0.8?
‎Lan honetan, Web as Corpus planteamendua erabilita euskarazko corpus orokor oso handibat biltzen eta weba euskarazko corpus bat bailitzan zuzenean kontsultatzen saiatu gara.
‎Lan honetan, Web as Corpus planteamendua erabilita euskarazko corpus orokor oso handibat biltzen eta weba euskarazko corpus bat bailitzan zuzenean kontsultatzen saiatu gara.
‎2.2 Weba euskarazko corpus bat bailitzan kontsultatzea
‎Edonola ere, zerbitzu eta tresna hauek ez dabiltza ongi euskararen kasuan, morfologiagatikbatetik eta bilatzaileek euskarari ematen dioten tratamenduagatik (edo, hobeto, tratamenduezagatik) bestetik. Horregatik, tesiaren helburuetako bat izan da tresna bat eraikitzea, ahalbidetuko duena weba kontsultatzea euskarazko corpus bat bailitzan.
‎3.1 Euskarazko corpus orokor handi bat osatzea weba testuen iturburutzat hartuta
Euskarazko corpus orokor handi bat lortzeko helburuarekin, bi metodoak probatu eta ebaluatudira, crawling arena eta bilatzaileena, ikusteko zein den onena euskararentzat, abiadura, kostua, tamaina edo kalitateari dagokionez (Leturia, 2012).
‎hitzenluzerarentzat, 500, 1.000, 2.000, 5.000 eta 10.000 probatu dira eta konbinazioen luzeraridagokionez, 1, 2, 3, 4 eta 5. Hazi? hitzentzat XX. mendeko Euskararen Corpuseko hitzmaizenak erabili dira, funtzio hitzak kenduta. Eta bilaketek euskararentzat emaitza optimoaeman dezaten, gorago deskribatutako morfologia bidezko galderaren hedapena eta hizkuntzairagazteko hitzen teknikak erabiltzen dira berriz ere.
Emaitza gehiago eskuratzen...
Loading...
Aldaerak
Lehen forma
Argitaratzailea
Konbinazioak (2 lema)
Konbinazioak (3 lema)
euskara Corpus estatistiko 11 (0,07)
euskara corpus bat 9 (0,06)
euskara corpus historiko 9 (0,06)
euskara corpus estatistiko 8 (0,05)
euskara corpus orokor 8 (0,05)
euskara corpus gisa 6 (0,04)
euskara corpus egon 5 (0,03)
euskara corpus jagon 4 (0,03)
euskara corpus egoera 3 (0,02)
euskara corpus eguneratu 3 (0,02)
euskara corpus erraldoi 3 (0,02)
euskara corpus zabal 3 (0,02)
euskara corpus ari 2 (0,01)
euskara corpus asmo 2 (0,01)
euskara corpus bera 2 (0,01)
euskara corpus datu 2 (0,01)
euskara corpus elebakar 2 (0,01)
euskara corpus erabili 2 (0,01)
euskara corpus ere 2 (0,01)
euskara corpus ez 2 (0,01)
euskara corpus gutxi 2 (0,01)
euskara corpus ikertu 2 (0,01)
euskara corpus jaso 2 (0,01)
euskara corpus juridiko 2 (0,01)
euskara corpus lan 2 (0,01)
euskara corpus landu 2 (0,01)
euskara corpus plangintza 2 (0,01)
euskara corpus a 1 (0,01)
euskara corpus afera 1 (0,01)
euskara corpus ahulezia 1 (0,01)
euskara corpus ak 1 (0,01)
euskara corpus ara 1 (0,01)
euskara corpus arautu 1 (0,01)
euskara corpus arautze 1 (0,01)
euskara corpus arduratu 1 (0,01)
euskara corpus arlo 1 (0,01)
euskara corpus baino 1 (0,01)
euskara corpus bakarrik 1 (0,01)
euskara corpus batzuk 1 (0,01)
euskara corpus begiratu 1 (0,01)
euskara corpus behar 1 (0,01)
euskara corpus bide 1 (0,01)
euskara corpus bideratu 1 (0,01)
euskara corpus doikuntza 1 (0,01)
euskara corpus egokitu 1 (0,01)
euskara corpus egungo 1 (0,01)
euskara corpus Elhuyar 1 (0,01)
euskara corpus erabilgarritasun 1 (0,01)
euskara corpus erreferentzia 1 (0,01)
euskara corpus Euskaltzaindia 1 (0,01)
euskara corpus euskara 1 (0,01)
euskara corpus finkatu 1 (0,01)
euskara corpus fonetiko 1 (0,01)
euskara corpus gehiago 1 (0,01)
euskara corpus handitu 1 (0,01)
euskara Corpus hizkuntza 1 (0,01)
euskara corpus hizpide 1 (0,01)
euskara corpus horiek 1 (0,01)
euskara Corpus izeneko 1 (0,01)
euskara corpus kantitate 1 (0,01)
euskara corpus kantu 1 (0,01)
euskara corpus kontsultatu 1 (0,01)
euskara corpus linguistiko 1 (0,01)
euskara corpus modernizazio 1 (0,01)
euskara corpus muga 1 (0,01)
euskara corpus nahiz 1 (0,01)
euskara corpus normalizazio 1 (0,01)
euskara corpus osatu 1 (0,01)
euskara corpus oso 1 (0,01)
euskara Corpus plangintza 1 (0,01)
euskara corpus planifikatu 1 (0,01)
euskara Corpus sortu 1 (0,01)
euskara corpus ukan 1 (0,01)
euskara corpus zati 1 (0,01)
euskara corpus zenbait 1 (0,01)
euskara corpus zientifiko 1 (0,01)
Urtea

Bilaketarako laguntza: adibideak

Oinarrizko galderak
katu "katu" lema duten agerpen guztiak bilatu
!katuaren "katuaren" formaren agerpenak bilatu
katu* "katu" hasiera duten lema guztiak bilatzen ditu
!katu* "katu" hasiera duten forma guztiak bilatzen ditu
*ganatu "ganatu" bukaera duten lema guztiak bilatzen ditu
!*ganatu "ganatu" bukaera duten forma guztiak bilatzen ditu
katu + handi "katu" eta "handi" lemak jarraian bilatu
katu + !handia "katu" lema eta "handia" forma jarraian bilatu
Distantziak
katu +3 handi "katu" eta "handi" lemak 3 elementuetako distantzian bilatu
katu +2 !handia "katu" lema eta "handia" forma 2 elementuetako distantzian bilatu
katu +2 !handi* "katu" lema eta "handi"z hasten diren formak 2 elementuetako distantzian bilatu
Formen konbinazioa desberdinak
bero + handi | asko "bero" lema eta jarraian "handi" edo "asko" lemak bilatu
bero +2 !handi* | !asko* "bero" lema eta jarraian "handi"z edo "asko"z hasten diren formak
!bero + handi|asko|gutxi|txiki "bero" forma eta jarraian "handi", "asko", "gutxi", "txiki" lemak
Ezaugarri morfologikoekin
proba + m:adj "proba" lema eta jarraian adjketibo bat
proba +2 m:adj "proba" lema eta bi hitzetako distantziak adjektibo bat adjketibo bat
bero + handi|asko + m:adi "bero" lema jarraian "handi" edo "asko" eta jarraian aditz bat
proba + m:izearr-erg "proba" lema eta ergatibo kasuan dagoen izen arrunta

Ezaugarri morfologikoak

KATEGORIA
adb adberbioa
adi aditza
adilok aditz-lokuzioa
adj adjektiboa
det determinatzailea
ior izenordaina
izearr izen arrunta
izepib pertsona-izena
izelib leku-izena
izeizb erakunde-izena
lbt laburtzapena
lotjnt juntagailua
lotlok lokailua
esr esaera
esk esklamazioa
prt partikula
ono onomatopeia
tit titulua
KASUA
abs absolutiboa
abl ablatiboa
ala adlatiboa
ban banatzailea
dat datiboa
des destinatiboa
erg ergatiboa
abz hurbiltze-adlatiboa
ine inesiboa
ins instrumentala
gel leku-genitiboa
mot motibatiboa
abu muga-adlatiboa
par partitiboa
psp postposizioa
pro prolatiboa
soz soziatiboa
MUGATASUNA/NUMEROA
mg mugagabea
ms mugatu singularra
mp mugatu plurala
mph mugatu plural hurbila
ADITZ MOTA
da da
du du
dio dio
zaio zaio
da-du da-du
du-zaio du-zaio
dio-zaio dio-zaio
da-zaio da-zaio
du-dio du-dio
da-zaio-du da-zaio-du
da-zaio-du-dio da-zaio-du-dio

Euskararen Erreferentzia Corpusa Euskararen Erreferentzia Corpusa (EEC)
© 2025 Euskaltzaindia