2002
|
|
Urkiaren ustez, hizkuntza bat aurrera baldin badoa eta, gainera, hiztegi arau emailea atera nahi bada, XX. Mendeko Euskararen Corpusa, nolabait, mugatua geratzen da. Hala ere, oraindik ikusgai
|
dago
corpus zabal hori orain egiterik izango dutenentz
|
2007
|
|
Hori ere corpus bat da, nahiz eta linguistikoki etiketatu gabea den. Ondo
|
legoke
corpus gisa kontsultatu edo ustiatu ahal izatea. Hori da, hain justu, CorpEus ek egiten duena.
|
2008
|
|
Euskaraz, honela definitu du A. Sagarnak: " Hizkuntza bati buruzko ahalik eta informaziorik osatuena emateko prestatuta
|
dagoen
corpusari erreferentzia corpusa esaten zaio. Hizkuntzaren ahalik eta aldaera gehienen berri emateko, behar den adinako tamaina izan behar du.
|
|
Beraz, gure iritzia da euskara ez zela ‘berandu’ iritsi corpusgintzara, ez behintzat beste hizkuntza nagusi asko baino askoz beranduago. OEHTC posizio aurreratuan ageri da grafikoan, eta argi
|
dago
corpus hori orduan egin izana ikuspegi estrategiko baten seinaletzat hartu behar genukeela (nahiz eta lematizatu gabea izateak nabarmen murrizten duen haren baliagarritasuna), baina aurrerago, XX. mendearen amaieran, moteltze nabarmen bat gertatu da, eta corpus ‘handien’ eraketan hamarkada baten atzerapena dugu, gutxienez, inguruko hizkuntzekiko.
|
|
Hiztegi Batuaren lehen idatzaldi hori, 2000 urtean argitaratu da eta. Batek baino gehiagok astiroegi gabiltzala leporatu arren, Orotariko> Euskal> Hiztegia> eta horren oinarrian
|
dagoen
corpusa euskarri egokian erabili ahal izatea, ezinbestekoak ziren azken hamarkadako lana burutu ahal izateko. Azkuek bere hiztegia osatzeko erabili zituen testuak osatu beharra zegoen, eta aitortu dugu horretan Urkixok eginiko ahalegina.
|
2009
|
|
Plangintza egiteko modu horri laborategiko hizkuntz plangintza deitzen diote batzuek. Frogatuta
|
dago
corpus berriak, sortu ez ezik, inplementatu egin behar direla eta gizarteak onartu behar dituela, plangintza arrakastatsua izan dadin. Azken finean, corpusa landuz, tresna batzuk sortzen dira, baina gero ezagutarazi behar dira tresna horiek eta gizarteak onartu behar ditu.
|
2012
|
|
Beraz, gure ustez, eta Larringanekin bat egiten dugu?, sinonimiazko hizkuntza baliokidetza (semantismoen arteko sinonimia) baino harago doan zerbait da, eta diskurtsoaren erreferentzia begietsi beharra
|
dago
corpuseko adibideen inguruan taxuzko planteamenduak egingo baditugu. Hala ere, edo buruan daraman enuntziatu parentetikoa formalki ezaugarritzeko helburua dugunez gero, froga dezagun corpuseko adibideek ba ote duten tokirik eman dugun birformulazioaren definizio eta azalpen horretan.
|
|
9 Artikuluaren bukaerako 1 eranskinean
|
daude
corpus zientifiko teknikoan identifikaturiko kolokazio lexikoak, taula batean jarririk, bost magnitude izenen arabera zutabeka sailkaturik, eta aditzak ordena alfabetikoaren arabera ordenaturik.
|
2013
|
|
Dumoulinen metodoa edukitza feudalak jorratzean ikusten da. Zalantzan jarri zuen Libri feudorum deitutakoak indarrean ote
|
zeuden
Corpus iurisean. Horren bildumaria izan zen Obertusek ez zeukan kargu ofizialik, eta, ondorenez, ezin esan zitekeen bildumak Justinianoren testuen balioa zuenik, horrela izan arren hirurehun urtetan (Opera omnia, 1681, 1.115, 815).
|
|
Nola landu dugu gerora Txillardegik irekitako bide hori? Orotariko Euskal Hiztegia eta horren atzean
|
dagoen
corpusa oinarri hartuz Hiztegi Batua egiterakoan, Euskal Gramatika lantzerakoan... Eta orain berdin berdin egiten ari gara, Ereduzko Prosa Gaur edo Ereduzko Prosa Dinamikoa corpusak osatu eta horietan oinarrituz etorkizuneko euskarak nolakoa behar duen bidea erakustean.
|
2014
|
|
Gurean, euskararen defentsa joko politikoetatik erabat babestea oraindik lortu ez den arren, egonkortasun handiagoa badugu. Gaiaz aldatuz, deigarria da ere quechuarekin kezkatuta
|
daudenek
corpus ean jartzen duten pisua. Hizkuntza egoeraz hizketan hasita, gaztelaniatik hartutako mailegurantz azkar jotzen dute.
|
|
Ahotsak proiektuaren helburua bilketa eta katalogazioa da, eta hasieratik ikusidugu gure gaitasunetik gora
|
dagoela
Corpus erraldoi hori behar bezala landu etalematizatzea. Corpusaren jatorria ezagututa (ahozko ekoizpena, estandarretik urruti, hiztun nagusien ahotan, ahozkoaren aje guztiekin...), jakin bagenekien horrelakolan batek zailtasun tekniko handiak izango zituela, gaur egun ez baitago ia ia lanautomatikorik egiterik horrelako materialarekin.
|
|
Ikerketa lan hau1 2 Hizkuntzaren Prozesamenduaren alorrean kokatzen da (hemendikaurrera HP), Euskal Herriko Unibertsitateko Informatika Fakultateko IXA Taldearen3jardunaren barruan eta zehazki, baliabideak sortzeko atalean. Azkenaldian hainmodan
|
dagoen
corpus based edo corpus driven linguistic delakoaren barnean sartzenda bete betean eta zehatzago, corpusetan oinarritutako lexikografian (Hanks, 2012).
|
2015
|
|
hainbat hedabidek euskaraz ekoitziriko berriak (ahoz nahiz idatziz) irensten ditu, corpusaren oinarria bihurtuz. Horiek horrela, KARMEL-ek sorturiko euskaraz ko testu masa osoa baliatuko litzateke, egun
|
dagoen
corpusa aberastuz.
|
2017
|
|
Buenos Aires probintziako Saladillo herrian hazia da 78 urteko emakumea. Gaur egun, Misionesen
|
dagoen
Corpus Christi herrian bizi da, bertako Eusko Etxea elkarteko presidentea da.
|
|
Diogun, bidenabar, euskara batu estandarra zein euskararen corpusaren modernizazioa ez direla besterik gabe lortzen euskal intelligentsiaren lanarekin. Izan ere, teorian formalki landua
|
dagoen
corpus hori era eta esparru askotako erabileran zaildu eta gizarteratu behar da hartarako. Eta euskararen gizarteratzea, oraingoz, irismen laburreko eginkizuna da.
|
|
Euskal TimeBank da gaur egun euskararako denbora informazioarekin anotatuta
|
dagoen
corpus bakarraeta horregatik erabili dugu bEVENT garatzeko. Euskal TimeBank eraikitzeko MEANTIME corpusaren (Minard et al., 2016) euskarazko bertsiotik hartutako 30 dokumentu ISO TimeML gidalerroen egokitzapenaren arabera anotatu ziren.
|
2018
|
|
Sartzen diren proiektuak, ordea, gaztelaniaz etortzen dira, eta guk geuk egiten ditugun proiektuetan ere, bai memoria bai pleguetan, gaztelaniara jotzen dugu. Ez
|
dago
corpus bat».
|
|
Grabazio eta inkesta horiek bereziki garrantzitsuak dira dagoeneko euskara galdu duen eremu batekoak direnean, hura izaten baita informazio iturri bakarra eta dagoeneko zabaltzerik eta handitzerik ez
|
dagoen
corpus linguistiko baten zati. Nolanahi ere, horiek sekula ez dituzte argitzen hizkuntzalariek dituzten zalantza guztiak.
|
2019
|
|
Demagun arrastoa utzi UFa etiketatuta dagoela corpusean, eta arrasto izena utzi aditzaren objektutzat agertzendela etiketa horretan. Demagun, era berean, 1 irudiko lau esaldiak ere
|
badaudela
corpusean, baina arrasto eta utzilemak ez daudela UFtzat etiketatuta. Heuristikoek esaldiz esaldi begiratuko lukete ea lema horiek baldintza jakinbatzuk betetzen dituzten, eta hala erabakiko lukete hautagaiak erauzi ala ez.
|
|
Aintzat harturik PARSEMEren irizpideekin bat datozen agerpen idiomatikoak etiketatuta
|
daudela
corpusean, heuristikoek erauzitako hautagaiak kointzidentziazkoak ala literalak ziren esan dute etiketatzaileek7 Horrez gain, agerpen literalak hiru azpimultzotan sailkatu dituzte, agerpen idiomatikoetatik bereizteko kontuan hartu beharrekoinformazioaren arabera.
|
|
Demagun arrastoa utzi UFa etiketatuta
|
dagoela
corpusean, eta arrasto izena utzi aditzaren objektutzat agertzendela etiketa horretan. Demagun, era berean, 1 irudiko lau esaldiak ere badaudela corpusean, baina arrasto eta utzilemak ez daudela UFtzat etiketatuta.
|
|
Ondoren, bi sareen parametroak doitzeko erabilitako algoritmo iteratiboa aurkeztuko dugu. Jarraitzeko, euskaraz
|
dagoen
corpusa nola aurreprozesatudugun deskribatuko dugu. Azkenik, burututako saiakuntzak eta lortutako emaitzak erakutsi eta aztertuko ditugu.
|
|
Prolatiboa ere (t) zat da (onzat), egun tako erabiltzen bada ere. tzat
|
dago
corpus historikoan beti, salbu cristautaco prolatibo bat Lesakako 18571858ko predikuetan.
|
2021
|
|
Eta ez orain bakarrik. Berpizkunde garaiko testuak hartuko bagenitu, Eguna egunkariko testuak hustu, lehen Eusko Jaurlaritzaren Aldizkari Ofizialeko terminoak aztertu, edo Orotariko Euskal Hiztegia eta horren atzean
|
dagoen
corpusa osatzera etorri diren administrazioeta lege testuak arakatu, berehala jabetuko ginateke zenbat eta zenbat izen elkartu dagoen hor, hemen aztertuko ditugunen egitura dutenak; adibide gutxi batzuk ematearren: auzi sari, diru etxe, diru sarrera, herri ogasun, lan bazkide, lan legedi, lege hausle, lege adin, ogasun paper edo zigortze legedi.
|
|
alde batetik, Goenkale, zeinak hein batean lagunarteko erregistroa imitatzen baitu; eta, bestetik, ETBko dokumentalen corpusa, zeinak, entzunak izateko testuen bidez, erregistro zaindua islatzen baitu. Dena dela, argi dago erregistro jasorantz eta hizkuntza idatzirantz lerratuta
|
dagoela
corpusa, baina ez berariaz hautu hori egin dugulako, ezpada eskuragarri genituen testuekin osatuko dugulako.
|
|
Gauzak horrela, Sarasolaren hiztegian (EEH) ikus daiteke gure bota aditza XVII. mendetik aurrera azaltzen dela euskara idatzian, baina, hala ere, hiztegi horretan ez da biltzen errieta (bota) bezalako komunikazio izenik, edo besarkada (bota) gisako mugimenduzko ekintzen izenik. Izan ere, XXI. mendean argitaratutako testuetan oinarritua
|
dago
corpus hori. Bistan da errieta bota edo besarkada bota hurbileko pareak dituztela gaztelaniaz eta pentsa liteke horrelakoak etorri berriak direla gurera, baina aurretik, lehen esan bezala, lan honetan guztiak berdin aztertuko ditugu.
|
2022
|
|
Ez dut neure burua behartu poesia idaztera, baina molde bereko poema batzuk egiten nituen bolada bat izan nuen. Prozesu lasaia izan da, harik eta ikusi nuen arte hor
|
bazegoela
corpus bat liburu bihur zitekeena. Lehen pausoa izan zen lehiaketetara aurkeztea.
|