2008
|
|
Euskaraz, honela definitu du A. Sagarnak: " Hizkuntza bati buruzko ahalik eta informaziorik osatuena emateko prestatuta
|
dagoen
corpusari erreferentzia corpusa esaten zaio. Hizkuntzaren ahalik eta aldaera gehienen berri emateko, behar den adinako tamaina izan behar du.
|
|
Hiztegi Batuaren lehen idatzaldi hori, 2000 urtean argitaratu da eta. Batek baino gehiagok astiroegi gabiltzala leporatu arren, Orotariko> Euskal> Hiztegia> eta horren oinarrian
|
dagoen
corpusa euskarri egokian erabili ahal izatea, ezinbestekoak ziren azken hamarkadako lana burutu ahal izateko. Azkuek bere hiztegia osatzeko erabili zituen testuak osatu beharra zegoen, eta aitortu dugu horretan Urkixok eginiko ahalegina.
|
2013
|
|
Nola landu dugu gerora Txillardegik irekitako bide hori? Orotariko Euskal Hiztegia eta horren atzean
|
dagoen
corpusa oinarri hartuz Hiztegi Batua egiterakoan, Euskal Gramatika lantzerakoan... Eta orain berdin berdin egiten ari gara, Ereduzko Prosa Gaur edo Ereduzko Prosa Dinamikoa corpusak osatu eta horietan oinarrituz etorkizuneko euskarak nolakoa behar duen bidea erakustean.
|
2014
|
|
Ikerketa lan hau1 2 Hizkuntzaren Prozesamenduaren alorrean kokatzen da (hemendikaurrera HP), Euskal Herriko Unibertsitateko Informatika Fakultateko IXA Taldearen3jardunaren barruan eta zehazki, baliabideak sortzeko atalean. Azkenaldian hainmodan
|
dagoen
corpus based edo corpus driven linguistic delakoaren barnean sartzenda bete betean eta zehatzago, corpusetan oinarritutako lexikografian (Hanks, 2012).
|
2015
|
|
hainbat hedabidek euskaraz ekoitziriko berriak (ahoz nahiz idatziz) irensten ditu, corpusaren oinarria bihurtuz. Horiek horrela, KARMEL-ek sorturiko euskaraz ko testu masa osoa baliatuko litzateke, egun
|
dagoen
corpusa aberastuz.
|
2017
|
|
Diogun, bidenabar, euskara batu estandarra zein euskararen corpusaren modernizazioa ez direla besterik gabe lortzen euskal intelligentsiaren lanarekin. Izan ere, teorian formalki landua
|
dagoen
corpus hori era eta esparru askotako erabileran zaildu eta gizarteratu behar da hartarako. Eta euskararen gizarteratzea, oraingoz, irismen laburreko eginkizuna da.
|
|
Euskal TimeBank da gaur egun euskararako denbora informazioarekin anotatuta
|
dagoen
corpus bakarraeta horregatik erabili dugu bEVENT garatzeko. Euskal TimeBank eraikitzeko MEANTIME corpusaren (Minard et al., 2016) euskarazko bertsiotik hartutako 30 dokumentu ISO TimeML gidalerroen egokitzapenaren arabera anotatu ziren.
|
2018
|
|
Grabazio eta inkesta horiek bereziki garrantzitsuak dira dagoeneko euskara galdu duen eremu batekoak direnean, hura izaten baita informazio iturri bakarra eta dagoeneko zabaltzerik eta handitzerik ez
|
dagoen
corpus linguistiko baten zati. Nolanahi ere, horiek sekula ez dituzte argitzen hizkuntzalariek dituzten zalantza guztiak.
|
2019
|
|
Ondoren, bi sareen parametroak doitzeko erabilitako algoritmo iteratiboa aurkeztuko dugu. Jarraitzeko, euskaraz
|
dagoen
corpusa nola aurreprozesatudugun deskribatuko dugu. Azkenik, burututako saiakuntzak eta lortutako emaitzak erakutsi eta aztertuko ditugu.
|
2021
|
|
Eta ez orain bakarrik. Berpizkunde garaiko testuak hartuko bagenitu, Eguna egunkariko testuak hustu, lehen Eusko Jaurlaritzaren Aldizkari Ofizialeko terminoak aztertu, edo Orotariko Euskal Hiztegia eta horren atzean
|
dagoen
corpusa osatzera etorri diren administrazioeta lege testuak arakatu, berehala jabetuko ginateke zenbat eta zenbat izen elkartu dagoen hor, hemen aztertuko ditugunen egitura dutenak; adibide gutxi batzuk ematearren: auzi sari, diru etxe, diru sarrera, herri ogasun, lan bazkide, lan legedi, lege hausle, lege adin, ogasun paper edo zigortze legedi.
|