Bilaketa
dist.
non
lema/forma
nola
bilaketa
kategoria
Iragazkiak

Emaitzak: 69

2001
‎Gure herri hiru eleko honek itzulpengintzan garatuz doan iraultza horretatik at irautea barkaezina da zerikusidun guztiak gogoan: euskara normalizatu eta estandarizatu nahi dutenak, tresna bikaina dutelako corpusa koherenteago bihurtzeko; administrazio publikoak, herritarrei zor dietelako normalizazio araudi guztiek agintzen duten corpus elebidun kalitatezkoa; eta, zertan esanik ez, itzultzaileak eurak, iraultza lagungarria izan dakien, inor lanik gabe ez geratzeaz gain, areago ekoiztu eta irabazteko bidea dutelako automatizazioa. Eta jakina, herritarra bera ahaztu barik, hizkuntz kalitateari ez ezik, diruari ere begiratzen diolako:
2005
‎gurean nahiko genero berria izatea, genero bihurri eta batzuetan zehaztugabea izatea, etengabe bilakaeran egotea, eta beharbada bere gainean zelanbaiteko aurreiritzia zabaldu izana (genero txikia eleberriaren aldean, tradizioko ipuingintzaren eta ipuingintza modernoaren arteko nahastea...). Dena dela, une honetan badugu corpus zabal bat, ipuin batzuek itzelezko emaitzak lortu dituzte eta gure gaurko talaiatik orain arte izan duen bilakaera dagoeneko azter dezakegu. Heldutasunera heldu den generoa da, egon badaude ere.
‎Euskarak amaraunean duen corpusik handienaren zuzendari ere bada Ibon Sarasola: Ereduzko Prosa Gaur
2007
‎Gaur egun, hizkuntza guztiek behar dituzte corpusak. Corpusak formatu elektronikoan eta linguistikoki etiketatuta dauden testu bildumak dira linguistikoki etiketatuta egoteak esan nahi du hitz bakoitzari dagokion lema, kategoria... ematen zaizkiola eta hizkuntzaren ikerketan eta hizkuntza teknologien garapenean erabiltzen dira.
2008
‎Corpus tipologiari begiratzen badiogu, esan daiteke euskarazko produkzioak, bere txikian, gutxieneko aniztasuna agertzen duela. Erreferentziacorpus diakronikotzat har litezkeen bi corpus dauzkagu, egungoak ez diren arren (OEHTC eta XXMECE), corpus berezi bat (ZTC; Alegria et al. 2005b, 2006b; Areta et al. 2007), literaturaeta prentsa corpus handi bat (EPG, hein batean ere ‘berezi’ dena), euskal literatura klasikoen eta aldizkarien bilduma (KG), etiketatze sintaktikoa eta semantikoa duen corpus aurreratu bat (EPEC)... Nazioartean, corpus ‘nagusi’ gehienak orokorrak dira.
‎Hiztunei ‘ereduzkotzat’ eskaintzen zaizkien testuez osatutako corpusa? Gure iritzia da lehen ideia dela reference corpus terminoaren jatorrizko adierari dagokiona21 baina horrelakoa da gaur egun euskaldunok behar dugun corpusa. Hizkuntza ‘normalizatuetarako’ egindako definizioak balio du bere horretan normalizazio bidean den hizkuntza minorizatu baterako?
‎iturriak azaldu, testu idatziak eta ahozko transkripzioak. Bost irizpideotan oinarritzen dira fidagarri eta erakusgarri izan nahi duten corpusak, eta azken urteotan gorakada handia izan da, eskanerrak eta euskarri elektronikoan eskuratzeko erraztasunak lagunduta. Horrez gain, baliabide informatikoek lematizazioan eta etiketatzean laguntza handiak eskaintzen dituzte.
‎Hala definitzen du EAGLESek: A> reference> rovide> rehensive> age, > alegia, hizkuntza, bere osotasunean hartuta, erakusteko diseinatua egon behar du corpusak: hizkuntzaren aldaera esanguratsuak adierazteko besteko tamaina eta kalitatea behar du.
‎Ahozko tradizioa, literatura eta bestelako testuak ere, ondo orekaturik, bilduko dituen Corpusa. Baina izango dugu aukera Biltzar honetan behar dugun corpus berriaz jarduteko.
2009
‎Behar beharrezkoa dugu teknologia berrien mundua. Lehen corpus erreferentzialak aipatu ditut, uste dudalako corpus lexikografiko horiek eta bestelako corpusak direla gauzarik nabarmenenak. Oro har, filosofiaren ikuspegitik, corpusen bila goaz.
‎Bilketa lana 80ko hamarkada inguruan burutua da. Balio ikaragarria du corpus honek, batez ere, ordutik 30 urtera bilketa bera egitea ezinezko litzatekeelako. Bestelako bilketa lanik ere bada arlo honetakorik Euskaltzaindiaren esku, edo erakundeak berak bere kabuz, edo honen laguntzaileek euren aldetik eginiko lanez osatua.
‎Bego hori dioena. Nago, ostera, ez ote dugun herri literaturaren altxorra ere barneratu behar euskarak aspalditik premiazko duen corpus esanguratsu horretan. Teknika berriak, bestalde, teknika hitzak egoki adierazten duenez, horixe dira, hain juxtu ere:
‎Hizkuntza ezberdinetako testu corpusak dauzkagu, eta hizkuntza bakoitzaren ezaugarri nagusiak atera nahi ditugu corpus horietatik abiatuta. Honako ezaugarriak dira batez ere interesatzen zaizkigunak:
‎Bego hori dioena. Nago, ostera, ez ote dugun herri literaturaren altxorra ere barneratu behar euskarak aspalditik premiazko duen corpus esanguratsu horretan. Teknika berriak, bestalde, teknika hitzak egoki adierazten duenez, horixe dira, hain juxtu ere:
‎Hori hobeto ulertzeko, oso gomendagarria da Isaiah Berlin-en Las raÃces del romanticismo [8] obraren pasarte batzuk irakurtzea, liburu bat aipatzearren. Bertan idazleak gerra napoleonikoen ondoko Frantzia eta Alemania ezaugarri zituen corpus estetikoak alderatzen ditu garaiko adierazpen musikalen bitartez. Hau da:
2010
‎Nabarmendu behar dugu corpusean erreferentzia indefinitua duten berbaldi ekarriek dimentsio polifoniko eta dialogiko altua dutela. Gainerakoei baino gehiago darie alderdi hori, zeren A barrutiko aipuek aldez aurretiko adostasuna baitute beti.
‎Orobat erretorikak ber kokatze sasoia bizi du, ez dena osotoro gauzatu, enuntziazioaren barnean. Horregatik gaude berbaldien dimentsio> erretorikoa hurbilpen egokia dela eta ondo erantzuteko gaitasuna duela aztergai dugun corpusean, bat egiten baitu gure corpuseko sermoiek duten erretorika barreiatu horrekin. Egin dugun ahalegina erretorikaren berrikuntzari begira eginikoa da, beraz.
‎Jaen eta Granadako unibertsitateetako ikerketa talde bat, hizkuntzalariek eta informatikariek osatua, ingelesak gaztelaniako hiztunetan akatsak dituen corpus informatiko bat egiten ari da. Corpus honen helburua da ingeleseko ikasleen zailtasun eremuak ondorioztatzea, akatsak idaztea eta oinarri esperimental batetik eta metodo informatikoen bidez akatsak zuzentzeko irakaskuntza estrategia zehatzak planifikatzea.
2011
‎ZIO bildumako lanak3, Pentsamenduaren Klasikoak bildumakoak4 zein saiakera lanak, kasurako, ez ditugu corpusetik atera; izan ere, bestelako ikerketetan ere, Manu Lopez Gaseniren itzulpen katalogoan legetxe, sartuta daude, eta guretik ateratzeak konparazioak egin orduan, alderaketak sinesgarritasuna galduko luke.
2012
‎Ez gara, bada, ikuspegi bat eta bakarrera lerratuko, baina, adibideak azaltzerakoan, bereziki, Griceren (1989, 1991) eta Sperber eta Wilsonen (1986/ 95) ikuspegiak izan ditugu kontuan. Oso labur bada ere, teoria horien gakoa zein den azalduko dugu, beti ere aztergai ditugun corpuseko adibideak interpretatzeko lagungarri izan daitezkeen heinean.
‎Aztergai dugun corpuseko esatariaren helburua da bere iritzia edo tesia (berak ateratako ondorioa) berak nahi bezala norentzakoarengana iritsarazi (ilokuziozko ekintza) eta haren iritzi usteetan eragitea (perlokuziozko ekintza). Beraz, berbaldi horrek arrakasta izan dezan, norentzakoaren interpretazioa berbalditik bertatik erregulatzen, bideratzen, gidatzen ahaleginduko da.
‎Ez dugu uste, ordea, kortesiaz jokatzeko beste modu bat izan zitekeen arren, norentzakoari dena egina ematen saiatzen denik. Bere helburua ez da (eta uste dugu corpuseko enuntziatu parentetikoena ere ez dela) norentzakoari mezua eginahalik txikiena eginaz interpreta dezan laguntzea, berak nahi bezala hark interpreta dezan ahalegin guztia egitea baizik, harik eta esan duenaren eta esan nahiko zukeenaren artean zirrikiturik txikiena ere egon ez dadin.
‎Honenbestez, aztergai dugun corpusa kontuan izanik, bost eginkizun komunikatibo nagusi bereizi eta jorratuko ditugu:
‎Guztira, aztergai dugun corpusean 311 enuntziatu parentetikok konexio emaileren bat darama. Horietatik guztietatik emankorrena argudiozko operatzaile bezala izendatutakoak gertatzen zaizkio Mitxelenari eta sail horretan, bereziki, eta juntagailu lokailua (artxikonektagailua) buruan izanik sortzen dituen enuntziatu parentetikoak.
‎Koldo Mitxelenak eta buruan daramaten egitura parentetikoei etekin handia ateratzen die, eta, B tipoa osatzen duten enuntziatu parentetikoei dagokienez, emankorrena baliabide horixe gertatzen zaio; aztergai dugun corpusean B tipoa osatzen duten 311 adibideetatik 133 mota honetakoak baitira.
‎Azterketa hori biziki ondo datorkigu, hondarrik hondarrean, eta antolatzaileekin osatutakoak ugari ditugulako corpusean. Baina ez horregatik bakarrik.
‎Aztergai dugun corpusa ikusita garbi dago ez dela ezinbestekoa eta eramatea. Garbi ere dago estilo mailako antolatzailea izan daitekeela; hau da, premisa pertsonalei erantzun diezaiokeela.
‎Aztergai dugun corpusa kontuan hartuz, eta inoiz ezin da agertu ondorengo egoeretan:
‎Ez da harritzeko, bada, aztergai dugun corpusean ere, baitaurrizkibidez sortutako enuntziatuak izatea gehien. Aurrizki hau azalpenak emateko berariazko tresna bilakatzen baitzaio.
‎Baaurrizkia daramaten guztiak, ordea, ez dira beti baldintza perpausak. Esaterako, badugu corpusean baaurrizkia perpaus osagarri gisa agertzen den adibidea ere,, hobe izan, bezalako predikatuarekin:
2013
‎Guztira 62,6 milioi testu hitz ditu corpusak eta halako oreka bat lortu da testu itzulien eta jatorrizkoen artean. Testu mota batzuk biltzen ditu (akademikoak, lege testuak, prentsa, saiakera) eta, bereziki, ahozko hizkuntzara hurbiltzen diren bi azpicorpus ditu:
‎Ez da zaila hori ikustea euskaltasunaren material kultural oso osoan. Berdin du corpusaz, mitoez, dantzez, sinesmenez, sorkuntza moldeez, musikaz edo egungo edozein adierazpidez ari garen.
2014
‎Hiper zuzentasun lexikala erraz gailentzen da quechuazaleengan; errazegi, nire ustez. Izan ere, hizkuntza gutxitu bateko komunitateak, mugatua dagoenez, zaila baino zailagoa du corpusa modu osasuntsuan elikatu eta garatzea; are zailago, ia ezinezko, mundu globalizatuan.
‎Guztira 62,6 milioi testu hitz ditu corpusak eta halako oreka bat lortu da testu itzulien eta jatorrizkoen artean. Testu mota batzuk biltzen ditu (akademikoak, lege testuak, prentsa, saiakera) eta, bereziki, ahozko hizkuntzara hurbiltzen diren bi azpicorpus ditu:
‎Euskaltzaindiaren Hiztegia. Adierak eta adibideak Batzorde Ahaldundua lanean hasi orduko, egitasmoaren zuzendariak adierazi zuen hiztegi mota horretan ez zela egokia horrelako markak erabiltzea, ohiko praktika lexikografikoaren arabera, eta proposatu zuen marka horiek zituzten hitz guztiak banan banan aztertu eta bakoitzari tratamendu egokia ematea, Euskaltzaindiak eskura dituen corpusetan agertzen zuten erabilera kontuan hartuz. Halaxe egin zuen erredakzio taldeak eta bakoitzari zer tratamendu eman proposatu zuen.
‎BASYQUE aplikazioaren garapenaz haratago, proiektu honen helburunagusia hizkeren (eta batez ere Iparraldeko hizkeren) azterketa eta prozesamenduabideratzeko azpiegiturak prestatzea, irizpideak finkatzea eta baliabideak sortzeada, Iparraldeko hizkeren ezaugarriak eta berezitasunak jasotzen dituen datu basesendo bat osatzeko eta, ondoren, informazio hori oinarri hartuta, aldaki dialektalentratamendu automatikoa bideratu ahal izateko. Izan ere, hizkuntza bariazioarenalorrak piztu duen interesa ikusita eta teknologia berrien garapenak HizkuntzarenAzterketa eta Prozesamenduaren (HAP) alorrean eskaintzen dizkigun abantailak etabitartekoak baliatuz, izaera dialektala duten corpusak (testu bildumak) aztertu etaautomatikoki tratatzeko tresnak garatzea gure hizkuntza komunitaterako ekarpeninteresgarria dela iruditzen zaigu. Beraz, artikulu honetan BASYQUE aplikazioarenezaugarriak eta aplikazioak eskaintzen dituen aukerak erakustera mugatuko garenarren, aplikazio hori helburu zabalagoak dituen proiektu handiago baten barruankokatzen dela esan beharra dugu.
2015
‎Aipatutako guztiak kontuan izanik, atera daitekeen ondorioa argia da: euskarak ere Web asCorpus planteamendua baliatu behar du corpusak egiteko.
‎Corpusetan oinarritutako metodoek, nolabaiteko polaritate anotazioa behar dute lexikoak erauzteko.Bi hurbilpen nagusi daude multzo honetan: lehena, polaritate ezaguna duten hitz batzuetatik abiatuta, corpusetan hitz horien semantikoki antzekoak diren hitzak aurkitzean datza (Turney eta Littman, 2003). Bigarrena, polaritatea markatuta duen corpus batean oinarrituz, positiboenak zein negatiboenak direnhitzen zerrendak lortzea (Saralegi eta San Vicente, 2012)
‎Estrategia egokiena litzateke anotatutako corpus bat hartuta adibide positiboa eta negatiboak banatzea. Tamalez, ez dago euskaraz horrelako anotaziorik duen corpusik, eta erdibideko hurbilpen batera jobehar izan dugu, testu sub jektiboak eta objektiboak bereizita dituen corpus bat baliatuz. Horrelako corpus bat eraikitzeko estrategia merke bat hartu dugu Berriako artiku bilduma batetik CBerria abiatuta: Iritzi artikuluak subjetibotzat hartu dira, eta gainerakoak objektibotzat (CBerria) (Saralegi et al., 2013). 2 Taulak corpus horren neurriak eta erauzketaren datuak azaltzen ditu.
‎Estrategia egokiena litzateke anotatutako corpus bat hartuta adibide positiboa eta negatiboak banatzea. Tamalez, ez dago euskaraz horrelako anotaziorik duen corpusik, eta erdibideko hurbilpen batera jobehar izan dugu, testu sub jektiboak eta objektiboak bereizita dituen corpus bat baliatuz. Horrelako corpus bat eraikitzeko estrategia merke bat hartu dugu Berriako artiku bilduma batetik CBerria abiatuta: Iritzi artikuluak subjetibotzat hartu dira, eta gainerakoak objektibotzat (CBerria) (Saralegi et al., 2013). 2 Taulak corpus horren neurriak eta erauzketaren datuak azaltzen ditu.
‎Albiste guztiak gai berariburuzkoak dira, testu barruko zein testu kanpoko informazioaren kudeaketa eta, nagusiki, gertaerenordena zehaztea baita etorkizuneko helburuetako bat. Egun, ez dugu corpus homogeneorik eskaintzerik, anotazio fase bakoitzean dokumentu sorta bat baino ez baita erabili.
‎Artikulu honek alemanetik euskaratutako unitate fraseologikoen itzulpena izango du aztergai. Horiegin ahal izateko, 3,5 milioi hitz inguru dituen corpus digitalizatu, lerrokatu eta eleanitza sortudugu, AleuskaPhraseo corpusa, alegia. Itzulpen moduak hau da, sorburu eta xede testuaren artekoharremanak berebiziko garrantzia dauka gure kasuan, itzulpen asko batez ere haur eta gazte literaturan (HGL) zeharka, zubi bertsio batetik abiatuta, egin izan direlako, eta egiten direlako.
2016
‎Euskararekiko atxikimendua (nire jarrera, nire motibazioa...) garatzeko hiru dimentsio horiek nituzke: a) behar dut korpus bat, erreferente materialak, fisikoak eta gorpuztuak (izan literatura, kantak, hiztegiak, gramatika bat, Euskaraz bizi nahi dut afixa, Korrika, euskaltegiak, euskara irakasleak, bertsolariak, eta abar luze bat); b) behar ditut talde, gune edo komunitate ezberdinak zeinetan hizkuntz harremanak gauzatzen diren (mintzalagunak, euskara elkarteak, hezkuntza komunitateak, nire antropologia ikasl...
‎Le personnage atxagien récurrent du corpus des années 90, développant une philosophie personnelle imprégnée d, indvidualisme, a préféré la solitude (idéologique et relationnelle) à l, embrigadement. Il se situe dans un entre deux spatial:
‎Zer esango dut ba, besterik. Datozela nobela beltzari buruzko beste ikuspegi partzial eta interesatuak, alde horretatik nirea bezalakoak, baina ezberdinak, eta osa dezagun horrela inork horren erraz botako ez duen corpus teoriko moduko bat, denon irizpidea findu dadin. Orain arteko “nobela beltza da” soil eta lakonikoari gehitu ahal diezaiogun atzetik beste zer edo zer.
2017
‎Praat programa informatikoaren bitartez aztertu dira audioak wav formatuan, 44100 hertzetaneta mono aukeran. Denetara bost minutuko iraupena du corpusak, bi minutu eta erdi dituelarik MaialenLujanbioren hizketaren grabazioak eta, beste hainbeste, Uxue Alberdiren atalak. Era berean, informatzaile bakoitzaren audioak erdia du bertsotan eginiko hizketa, eta beste erdia hitz lauzekoitzitakoa, azterketa eta datuen analisian metodologikoki ahal den parekoen izan dadin.
‎Balioen aldakortasunari dagokionez, Uxue Alberdiren kasuan argi esan liteke hitz lauz ekoitzitakobokalen balioak aldakorragoak direla bertsoetakoak baino (hasierako hipotesia berretsiz), baina ezMaialen Lujanbioren kasuan. Bertsolarien arteko desberdintasunak (gorago aipatutakoak ere) zerkeragindakoak diren zehaztea ez da erraza, bi bertsolari soilik aztertu direnez, eta bost minutukoiraupena duen corpusa, ezin baita seguru esan bokalismoan aurkitutako aldeak informatzailebakoitzaren ezaugarri pertsonalek, hizkerak edo lan honetan kontuan hartu ez den beste alderdirenbatek eragindakoak ote diren. Edonola ere, kontuan hartzekoa litzateke Maialen Lujanbioren hitzlauko ekoizpena paperean idatzitakoaren errezitaletik hurbil dagoela, eta Uxue Alberdirena, berriz, bat batean ekoitzitako hizketa formala dela.
‎testu corpusak sortu behar dira. Euskarazko denbora informazioa kodetzeko, EusTimeML etiketatzelengoaia (Altuna et al., 2016) sortu dugu TimeML lengoaian (Pustejovsky et al., 2003) oinarrituta etadenbora informazioa duen corpusa osatzen ari gara. 2 irudian ikus dezakegu EusTimeMLren bidez kodetuta 1 irudiko esaldiko denbora informazioa.
‎Etiketatzea gainbegiratu ostean, ezeztapena etiketatuta duen corpusa izango dugu. Tamainaz txikiada eta 33 ezeztapen baino ez dira aurkitu.
‎Behin corpusa normalizatuta, testu horietan aztergai ditugun fenomeno linguistikoak etiketatuko ditugu. Aukeratuta ditugu corpusean landu nahi ditugun egitura sintaktikoak. Izan ere, XVI. mendetik aurrera idatzitako testuetan oinarrituta egin diren azterketa teorikoei esker, urteetan zehar aldaketak jasan dituzten forma gramatikal ugari ezagutzen ditugu.
‎Izan ere, gaur egun, oraindik, tradiziozko mintzaira ugari dira gure herrian eta hizkera horiek ia aztertu gabe daude sintaxiaren ikuspuntutik. Ondorioz, Hizkuntzaren Azterketa eta Prozesamenduaren alorrean garatzen ditugun tresnek eskaintzen dizkiguten abantailak eta bitartekoak baliatuz, izaera dialektala duten corpusak maila sintaktikoan aztertu eta automatikoki tratatzeko baliabideak garatu nahi ditugu, baliabide horiek gure hizkuntza komunitaterako ekarpen interesgarriak egin ditzaketela uste dugulako.
‎Hala, gure xede nagusia HAPren alorrean garatutako tresnek eskaintzen dizkiguten abantailak eta bitartekoak baliatuz, izaera dialektala duten corpusak maila sintaktikoan aztertu eta automatikoki tratatzeko baliabideak garatzea da, gure hizkuntza komunitaterako ekarpen interesgarria dela aurreikusten baitugu, eta adierazpen hori baieztatzen duten bi baliabide aurkezten ditugu artikulu honetan: BASYQUE aplikazioa18 eta euskarazko corpus historikoaren arakatzaile sintaktikoa.
2018
‎Denak elizkizunen eta prozesioen bidez ospatzen ziren, eta garrantzitsuenetan zezenketak, komediak, suziriak, dantzariak edo erraldoiak ikusten ahal ziren. Hor dugu Korpus Egunaren kasua, sinesdun katolikoen munduan zegoen festarik garrantzitsuena. Ospakizun horien inguruan asko idatzi da eta zeremoniaren xehetasun txikienak ere deskribatu izan dira.
‎Oraingoan, ordea, euskal literaturak berak eskainitako irudikapenari erreparatzea dagokigu. Esku artean dugun corpusa arakatzeak emaitza aski deigarriak eskaintzen ditu. Izan ere, burdinaren irudia eta honi atxikitako estereotipoen iradokitzea ez zaio arrotza diskurtso poetiko euskaldunari.
‎Doinuek, erritmoek eta errepikapenek hagitz baliabide eraginkorra bihurtzen zuten bat bateko bertsolaritza: iragankorra izanagatik, memorian gordeak izateko ezaugarri berezkoak zituen corpusa zen. Joxerra Garziak memoriaren eta biziraupenaren arteko harremanari foku desberdinetik erreparatu dio (2007) 16, ahozko literatur poesiaren deskribapen nahiz sailkapenerako proposatzen baitu erreparatzea genero bakoitza ekoizten den, transmititzen den, hartzen den moduari nahiz funtzio sozialaren gauzatzenari.
2019
‎Euskarazko Iritzi Corpusa sortzeko erreferentziatzat SFU Review Corpus (Taboada, 2008) corpusa erabili dugu.Corpus hark dituen antzeko ezaugarriak dituen corpusa eratu nahi izan dugu. Horrela, 240 iritzi testuko corpusbat sortu dugu eta iritziak sei gaien ingurukoak dira:
‎Denbora informazioa automatikoki tratatzeko sistemek informazio linguistikoa etiketatuta duten corpusak hartzendituzte oinarritzat. Hain zuzen ere, mota horretako corpusen bitartez tresna horiek entrenatu eta ebaluatu egitendira.
‎–La Sexta Noche? telesailaren mintzagaien artean, politika, gertaera eta berriak zein eztabaidakmaiz agertzen direla kontuan hartuz eta esperimentu txiki batzuk aurre eginez, 10 emozio ezberdineko bildumasortu genuen corpus hau etiketatzeko. Sortutako bildumarekin eredu kategoriko eta beste galdera batzuekin eredudimentzionalako galdetegia sortu genuen:
2020
‎Azpimarratu behar da amaren figura biografikoak Etxamendiren obra narratiboaren ia mende erdiko hedadura hartzen duela, 1968tik 2011 artean zabaltzen baita. Zehazkiago, esku artean dugun corpusean, berrogeita hiru urtetan luzatzen da.
‎Arazo hauek kontuan izanda, aztergai dugun corpuserako analisia sinplifikatzea erabaki da, emaitza ahalik eta modu sistematikoenean eta zehatzenean emateko. Gauzak honela, parametro honetan, corpusean bertan ageri den elkarrizketatzaile elkarrizketatu harremanari erreparatuko diogu, elkarrizketatzaile bat baino gehiago dauden kasuan hauen arteko elkarrekintza alboratuz.
‎Azkenik, Koch eta Oesterreicherek proposatutako parametro hauek orokorrean ahozkoa eta idatzia bereizteko erabiltzen dituzten arren, komunikazio egoeren deskribapen lausoak gainditzeko lagungarri bilakatu nahi dira, hauen konplexutasuna irudikatuz. Aztergai dugun corpuseko testuetan hizketa ekintza nagusia ahoz gertatu arren, jarraian ikusiko dugunez parametro hauei jarraiki emaitza ezberdinak lortuko ditugu. Era honetan, corpuseko testuekin gradazio bat egin dezakegu, batzuk berehalakotasun komunikatibotik gertuago egongo direlarik eta beste batzuk distantzia komunikatibotik gertuago egongo direlarik.
‎Halako itzulpen sistemak hizkuntza bakoitzeko corpusekin «entrenatzen» dira, eta «ikasi» egiten dute, eta horri esker lortzen dituzte itzulpen hobeak. Hala, Itzuliren frantsesezko bertsioa garatzeko beharrezkoak dituen corpusak eman dizkiote sistemari: EEPren ardura izanen da corpus horiek eratzea.
2021
‎Bi ezaugarri nagusi badituzte korpus horren baitako testuek: euskaraz idatziak dira eta oinarri literario edo helburu estetiko batzuen arabera idatziak izan dira (gaur egun erabiltzen diren kriterio kritikoen arabera, segurik).
‎Guztira 62,6 milioi testu hitz ditu corpusak eta halako oreka bat lortu da testu itzulien eta jatorrizkoen artean.
‎esan diguzu. Hori da molde nagusia, behar izango moldeak oso adibide gutxi ditu corpusetan bestearekin alderatuta.
2022
‎Kreoleak hasia du corpus lanketa hori, neurri batean egina, eta frogatu dute inolako arazorik ez duela horretarako. Aitzitik, frantsesak bezala barneratzen ditu terminologia berrietako hitzak.
‎Euskal Herrian ere aipatu genion, baina hemen aipatzea elementalagoa egiten zait. " Nolaz ari zarete Tosepanen hizkuntzari etorkizuna prestatzen, horretarako behar duzuen corpusa beste nonbait landuta dagoen edo ez jakin gabe?" Eta jakiteko interes handirik gabe. Bigarren galdera hau ez dut egin, baina nire golkorako adierazgarria egiten zait.
2023
‎Adibidez, ditugun corpusak direla ditugun tamainakoak. Gero, herrialde txikia izanik, historia aztertzeko dokumentu gutxi ditugu, eta urte askoan euskara bigarren mailan —kasurik onenean— egon denez, horrek ere ekarri du euskarazko ekoizpena txikiagoa izatea garai batzuetan.
‎Badut esperantza, gainera, urteren batean alaba eta hirurok ateratzeko ere. Erlijio puntutik baino gehiago, kulturalki Oñatin duten garrantziagatik bizi ditugu Corpusak, eta ederra da horko parte izatea", dio Agirrek. Iritzi berekoa da Diaz de Gereñu ere:
Emaitza gehiago eskuratzen...
Loading...
Aldaerak
Lehen forma
dugun 14 (0,09)
duen 10 (0,07)
du 8 (0,05)
dituen 6 (0,04)
duten 5 (0,03)
ditu 4 (0,03)
ditugu 4 (0,03)
dugu 4 (0,03)
badugu 2 (0,01)
ditugun 2 (0,01)
zituen 2 (0,01)
badituzte 1 (0,01)
ditugulako 1 (0,01)
dituzte 1 (0,01)
dudalako 1 (0,01)
dut 1 (0,01)
dutelako 1 (0,01)
duzuen 1 (0,01)
genuen 1 (0,01)
Argitaratzailea
Konbinazioak (2 lema)
Konbinazioak (3 lema)
Urtea

Bilaketarako laguntza: adibideak

Oinarrizko galderak
katu "katu" lema duten agerpen guztiak bilatu
!katuaren "katuaren" formaren agerpenak bilatu
katu* "katu" hasiera duten lema guztiak bilatzen ditu
!katu* "katu" hasiera duten forma guztiak bilatzen ditu
*ganatu "ganatu" bukaera duten lema guztiak bilatzen ditu
!*ganatu "ganatu" bukaera duten forma guztiak bilatzen ditu
katu + handi "katu" eta "handi" lemak jarraian bilatu
katu + !handia "katu" lema eta "handia" forma jarraian bilatu
Distantziak
katu +3 handi "katu" eta "handi" lemak 3 elementuetako distantzian bilatu
katu +2 !handia "katu" lema eta "handia" forma 2 elementuetako distantzian bilatu
katu +2 !handi* "katu" lema eta "handi"z hasten diren formak 2 elementuetako distantzian bilatu
Formen konbinazioa desberdinak
bero + handi | asko "bero" lema eta jarraian "handi" edo "asko" lemak bilatu
bero +2 !handi* | !asko* "bero" lema eta jarraian "handi"z edo "asko"z hasten diren formak
!bero + handi|asko|gutxi|txiki "bero" forma eta jarraian "handi", "asko", "gutxi", "txiki" lemak
Ezaugarri morfologikoekin
proba + m:adj "proba" lema eta jarraian adjketibo bat
proba +2 m:adj "proba" lema eta bi hitzetako distantziak adjektibo bat adjketibo bat
bero + handi|asko + m:adi "bero" lema jarraian "handi" edo "asko" eta jarraian aditz bat
proba + m:izearr-erg "proba" lema eta ergatibo kasuan dagoen izen arrunta

Ezaugarri morfologikoak

KATEGORIA
adb adberbioa
adi aditza
adilok aditz-lokuzioa
adj adjektiboa
det determinatzailea
ior izenordaina
izearr izen arrunta
izepib pertsona-izena
izelib leku-izena
izeizb erakunde-izena
lbt laburtzapena
lotjnt juntagailua
lotlok lokailua
esr esaera
esk esklamazioa
prt partikula
ono onomatopeia
tit titulua
KASUA
abs absolutiboa
abl ablatiboa
ala adlatiboa
ban banatzailea
dat datiboa
des destinatiboa
erg ergatiboa
abz hurbiltze-adlatiboa
ine inesiboa
ins instrumentala
gel leku-genitiboa
mot motibatiboa
abu muga-adlatiboa
par partitiboa
psp postposizioa
pro prolatiboa
soz soziatiboa
MUGATASUNA/NUMEROA
mg mugagabea
ms mugatu singularra
mp mugatu plurala
mph mugatu plural hurbila
ADITZ MOTA
da da
du du
dio dio
zaio zaio
da-du da-du
du-zaio du-zaio
dio-zaio dio-zaio
da-zaio da-zaio
du-dio du-dio
da-zaio-du da-zaio-du
da-zaio-du-dio da-zaio-du-dio

Euskararen Erreferentzia Corpusa Euskararen Erreferentzia Corpusa (EEC)
© 2025 Euskaltzaindia