2001
|
|
Gure herri hiru eleko honek itzulpengintzan garatuz doan iraultza horretatik at irautea barkaezina da zerikusidun guztiak gogoan: euskara normalizatu eta estandarizatu nahi dutenak, tresna bikaina
|
dutelako
corpusa koherenteago bihurtzeko; administrazio publikoak, herritarrei zor dietelako normalizazio araudi guztiek agintzen duten corpus elebidun kalitatezkoa; eta, zertan esanik ez, itzultzaileak eurak, iraultza lagungarria izan dakien, inor lanik gabe ez geratzeaz gain, areago ekoiztu eta irabazteko bidea dutelako automatizazioa. Eta jakina, herritarra bera ahaztu barik, hizkuntz kalitateari ez ezik, diruari ere begiratzen diolako:
|
2005
|
|
gurean nahiko genero berria izatea, genero bihurri eta batzuetan zehaztugabea izatea, etengabe bilakaeran egotea, eta beharbada bere gainean zelanbaiteko aurreiritzia zabaldu izana (genero txikia eleberriaren aldean, tradizioko ipuingintzaren eta ipuingintza modernoaren arteko nahastea...). Dena dela, une honetan
|
badugu
corpus zabal bat, ipuin batzuek itzelezko emaitzak lortu dituzte eta gure gaurko talaiatik orain arte izan duen bilakaera dagoeneko azter dezakegu. Heldutasunera heldu den generoa da, egon badaude ere.
|
|
Euskarak amaraunean
|
duen
corpusik handienaren zuzendari ere bada Ibon Sarasola: Ereduzko Prosa Gaur
|
2007
|
|
Gaur egun, hizkuntza guztiek behar
|
dituzte
corpusak. Corpusak formatu elektronikoan eta linguistikoki etiketatuta dauden testu bildumak dira linguistikoki etiketatuta egoteak esan nahi du hitz bakoitzari dagokion lema, kategoria... ematen zaizkiola eta hizkuntzaren ikerketan eta hizkuntza teknologien garapenean erabiltzen dira.
|
2008
|
|
Corpus tipologiari begiratzen badiogu, esan daiteke euskarazko produkzioak, bere txikian, gutxieneko aniztasuna agertzen duela. Erreferentziacorpus diakronikotzat har litezkeen bi corpus dauzkagu, egungoak ez diren arren (OEHTC eta XXMECE), corpus berezi bat (ZTC; Alegria et al. 2005b, 2006b; Areta et al. 2007), literaturaeta prentsa corpus handi bat (EPG, hein batean ere ‘berezi’ dena), euskal literatura klasikoen eta aldizkarien bilduma (KG), etiketatze sintaktikoa eta semantikoa
|
duen
corpus aurreratu bat (EPEC)... Nazioartean, corpus ‘nagusi’ gehienak orokorrak dira.
|
|
Hiztunei ‘ereduzkotzat’ eskaintzen zaizkien testuez osatutako corpusa? Gure iritzia da lehen ideia dela reference corpus terminoaren jatorrizko adierari dagokiona21 baina horrelakoa da gaur egun euskaldunok behar
|
dugun
corpusa. Hizkuntza ‘normalizatuetarako’ egindako definizioak balio du bere horretan normalizazio bidean den hizkuntza minorizatu baterako?
|
|
iturriak azaldu, testu idatziak eta ahozko transkripzioak. Bost irizpideotan oinarritzen dira fidagarri eta erakusgarri izan nahi
|
duten
corpusak, eta azken urteotan gorakada handia izan da, eskanerrak eta euskarri elektronikoan eskuratzeko erraztasunak lagunduta. Horrez gain, baliabide informatikoek lematizazioan eta etiketatzean laguntza handiak eskaintzen dituzte.
|
|
Hala definitzen du EAGLESek: A> reference> rovide> rehensive> age, > alegia, hizkuntza, bere osotasunean hartuta, erakusteko diseinatua egon behar
|
du
corpusak: hizkuntzaren aldaera esanguratsuak adierazteko besteko tamaina eta kalitatea behar du.
|
|
Ahozko tradizioa, literatura eta bestelako testuak ere, ondo orekaturik, bilduko dituen Corpusa. Baina izango dugu aukera Biltzar honetan behar
|
dugun
corpus berriaz jarduteko.
|
2009
|
|
Behar beharrezkoa dugu teknologia berrien mundua. Lehen corpus erreferentzialak aipatu ditut, uste
|
dudalako
corpus lexikografiko horiek eta bestelako corpusak direla gauzarik nabarmenenak. Oro har, filosofiaren ikuspegitik, corpusen bila goaz.
|
|
Bilketa lana 80ko hamarkada inguruan burutua da. Balio ikaragarria
|
du
corpus honek, batez ere, ordutik 30 urtera bilketa bera egitea ezinezko litzatekeelako. Bestelako bilketa lanik ere bada arlo honetakorik Euskaltzaindiaren esku, edo erakundeak berak bere kabuz, edo honen laguntzaileek euren aldetik eginiko lanez osatua.
|
|
Bego hori dioena. Nago, ostera, ez ote dugun herri literaturaren altxorra ere barneratu behar euskarak aspalditik premiazko
|
duen
corpus esanguratsu horretan. Teknika berriak, bestalde, teknika hitzak egoki adierazten duenez, horixe dira, hain juxtu ere:
|
|
Hizkuntza ezberdinetako testu corpusak dauzkagu, eta hizkuntza bakoitzaren ezaugarri nagusiak atera nahi
|
ditugu
corpus horietatik abiatuta. Honako ezaugarriak dira batez ere interesatzen zaizkigunak:
|
|
Bego hori dioena. Nago, ostera, ez ote dugun herri literaturaren altxorra ere barneratu behar euskarak aspalditik premiazko
|
duen
corpus esanguratsu horretan. Teknika berriak, bestalde, teknika hitzak egoki adierazten duenez, horixe dira, hain juxtu ere:
|
|
Hori hobeto ulertzeko, oso gomendagarria da Isaiah Berlin-en Las raÃces del romanticismo [8] obraren pasarte batzuk irakurtzea, liburu bat aipatzearren. Bertan idazleak gerra napoleonikoen ondoko Frantzia eta Alemania ezaugarri
|
zituen
corpus estetikoak alderatzen ditu garaiko adierazpen musikalen bitartez. Hau da:
|
2010
|
|
Nabarmendu behar
|
dugu
corpusean erreferentzia indefinitua duten berbaldi ekarriek dimentsio polifoniko eta dialogiko altua dutela. Gainerakoei baino gehiago darie alderdi hori, zeren A barrutiko aipuek aldez aurretiko adostasuna baitute beti.
|
|
Orobat erretorikak ber kokatze sasoia bizi du, ez dena osotoro gauzatu, enuntziazioaren barnean. Horregatik gaude berbaldien dimentsio> erretorikoa hurbilpen egokia dela eta ondo erantzuteko gaitasuna duela aztergai
|
dugun
corpusean, bat egiten baitu gure corpuseko sermoiek duten erretorika barreiatu horrekin. Egin dugun ahalegina erretorikaren berrikuntzari begira eginikoa da, beraz.
|
|
Jaen eta Granadako unibertsitateetako ikerketa talde bat, hizkuntzalariek eta informatikariek osatua, ingelesak gaztelaniako hiztunetan akatsak
|
dituen
corpus informatiko bat egiten ari da. Corpus honen helburua da ingeleseko ikasleen zailtasun eremuak ondorioztatzea, akatsak idaztea eta oinarri esperimental batetik eta metodo informatikoen bidez akatsak zuzentzeko irakaskuntza estrategia zehatzak planifikatzea.
|
2011
|
|
ZIO bildumako lanak3, Pentsamenduaren Klasikoak bildumakoak4 zein saiakera lanak, kasurako, ez
|
ditugu
corpusetik atera; izan ere, bestelako ikerketetan ere, Manu Lopez Gaseniren itzulpen katalogoan legetxe, sartuta daude, eta guretik ateratzeak konparazioak egin orduan, alderaketak sinesgarritasuna galduko luke.
|
2012
|
|
Ez gara, bada, ikuspegi bat eta bakarrera lerratuko, baina, adibideak azaltzerakoan, bereziki, Griceren (1989, 1991) eta Sperber eta Wilsonen (1986/ 95) ikuspegiak izan ditugu kontuan. Oso labur bada ere, teoria horien gakoa zein den azalduko dugu, beti ere aztergai
|
ditugun
corpuseko adibideak interpretatzeko lagungarri izan daitezkeen heinean.
|
|
Aztergai
|
dugun
corpuseko esatariaren helburua da bere iritzia edo tesia (berak ateratako ondorioa) berak nahi bezala norentzakoarengana iritsarazi (ilokuziozko ekintza) eta haren iritzi usteetan eragitea (perlokuziozko ekintza). Beraz, berbaldi horrek arrakasta izan dezan, norentzakoaren interpretazioa berbalditik bertatik erregulatzen, bideratzen, gidatzen ahaleginduko da.
|
|
Ez dugu uste, ordea, kortesiaz jokatzeko beste modu bat izan zitekeen arren, norentzakoari dena egina ematen saiatzen denik. Bere helburua ez da (eta uste
|
dugu
corpuseko enuntziatu parentetikoena ere ez dela) norentzakoari mezua eginahalik txikiena eginaz interpreta dezan laguntzea, berak nahi bezala hark interpreta dezan ahalegin guztia egitea baizik, harik eta esan duenaren eta esan nahiko zukeenaren artean zirrikiturik txikiena ere egon ez dadin.
|
|
Honenbestez, aztergai
|
dugun
corpusa kontuan izanik, bost eginkizun komunikatibo nagusi bereizi eta jorratuko ditugu:
|
|
Guztira, aztergai
|
dugun
corpusean 311 enuntziatu parentetikok konexio emaileren bat darama. Horietatik guztietatik emankorrena argudiozko operatzaile bezala izendatutakoak gertatzen zaizkio Mitxelenari eta sail horretan, bereziki, eta juntagailu lokailua (artxikonektagailua) buruan izanik sortzen dituen enuntziatu parentetikoak.
|
|
Koldo Mitxelenak eta buruan daramaten egitura parentetikoei etekin handia ateratzen die, eta, B tipoa osatzen duten enuntziatu parentetikoei dagokienez, emankorrena baliabide horixe gertatzen zaio; aztergai
|
dugun
corpusean B tipoa osatzen duten 311 adibideetatik 133 mota honetakoak baitira.
|
|
Azterketa hori biziki ondo datorkigu, hondarrik hondarrean, eta antolatzaileekin osatutakoak ugari
|
ditugulako
corpusean. Baina ez horregatik bakarrik.
|
|
Aztergai
|
dugun
corpusa ikusita garbi dago ez dela ezinbestekoa eta eramatea. Garbi ere dago estilo mailako antolatzailea izan daitekeela; hau da, premisa pertsonalei erantzun diezaiokeela.
|
|
Aztergai
|
dugun
corpusa kontuan hartuz, eta inoiz ezin da agertu ondorengo egoeretan:
|
|
Ez da harritzeko, bada, aztergai
|
dugun
corpusean ere, baitaurrizkibidez sortutako enuntziatuak izatea gehien. Aurrizki hau azalpenak emateko berariazko tresna bilakatzen baitzaio.
|
|
Baaurrizkia daramaten guztiak, ordea, ez dira beti baldintza perpausak. Esaterako,
|
badugu
corpusean baaurrizkia perpaus osagarri gisa agertzen den adibidea ere,, hobe izan, bezalako predikatuarekin:
|
2013
|
|
Guztira 62,6 milioi testu hitz
|
ditu
corpusak eta halako oreka bat lortu da testu itzulien eta jatorrizkoen artean. Testu mota batzuk biltzen ditu (akademikoak, lege testuak, prentsa, saiakera) eta, bereziki, ahozko hizkuntzara hurbiltzen diren bi azpicorpus ditu:
|
|
Ez da zaila hori ikustea euskaltasunaren material kultural oso osoan. Berdin
|
du
corpusaz, mitoez, dantzez, sinesmenez, sorkuntza moldeez, musikaz edo egungo edozein adierazpidez ari garen.
|
2014
|
|
Hiper zuzentasun lexikala erraz gailentzen da quechuazaleengan; errazegi, nire ustez. Izan ere, hizkuntza gutxitu bateko komunitateak, mugatua dagoenez, zaila baino zailagoa
|
du
corpusa modu osasuntsuan elikatu eta garatzea; are zailago, ia ezinezko, mundu globalizatuan.
|
|
Guztira 62,6 milioi testu hitz
|
ditu
corpusak eta halako oreka bat lortu da testu itzulien eta jatorrizkoen artean. Testu mota batzuk biltzen ditu (akademikoak, lege testuak, prentsa, saiakera) eta, bereziki, ahozko hizkuntzara hurbiltzen diren bi azpicorpus ditu:
|
|
Euskaltzaindiaren Hiztegia. Adierak eta adibideak Batzorde Ahaldundua lanean hasi orduko, egitasmoaren zuzendariak adierazi zuen hiztegi mota horretan ez zela egokia horrelako markak erabiltzea, ohiko praktika lexikografikoaren arabera, eta proposatu zuen marka horiek zituzten hitz guztiak banan banan aztertu eta bakoitzari tratamendu egokia ematea, Euskaltzaindiak eskura
|
dituen
corpusetan agertzen zuten erabilera kontuan hartuz. Halaxe egin zuen erredakzio taldeak eta bakoitzari zer tratamendu eman proposatu zuen.
|
|
BASYQUE aplikazioaren garapenaz haratago, proiektu honen helburunagusia hizkeren (eta batez ere Iparraldeko hizkeren) azterketa eta prozesamenduabideratzeko azpiegiturak prestatzea, irizpideak finkatzea eta baliabideak sortzeada, Iparraldeko hizkeren ezaugarriak eta berezitasunak jasotzen dituen datu basesendo bat osatzeko eta, ondoren, informazio hori oinarri hartuta, aldaki dialektalentratamendu automatikoa bideratu ahal izateko. Izan ere, hizkuntza bariazioarenalorrak piztu duen interesa ikusita eta teknologia berrien garapenak HizkuntzarenAzterketa eta Prozesamenduaren (HAP) alorrean eskaintzen dizkigun abantailak etabitartekoak baliatuz, izaera dialektala
|
duten
corpusak (testu bildumak) aztertu etaautomatikoki tratatzeko tresnak garatzea gure hizkuntza komunitaterako ekarpeninteresgarria dela iruditzen zaigu. Beraz, artikulu honetan BASYQUE aplikazioarenezaugarriak eta aplikazioak eskaintzen dituen aukerak erakustera mugatuko garenarren, aplikazio hori helburu zabalagoak dituen proiektu handiago baten barruankokatzen dela esan beharra dugu.
|
2015
|
|
Aipatutako guztiak kontuan izanik, atera daitekeen ondorioa argia da: euskarak ere Web asCorpus planteamendua baliatu behar
|
du
corpusak egiteko.
|
|
Corpusetan oinarritutako metodoek, nolabaiteko polaritate anotazioa behar dute lexikoak erauzteko.Bi hurbilpen nagusi daude multzo honetan: lehena, polaritate ezaguna duten hitz batzuetatik abiatuta, corpusetan hitz horien semantikoki antzekoak diren hitzak aurkitzean datza (Turney eta Littman, 2003). Bigarrena, polaritatea markatuta
|
duen
corpus batean oinarrituz, positiboenak zein negatiboenak direnhitzen zerrendak lortzea (Saralegi eta San Vicente, 2012)
|
|
Estrategia egokiena litzateke anotatutako corpus bat hartuta adibide positiboa eta negatiboak banatzea. Tamalez, ez dago euskaraz horrelako anotaziorik
|
duen
corpusik, eta erdibideko hurbilpen batera jobehar izan dugu, testu sub jektiboak eta objektiboak bereizita dituen corpus bat baliatuz. Horrelako corpus bat eraikitzeko estrategia merke bat hartu dugu Berriako artiku bilduma batetik CBerria abiatuta: Iritzi artikuluak subjetibotzat hartu dira, eta gainerakoak objektibotzat (CBerria) (Saralegi et al., 2013). 2 Taulak corpus horren neurriak eta erauzketaren datuak azaltzen ditu.
|
|
Estrategia egokiena litzateke anotatutako corpus bat hartuta adibide positiboa eta negatiboak banatzea. Tamalez, ez dago euskaraz horrelako anotaziorik duen corpusik, eta erdibideko hurbilpen batera jobehar izan dugu, testu sub jektiboak eta objektiboak bereizita
|
dituen
corpus bat baliatuz. Horrelako corpus bat eraikitzeko estrategia merke bat hartu dugu Berriako artiku bilduma batetik CBerria abiatuta: Iritzi artikuluak subjetibotzat hartu dira, eta gainerakoak objektibotzat (CBerria) (Saralegi et al., 2013). 2 Taulak corpus horren neurriak eta erauzketaren datuak azaltzen ditu.
|
|
Albiste guztiak gai berariburuzkoak dira, testu barruko zein testu kanpoko informazioaren kudeaketa eta, nagusiki, gertaerenordena zehaztea baita etorkizuneko helburuetako bat. Egun, ez
|
dugu
corpus homogeneorik eskaintzerik, anotazio fase bakoitzean dokumentu sorta bat baino ez baita erabili.
|
|
Artikulu honek alemanetik euskaratutako unitate fraseologikoen itzulpena izango du aztergai. Horiegin ahal izateko, 3,5 milioi hitz inguru
|
dituen
corpus digitalizatu, lerrokatu eta eleanitza sortudugu, AleuskaPhraseo corpusa, alegia. Itzulpen moduak hau da, sorburu eta xede testuaren artekoharremanak berebiziko garrantzia dauka gure kasuan, itzulpen asko batez ere haur eta gazte literaturan (HGL) zeharka, zubi bertsio batetik abiatuta, egin izan direlako, eta egiten direlako.
|
2016
|
|
Euskararekiko atxikimendua (nire jarrera, nire motibazioa...) garatzeko hiru dimentsio horiek nituzke: a) behar
|
dut
korpus bat, erreferente materialak, fisikoak eta gorpuztuak (izan literatura, kantak, hiztegiak, gramatika bat, Euskaraz bizi nahi dut afixa, Korrika, euskaltegiak, euskara irakasleak, bertsolariak, eta abar luze bat); b) behar ditut talde, gune edo komunitate ezberdinak zeinetan hizkuntz harremanak gauzatzen diren (mintzalagunak, euskara elkarteak, hezkuntza komunitateak, nire antropologia ikasl...
|
|
Le personnage atxagien récurrent
|
du
corpus des années 90, développant une philosophie personnelle imprégnée d, indvidualisme, a préféré la solitude (idéologique et relationnelle) à l, embrigadement. Il se situe dans un entre deux spatial:
|
|
Zer esango dut ba, besterik. Datozela nobela beltzari buruzko beste ikuspegi partzial eta interesatuak, alde horretatik nirea bezalakoak, baina ezberdinak, eta osa dezagun horrela inork horren erraz botako ez
|
duen
corpus teoriko moduko bat, denon irizpidea findu dadin. Orain arteko “nobela beltza da” soil eta lakonikoari gehitu ahal diezaiogun atzetik beste zer edo zer.
|
2017
|
|
Praat programa informatikoaren bitartez aztertu dira audioak wav formatuan, 44100 hertzetaneta mono aukeran. Denetara bost minutuko iraupena
|
du
corpusak, bi minutu eta erdi dituelarik MaialenLujanbioren hizketaren grabazioak eta, beste hainbeste, Uxue Alberdiren atalak. Era berean, informatzaile bakoitzaren audioak erdia du bertsotan eginiko hizketa, eta beste erdia hitz lauzekoitzitakoa, azterketa eta datuen analisian metodologikoki ahal den parekoen izan dadin.
|
|
Balioen aldakortasunari dagokionez, Uxue Alberdiren kasuan argi esan liteke hitz lauz ekoitzitakobokalen balioak aldakorragoak direla bertsoetakoak baino (hasierako hipotesia berretsiz), baina ezMaialen Lujanbioren kasuan. Bertsolarien arteko desberdintasunak (gorago aipatutakoak ere) zerkeragindakoak diren zehaztea ez da erraza, bi bertsolari soilik aztertu direnez, eta bost minutukoiraupena
|
duen
corpusa, ezin baita seguru esan bokalismoan aurkitutako aldeak informatzailebakoitzaren ezaugarri pertsonalek, hizkerak edo lan honetan kontuan hartu ez den beste alderdirenbatek eragindakoak ote diren. Edonola ere, kontuan hartzekoa litzateke Maialen Lujanbioren hitzlauko ekoizpena paperean idatzitakoaren errezitaletik hurbil dagoela, eta Uxue Alberdirena, berriz, bat batean ekoitzitako hizketa formala dela.
|
|
testu corpusak sortu behar dira. Euskarazko denbora informazioa kodetzeko, EusTimeML etiketatzelengoaia (Altuna et al., 2016) sortu dugu TimeML lengoaian (Pustejovsky et al., 2003) oinarrituta etadenbora informazioa
|
duen
corpusa osatzen ari gara. 2 irudian ikus dezakegu EusTimeMLren bidez kodetuta 1 irudiko esaldiko denbora informazioa.
|
|
Etiketatzea gainbegiratu ostean, ezeztapena etiketatuta
|
duen
corpusa izango dugu. Tamainaz txikiada eta 33 ezeztapen baino ez dira aurkitu.
|
|
Behin corpusa normalizatuta, testu horietan aztergai ditugun fenomeno linguistikoak etiketatuko ditugu. Aukeratuta
|
ditugu
corpusean landu nahi ditugun egitura sintaktikoak. Izan ere, XVI. mendetik aurrera idatzitako testuetan oinarrituta egin diren azterketa teorikoei esker, urteetan zehar aldaketak jasan dituzten forma gramatikal ugari ezagutzen ditugu.
|
|
Izan ere, gaur egun, oraindik, tradiziozko mintzaira ugari dira gure herrian eta hizkera horiek ia aztertu gabe daude sintaxiaren ikuspuntutik. Ondorioz, Hizkuntzaren Azterketa eta Prozesamenduaren alorrean garatzen ditugun tresnek eskaintzen dizkiguten abantailak eta bitartekoak baliatuz, izaera dialektala
|
duten
corpusak maila sintaktikoan aztertu eta automatikoki tratatzeko baliabideak garatu nahi ditugu, baliabide horiek gure hizkuntza komunitaterako ekarpen interesgarriak egin ditzaketela uste dugulako.
|
|
Hala, gure xede nagusia HAPren alorrean garatutako tresnek eskaintzen dizkiguten abantailak eta bitartekoak baliatuz, izaera dialektala
|
duten
corpusak maila sintaktikoan aztertu eta automatikoki tratatzeko baliabideak garatzea da, gure hizkuntza komunitaterako ekarpen interesgarria dela aurreikusten baitugu, eta adierazpen hori baieztatzen duten bi baliabide aurkezten ditugu artikulu honetan: BASYQUE aplikazioa18 eta euskarazko corpus historikoaren arakatzaile sintaktikoa.
|
2018
|
|
Denak elizkizunen eta prozesioen bidez ospatzen ziren, eta garrantzitsuenetan zezenketak, komediak, suziriak, dantzariak edo erraldoiak ikusten ahal ziren. Hor
|
dugu
Korpus Egunaren kasua, sinesdun katolikoen munduan zegoen festarik garrantzitsuena. Ospakizun horien inguruan asko idatzi da eta zeremoniaren xehetasun txikienak ere deskribatu izan dira.
|
|
Oraingoan, ordea, euskal literaturak berak eskainitako irudikapenari erreparatzea dagokigu. Esku artean
|
dugun
corpusa arakatzeak emaitza aski deigarriak eskaintzen ditu. Izan ere, burdinaren irudia eta honi atxikitako estereotipoen iradokitzea ez zaio arrotza diskurtso poetiko euskaldunari.
|
|
Doinuek, erritmoek eta errepikapenek hagitz baliabide eraginkorra bihurtzen zuten bat bateko bertsolaritza: iragankorra izanagatik, memorian gordeak izateko ezaugarri berezkoak
|
zituen
corpusa zen. Joxerra Garziak memoriaren eta biziraupenaren arteko harremanari foku desberdinetik erreparatu dio (2007) 16, ahozko literatur poesiaren deskribapen nahiz sailkapenerako proposatzen baitu erreparatzea genero bakoitza ekoizten den, transmititzen den, hartzen den moduari nahiz funtzio sozialaren gauzatzenari.
|
2019
|
|
Euskarazko Iritzi Corpusa sortzeko erreferentziatzat SFU Review Corpus (Taboada, 2008) corpusa erabili dugu.Corpus hark dituen antzeko ezaugarriak
|
dituen
corpusa eratu nahi izan dugu. Horrela, 240 iritzi testuko corpusbat sortu dugu eta iritziak sei gaien ingurukoak dira:
|
|
Denbora informazioa automatikoki tratatzeko sistemek informazio linguistikoa etiketatuta
|
duten
corpusak hartzendituzte oinarritzat. Hain zuzen ere, mota horretako corpusen bitartez tresna horiek entrenatu eta ebaluatu egitendira.
|
|
–La Sexta Noche? telesailaren mintzagaien artean, politika, gertaera eta berriak zein eztabaidakmaiz agertzen direla kontuan hartuz eta esperimentu txiki batzuk aurre eginez, 10 emozio ezberdineko bildumasortu
|
genuen
corpus hau etiketatzeko. Sortutako bildumarekin eredu kategoriko eta beste galdera batzuekin eredudimentzionalako galdetegia sortu genuen:
|
2020
|
|
Azpimarratu behar da amaren figura biografikoak Etxamendiren obra narratiboaren ia mende erdiko hedadura hartzen duela, 1968tik 2011 artean zabaltzen baita. Zehazkiago, esku artean
|
dugun
corpusean, berrogeita hiru urtetan luzatzen da.
|
|
Arazo hauek kontuan izanda, aztergai
|
dugun
corpuserako analisia sinplifikatzea erabaki da, emaitza ahalik eta modu sistematikoenean eta zehatzenean emateko. Gauzak honela, parametro honetan, corpusean bertan ageri den elkarrizketatzaile elkarrizketatu harremanari erreparatuko diogu, elkarrizketatzaile bat baino gehiago dauden kasuan hauen arteko elkarrekintza alboratuz.
|
|
Azkenik, Koch eta Oesterreicherek proposatutako parametro hauek orokorrean ahozkoa eta idatzia bereizteko erabiltzen dituzten arren, komunikazio egoeren deskribapen lausoak gainditzeko lagungarri bilakatu nahi dira, hauen konplexutasuna irudikatuz. Aztergai
|
dugun
corpuseko testuetan hizketa ekintza nagusia ahoz gertatu arren, jarraian ikusiko dugunez parametro hauei jarraiki emaitza ezberdinak lortuko ditugu. Era honetan, corpuseko testuekin gradazio bat egin dezakegu, batzuk berehalakotasun komunikatibotik gertuago egongo direlarik eta beste batzuk distantzia komunikatibotik gertuago egongo direlarik.
|
|
Halako itzulpen sistemak hizkuntza bakoitzeko corpusekin «entrenatzen» dira, eta «ikasi» egiten dute, eta horri esker lortzen dituzte itzulpen hobeak. Hala, Itzuliren frantsesezko bertsioa garatzeko beharrezkoak
|
dituen
corpusak eman dizkiote sistemari: EEPren ardura izanen da corpus horiek eratzea.
|
2021
|
|
Bi ezaugarri nagusi
|
badituzte
korpus horren baitako testuek: euskaraz idatziak dira eta oinarri literario edo helburu estetiko batzuen arabera idatziak izan dira (gaur egun erabiltzen diren kriterio kritikoen arabera, segurik).
|
|
Guztira 62,6 milioi testu hitz
|
ditu
corpusak eta halako oreka bat lortu da testu itzulien eta jatorrizkoen artean.
|
|
esan diguzu. Hori da molde nagusia, behar izango moldeak oso adibide gutxi
|
ditu
corpusetan bestearekin alderatuta.
|
2022
|
|
Kreoleak hasia
|
du
corpus lanketa hori, neurri batean egina, eta frogatu dute inolako arazorik ez duela horretarako. Aitzitik, frantsesak bezala barneratzen ditu terminologia berrietako hitzak.
|
|
Euskal Herrian ere aipatu genion, baina hemen aipatzea elementalagoa egiten zait. " Nolaz ari zarete Tosepanen hizkuntzari etorkizuna prestatzen, horretarako behar
|
duzuen
corpusa beste nonbait landuta dagoen edo ez jakin gabe?" Eta jakiteko interes handirik gabe. Bigarren galdera hau ez dut egin, baina nire golkorako adierazgarria egiten zait.
|
2023
|
|
Adibidez,
|
ditugun
corpusak direla ditugun tamainakoak. Gero, herrialde txikia izanik, historia aztertzeko dokumentu gutxi ditugu, eta urte askoan euskara bigarren mailan —kasurik onenean— egon denez, horrek ere ekarri du euskarazko ekoizpena txikiagoa izatea garai batzuetan.
|
|
Badut esperantza, gainera, urteren batean alaba eta hirurok ateratzeko ere. Erlijio puntutik baino gehiago, kulturalki Oñatin duten garrantziagatik bizi
|
ditugu
Corpusak, eta ederra da horko parte izatea", dio Agirrek. Iritzi berekoa da Diaz de Gereñu ere:
|