Emaitzak: 8
2015 | ||
Lan honetan, Web as Corpus planteamendua erabilita | euskarazko corpus orokor oso handibat biltzen eta weba euskarazko corpus bat bailitzan zuzenean kontsultatzen saiatu gara. | |
3.1 | Euskarazko corpus orokor handi bat osatzea weba testuen iturburutzat hartuta | |
| Euskarazko corpus orokor handi bat lortzeko helburuarekin, bi metodoak probatu eta ebaluatudira, crawling arena eta bilatzaileena, ikusteko zein den onena euskararentzat, abiadura, kostua, tamaina edo kalitateari dagokionez (Leturia, 2012). | |
Kalitate aldetik corpus egokiak dira, corpus klasikoen hitzak ia osorik barnehartzen dituztenak eta besteek ez dituzten hitzen ekarpen handia egiten dutenak. Beraz, webaiturburu egokia da | euskarazko corpus orokorren egoera nabarmen hobetzeko, eta hobekuntzahau gauzatu egin da, 100 milioi hitzetik gorako corpus handi horietako bat Web CorpusenAtarian jarri baita jendearen eskuragarri6. | |
Helburu horren bila, lehenbizi bi tresna garatu genituen, bata bilatzaileetan oinarritua etabestea crawling metodoan, | euskarazko corpus orokor handiak lortzeko. Horien bidez, orduraarteko corpusen tamaina 8 aldiz gainditzen zuten corpusak osatu dira, 200 milioi hitzeraailegatuz, eta etorkizunean are handiagoak lortzea espero dugu crawling metodoaren bidez.Corpus horietako bat, 125 milioi hitzekoa (ordura arte bildu genuen handiena), online jarri dakontsulta publikorako Web Corpusen Atarian. | |
| Euskarazko corpus orokorrak osatzeko weba ustiatzen | |
Testu corpusak behar beharrezkoak dira egoera normalean bizi nahi duen hizkuntza batentzat, etahala da euskararentzat ere. Baina | euskarazko corpus orokorren tamaina oso txikia da beste hizkuntzahandiagoenekin konparatzen badugu. Horregatik, logikoa da, beste hizkuntza horiek egin duten bezala, euskarak ere. Web as Corpus? | |
Horregatik, logikoa da, beste hizkuntza horiek egin duten bezala, euskarak ere. Web as Corpus? planteamendua (hau da, weba eta metodo automatikoak) baliatzea.Artikulu honetan azaltzen dira egileak bere doktore tesian | euskarazko corpus orokor handi bat biltzekoeta weba euskarazko corpus gisa kontsultatzeko egindako ikerketak, garatutako tresnak eta lortutakoemaitzak. Lan horretan lehenbiziko aldiz lortu da 100 milioi hitzetik gorako euskarazko corpus batosatzea, eta online jarri dira gizartearen eskura corpus hori eta weba corpus bat bailitzankontsultatzeko tresna. |
Emaitza gehiago eskuratzen...
Loading...
Aldaerak
euskara | 8 (0,05) |
Lehen forma
euskarazko | 5 (0,03) |
Euskarazko | 3 (0,02) |
Argitaratzailea
UEU | 8 (0,05) |
Konbinazioak (2 lema)
euskara corpus | 8 (0,05) |
Konbinazioak (3 lema)
euskara corpus orokor | 8 (0,05) |
Urtea
Bilaketarako laguntza: adibideak
Oinarrizko galderak | |
---|---|
katu | "katu" lema duten agerpen guztiak bilatu |
!katuaren | "katuaren" formaren agerpenak bilatu |
katu* | "katu" hasiera duten lema guztiak bilatzen ditu |
!katu* | "katu" hasiera duten forma guztiak bilatzen ditu |
*ganatu | "ganatu" bukaera duten lema guztiak bilatzen ditu |
!*ganatu | "ganatu" bukaera duten forma guztiak bilatzen ditu |
katu + handi | "katu" eta "handi" lemak jarraian bilatu |
katu + !handia | "katu" lema eta "handia" forma jarraian bilatu |
Distantziak | |
katu +3 handi | "katu" eta "handi" lemak 3 elementuetako distantzian bilatu |
katu +2 !handia | "katu" lema eta "handia" forma 2 elementuetako distantzian bilatu |
katu +2 !handi* | "katu" lema eta "handi"z hasten diren formak 2 elementuetako distantzian bilatu |
Formen konbinazioa desberdinak | |
bero + handi | asko | "bero" lema eta jarraian "handi" edo "asko" lemak bilatu |
bero +2 !handi* | !asko* | "bero" lema eta jarraian "handi"z edo "asko"z hasten diren formak |
!bero + handi|asko|gutxi|txiki | "bero" forma eta jarraian "handi", "asko", "gutxi", "txiki" lemak |
Ezaugarri morfologikoekin | |
proba + m:adj | "proba" lema eta jarraian adjketibo bat |
proba +2 m:adj | "proba" lema eta bi hitzetako distantziak adjektibo bat adjketibo bat |
bero + handi|asko + m:adi | "bero" lema jarraian "handi" edo "asko" eta jarraian aditz bat |
proba + m:izearr-erg | "proba" lema eta ergatibo kasuan dagoen izen arrunta |
Ezaugarri morfologikoak
KATEGORIA
adb | adberbioa |
---|---|
adi | aditza |
adilok | aditz-lokuzioa |
adj | adjektiboa |
det | determinatzailea |
ior | izenordaina |
izearr | izen arrunta |
izepib | pertsona-izena |
izelib | leku-izena |
izeizb | erakunde-izena |
lbt | laburtzapena |
lotjnt | juntagailua |
lotlok | lokailua |
esr | esaera |
esk | esklamazioa |
prt | partikula |
ono | onomatopeia |
tit | titulua |
KASUA
abs | absolutiboa |
---|---|
abl | ablatiboa |
ala | adlatiboa |
ban | banatzailea |
dat | datiboa |
des | destinatiboa |
erg | ergatiboa |
abz | hurbiltze-adlatiboa |
ine | inesiboa |
ins | instrumentala |
gel | leku-genitiboa |
mot | motibatiboa |
abu | muga-adlatiboa |
par | partitiboa |
psp | postposizioa |
pro | prolatiboa |
soz | soziatiboa |
MUGATASUNA/NUMEROA
mg | mugagabea |
---|---|
ms | mugatu singularra |
mp | mugatu plurala |
mph | mugatu plural hurbila |
ADITZ MOTA
da | da |
---|---|
du | du |
dio | dio |
zaio | zaio |
da-du | da-du |
du-zaio | du-zaio |
dio-zaio | dio-zaio |
da-zaio | da-zaio |
du-dio | du-dio |
da-zaio-du | da-zaio-du |
da-zaio-du-dio | da-zaio-du-dio |