Testuinguruan

Bilaketa

dist.

non

lema/forma

nola

bilaketa

kategoria

Iragazkiak

Mota/Gaia

Euskalkia

Itzulpena

Erregistroa

Ordena

Formularioa garbitu

Emaitzak: 16

2008
	‎Hizkuntza guztiak kontuan hartuta, ingelesaren agerrera erabat gailentzen da besteen aldean, bai kantitatez bai corpus moten aniztasunez. Bestalde, aitortu beharra dago	euskarazko corpusen erreferentziarik ez dela izaten horrelakoetan (ELDAren bidez banatzen direnak alde batera utzita).
	‎Erreferentzia corpusen garrantziaz ohartarazi gaituzte hainbat adituk (Leech 2002), eta, beharbada, alderdi hori da	euskarazko corpusetan dagoen gabezia nabarmenena. Azken urteetan, maiz hitz egiten da euskararen erreferentzia corpusaren proiektua egiteko dagoen premiaz.
	‎Aipatzekoa ere bada	euskarazko corpusen asmoa deskriptiboa dela.
	‎Atzerapen hori nagusiki erreferentzia corpusei dagokie, eta, nabarmen, tamainari. OEHTC eta XXMECE lorpen handiak izan dira, baina azpimarratzekoa da ez dagoela oraingoz	euskarazko corpus ‘erraldoirik’, eta neurri ‘txikiko’ baliabideak direla aitortu behar da. Ereduzko Prosa gaur da, tamaina aldetik, nabarmenena, baina ezin genezake erreferentzia corpustzat hartu (orekatu gabea da).
	‎Corpusen egituratzeeta prozesatze linguistikoa dela eta,	euskarazko corpus batzuek betetzen dituzte gaur egungo estandarrak. Adierazi dugu OEHTCn informazio linguistikoa (lema, kategoria...) ez izatea tamalgarria dela, baina geroztik egin diren testu corpus nagusietan behintzat ez da hutsegite hori berriz gertatu (XXMECE, ZTC, EPG...).
	‎Aipatzekoa ere bada	euskarazko corpusen asmoa deskriptiboa dela, batean izan ezik (EPG). Hizkuntza ereduari dagokionez, berrienak euskara batuari so daude (tresna automatikoak horrekin dabiltza hobekien), baina euskalkien eta beste barietate batzuen presentzia ere badago.
	‎Tresna horren bidez eratu dira, adibidez, Wacky proiektuaren barruko ItWaC eta DeWaC italierazko eta alemanezko corpusak, 2 mila milioi eta 1,7 mila milioi hitzekoak, hurrenez hurren. Gainera, Corpus building for minority languages gunean12, K. P. Scannell ek An Crúbadán web crawler aren bidez osatutako 419 hizkuntzaren corpusen berri ematen du, eta, horien artean,	euskarazko corpusen datu batzuk ematen ditu (Scannell 2007).
	‎Elhuyar Fundazioaren bi proiektu dira aipagarriak hemen, azaldu ditugun bi ikuspegietan oinarrituak. Lehena CorpEus proiektua da, Internet	euskarazko corpus erraldoi gisa baliatzea helburu duena (Leturia et al., 2007a). WebCorp eta horien antzeko zerbitzu bat ezarri da13, baina euskararen berezitasunei egokitua.
	‎Bigarrena Co3 proiektua da (Comparable Corpus Compiler), Internetetik corpusak osatzeko testuak automatikoki eratuko dituen tresna. Batez ere corpus eleaniztun konparagarriak lortzera bideratuta badago ere,	euskarazko corpus elebakarrak egiteko ere balioko du, bai corpus orokor handiak bai espezializatu txikiagoak14.
	‎Ahal dela, corpusak linguistikoki prozesatu behar dira, gero corpusetik informazio linguistikoa lortu ahal izateko. Prozesatze horren bidez, testuko formen lema, kategoria, kasua, funtzio sintaktikoa, adiera eta abar etiErreferentzia corpusen garrantziaz ohartarazi gaituzte hainbat adituk (Leech 2002), eta, beharbada, alderdi hori da	euskarazko corpusetan dagoen gabezia nabarmenena.
	‎Gainera, kontuan hartu behar da corpus batzuk diru publikoz osorik finantzatuak izan direla, eta ez dela erraz ulertzen corpus horiek ez askatzea (ikerkuntzarako, esaterako) edo lizentzia baten truke ustiapen komertzialerako eskuragarri ez jartzea. Horrek ez du	euskarazko corpusen erabilgarritasuna eta emankortasuna murriztu baizik egiten.
	‎Bestetik, gure azterketan nabaritu dugu mundu mailako ikusmiran	euskarazko corpusak ez direla nahikoa ‘ikusten’, hau da, corpusen eta hizkuntza teknologien erreferentzia gune ezagunetan oso informazio gutxi aurkitu dugu euskarazko baliabideez. Arazo hori ez da euskarazko corpusena bakarrik, noski; esaterako, P. Bilbaok salatu duenez, Europako hizkuntza politika ‘txarrak’, edo ezegokiak, Europa mailan" ikusgabe
	‎Bestetik, gure azterketan nabaritu dugu mundu mailako ikusmiran euskarazko corpusak ez direla nahikoa ‘ikusten’, hau da, corpusen eta hizkuntza teknologien erreferentzia gune ezagunetan oso informazio gutxi aurkitu dugu euskarazko baliabideez. Arazo hori ez da	euskarazko corpusena bakarrik, noski; esaterako, P. Bilbaok salatu duenez, Europako hizkuntza politika ‘txarrak’, edo ezegokiak, Europa mailan" ikusgabe
	‎Nolanahi ere, nabarmentzekoa da ikerketa talde eta erakunde batzuek egiten duten ahalegina	euskarazko corpusen eta, oro har, hizkuntza teknologien informazioa argitalpen eta biltzar espezializatuetan agertzeko. Horien denen bilduma luzeegia litzateke, baina artikulu honetan bildu dugun bibliografiak agerian jar dezake errealitate hori.
	‎Ikuspegieta tresna aniztasuna ez daitezela oztopo izan corpusgintzan ditugun premiei behar bezala ez erantzuteko. Hemendik urte batzuetara, artikulu honetan aurkeztu dugun grafikoa eguneratzen dugunean,	euskarazko corpus gehiago eta handiagoak ikusi nahi genituzke, eta, horien artean, euskararen erreferentzia corpusa. Badugu zeregina.❚
2022
	‎Lizardik eta Munduatek (2015) Goenkaleko hitanoaren erabilerari erreparatu zioten, azterketa sintaktikoa egite aldera. Basterretxeak (2021) gaztelaniazko eta euskarazko tratamenduak erkatzeko Goenkale erabili zuen	euskarazko corpus gisa.

Emaitza gehiago eskuratzen...

Aldaerak

Lehen forma

Argitaratzailea

Konbinazioak (2 lema)

Konbinazioak (3 lema)

Urtea

Bilaketarako laguntza: adibideak

Oinarrizko galderak
katu	"katu" lema duten agerpen guztiak bilatu
!katuaren	"katuaren" formaren agerpenak bilatu
katu*	"katu" hasiera duten lema guztiak bilatzen ditu
!katu*	"katu" hasiera duten forma guztiak bilatzen ditu
*ganatu	"ganatu" bukaera duten lema guztiak bilatzen ditu
!*ganatu	"ganatu" bukaera duten forma guztiak bilatzen ditu
katu + handi	"katu" eta "handi" lemak jarraian bilatu
katu + !handia	"katu" lema eta "handia" forma jarraian bilatu
Distantziak
katu +3 handi	"katu" eta "handi" lemak 3 elementuetako distantzian bilatu
katu +2 !handia	"katu" lema eta "handia" forma 2 elementuetako distantzian bilatu
katu +2 !handi*	"katu" lema eta "handi"z hasten diren formak 2 elementuetako distantzian bilatu
Formen konbinazioa desberdinak
bero + handi \| asko	"bero" lema eta jarraian "handi" edo "asko" lemak bilatu
bero +2 !handi* \| !asko*	"bero" lema eta jarraian "handi"z edo "asko"z hasten diren formak
!bero + handi\|asko\|gutxi\|txiki	"bero" forma eta jarraian "handi", "asko", "gutxi", "txiki" lemak
Ezaugarri morfologikoekin
proba + m:adj	"proba" lema eta jarraian adjketibo bat
proba +2 m:adj	"proba" lema eta bi hitzetako distantziak adjektibo bat adjketibo bat
bero + handi\|asko + m:adi	"bero" lema jarraian "handi" edo "asko" eta jarraian aditz bat
proba + m:izearr-erg	"proba" lema eta ergatibo kasuan dagoen izen arrunta

Ezaugarri morfologikoak

KATEGORIA

adb	adberbioa
adi	aditza
adilok	aditz-lokuzioa
adj	adjektiboa
det	determinatzailea
ior	izenordaina
izearr	izen arrunta
izepib	pertsona-izena
izelib	leku-izena
izeizb	erakunde-izena
lbt	laburtzapena
lotjnt	juntagailua
lotlok	lokailua
esr	esaera
esk	esklamazioa
prt	partikula
ono	onomatopeia
tit	titulua

KASUA

abs	absolutiboa
abl	ablatiboa
ala	adlatiboa
ban	banatzailea
dat	datiboa
des	destinatiboa
erg	ergatiboa
abz	hurbiltze-adlatiboa
ine	inesiboa
ins	instrumentala
gel	leku-genitiboa
mot	motibatiboa
abu	muga-adlatiboa
par	partitiboa
psp	postposizioa
pro	prolatiboa
soz	soziatiboa

MUGATASUNA/NUMEROA

mg	mugagabea
ms	mugatu singularra
mp	mugatu plurala
mph	mugatu plural hurbila

ADITZ MOTA

da	da
du	du
dio	dio
zaio	zaio
da-du	da-du
du-zaio	du-zaio
dio-zaio	dio-zaio
da-zaio	da-zaio
du-dio	du-dio
da-zaio-du	da-zaio-du
da-zaio-du-dio	da-zaio-du-dio

euskara corpus asmo	2 (0,01)
euskara corpus egon	2 (0,01)
euskara corpus bakarrik	1 (0,01)
euskara corpus batzuk	1 (0,01)
euskara corpus datu	1 (0,01)
euskara corpus elebakar	1 (0,01)
euskara corpus erabilgarritasun	1 (0,01)
euskara corpus erraldoi	1 (0,01)
euskara corpus erreferentzia	1 (0,01)
euskara corpus ez	1 (0,01)
euskara corpus gehiago	1 (0,01)
euskara corpus gisa	1 (0,01)