Testuinguruan

Bilaketa

dist.

non

lema/forma

nola

bilaketa

kategoria

Iragazkiak

Mota/Gaia

Euskalkia

Itzulpena

Erregistroa

Ordena

Formularioa garbitu

Emaitzak: 15

2009
	‎Hizkuntza ezberdinetako testu corpusak dauzkagu, eta hizkuntza bakoitzaren ezaugarri nagusiak atera nahi	ditugu corpus horietatik abiatuta. Honako ezaugarriak dira batez ere interesatzen zaizkigunak:
2014
	‎BASYQUE aplikazioaren garapenaz haratago, proiektu honen helburunagusia hizkeren (eta batez ere Iparraldeko hizkeren) azterketa eta prozesamenduabideratzeko azpiegiturak prestatzea, irizpideak finkatzea eta baliabideak sortzeada, Iparraldeko hizkeren ezaugarriak eta berezitasunak jasotzen dituen datu basesendo bat osatzeko eta, ondoren, informazio hori oinarri hartuta, aldaki dialektalentratamendu automatikoa bideratu ahal izateko. Izan ere, hizkuntza bariazioarenalorrak piztu duen interesa ikusita eta teknologia berrien garapenak HizkuntzarenAzterketa eta Prozesamenduaren (HAP) alorrean eskaintzen dizkigun abantailak etabitartekoak baliatuz, izaera dialektala	duten corpusak (testu bildumak) aztertu etaautomatikoki tratatzeko tresnak garatzea gure hizkuntza komunitaterako ekarpeninteresgarria dela iruditzen zaigu. Beraz, artikulu honetan BASYQUE aplikazioarenezaugarriak eta aplikazioak eskaintzen dituen aukerak erakustera mugatuko garenarren, aplikazio hori helburu zabalagoak dituen proiektu handiago baten barruankokatzen dela esan beharra dugu.
2015
	‎Aipatutako guztiak kontuan izanik, atera daitekeen ondorioa argia da: euskarak ere Web asCorpus planteamendua baliatu behar	du corpusak egiteko.
	‎Corpusetan oinarritutako metodoek, nolabaiteko polaritate anotazioa behar dute lexikoak erauzteko.Bi hurbilpen nagusi daude multzo honetan: lehena, polaritate ezaguna duten hitz batzuetatik abiatuta, corpusetan hitz horien semantikoki antzekoak diren hitzak aurkitzean datza (Turney eta Littman, 2003). Bigarrena, polaritatea markatuta	duen corpus batean oinarrituz, positiboenak zein negatiboenak direnhitzen zerrendak lortzea (Saralegi eta San Vicente, 2012)
	‎Estrategia egokiena litzateke anotatutako corpus bat hartuta adibide positiboa eta negatiboak banatzea. Tamalez, ez dago euskaraz horrelako anotaziorik	duen corpusik, eta erdibideko hurbilpen batera jobehar izan dugu, testu sub jektiboak eta objektiboak bereizita dituen corpus bat baliatuz. Horrelako corpus bat eraikitzeko estrategia merke bat hartu dugu Berriako artiku bilduma batetik CBerria abiatuta: Iritzi artikuluak subjetibotzat hartu dira, eta gainerakoak objektibotzat (CBerria) (Saralegi et al., 2013). 2 Taulak corpus horren neurriak eta erauzketaren datuak azaltzen ditu.
	‎Estrategia egokiena litzateke anotatutako corpus bat hartuta adibide positiboa eta negatiboak banatzea. Tamalez, ez dago euskaraz horrelako anotaziorik duen corpusik, eta erdibideko hurbilpen batera jobehar izan dugu, testu sub jektiboak eta objektiboak bereizita	dituen corpus bat baliatuz. Horrelako corpus bat eraikitzeko estrategia merke bat hartu dugu Berriako artiku bilduma batetik CBerria abiatuta: Iritzi artikuluak subjetibotzat hartu dira, eta gainerakoak objektibotzat (CBerria) (Saralegi et al., 2013). 2 Taulak corpus horren neurriak eta erauzketaren datuak azaltzen ditu.
	‎Albiste guztiak gai berariburuzkoak dira, testu barruko zein testu kanpoko informazioaren kudeaketa eta, nagusiki, gertaerenordena zehaztea baita etorkizuneko helburuetako bat. Egun, ez	dugu corpus homogeneorik eskaintzerik, anotazio fase bakoitzean dokumentu sorta bat baino ez baita erabili.
	‎Artikulu honek alemanetik euskaratutako unitate fraseologikoen itzulpena izango du aztergai. Horiegin ahal izateko, 3,5 milioi hitz inguru	dituen corpus digitalizatu, lerrokatu eta eleanitza sortudugu, AleuskaPhraseo corpusa, alegia. Itzulpen moduak hau da, sorburu eta xede testuaren artekoharremanak berebiziko garrantzia dauka gure kasuan, itzulpen asko batez ere haur eta gazte literaturan (HGL) zeharka, zubi bertsio batetik abiatuta, egin izan direlako, eta egiten direlako.
2017
	‎Praat programa informatikoaren bitartez aztertu dira audioak wav formatuan, 44100 hertzetaneta mono aukeran. Denetara bost minutuko iraupena	du corpusak, bi minutu eta erdi dituelarik MaialenLujanbioren hizketaren grabazioak eta, beste hainbeste, Uxue Alberdiren atalak. Era berean, informatzaile bakoitzaren audioak erdia du bertsotan eginiko hizketa, eta beste erdia hitz lauzekoitzitakoa, azterketa eta datuen analisian metodologikoki ahal den parekoen izan dadin.
	‎Balioen aldakortasunari dagokionez, Uxue Alberdiren kasuan argi esan liteke hitz lauz ekoitzitakobokalen balioak aldakorragoak direla bertsoetakoak baino (hasierako hipotesia berretsiz), baina ezMaialen Lujanbioren kasuan. Bertsolarien arteko desberdintasunak (gorago aipatutakoak ere) zerkeragindakoak diren zehaztea ez da erraza, bi bertsolari soilik aztertu direnez, eta bost minutukoiraupena	duen corpusa, ezin baita seguru esan bokalismoan aurkitutako aldeak informatzailebakoitzaren ezaugarri pertsonalek, hizkerak edo lan honetan kontuan hartu ez den beste alderdirenbatek eragindakoak ote diren. Edonola ere, kontuan hartzekoa litzateke Maialen Lujanbioren hitzlauko ekoizpena paperean idatzitakoaren errezitaletik hurbil dagoela, eta Uxue Alberdirena, berriz, bat batean ekoitzitako hizketa formala dela.
	‎testu corpusak sortu behar dira. Euskarazko denbora informazioa kodetzeko, EusTimeML etiketatzelengoaia (Altuna et al., 2016) sortu dugu TimeML lengoaian (Pustejovsky et al., 2003) oinarrituta etadenbora informazioa	duen corpusa osatzen ari gara. 2 irudian ikus dezakegu EusTimeMLren bidez kodetuta 1 irudiko esaldiko denbora informazioa.
	‎Etiketatzea gainbegiratu ostean, ezeztapena etiketatuta	duen corpusa izango dugu. Tamainaz txikiada eta 33 ezeztapen baino ez dira aurkitu.
2019
	‎Euskarazko Iritzi Corpusa sortzeko erreferentziatzat SFU Review Corpus (Taboada, 2008) corpusa erabili dugu.Corpus hark dituen antzeko ezaugarriak	dituen corpusa eratu nahi izan dugu. Horrela, 240 iritzi testuko corpusbat sortu dugu eta iritziak sei gaien ingurukoak dira:
	‎Denbora informazioa automatikoki tratatzeko sistemek informazio linguistikoa etiketatuta	duten corpusak hartzendituzte oinarritzat. Hain zuzen ere, mota horretako corpusen bitartez tresna horiek entrenatu eta ebaluatu egitendira.
	‎–La Sexta Noche? telesailaren mintzagaien artean, politika, gertaera eta berriak zein eztabaidakmaiz agertzen direla kontuan hartuz eta esperimentu txiki batzuk aurre eginez, 10 emozio ezberdineko bildumasortu	genuen corpus hau etiketatzeko. Sortutako bildumarekin eredu kategoriko eta beste galdera batzuekin eredudimentzionalako galdetegia sortu genuen:

Emaitza gehiago eskuratzen...

Aldaerak

Lehen forma

Argitaratzailea

Konbinazioak (2 lema)

Konbinazioak (3 lema)

Urtea

Bilaketarako laguntza: adibideak

Oinarrizko galderak
katu	"katu" lema duten agerpen guztiak bilatu
!katuaren	"katuaren" formaren agerpenak bilatu
katu*	"katu" hasiera duten lema guztiak bilatzen ditu
!katu*	"katu" hasiera duten forma guztiak bilatzen ditu
*ganatu	"ganatu" bukaera duten lema guztiak bilatzen ditu
!*ganatu	"ganatu" bukaera duten forma guztiak bilatzen ditu
katu + handi	"katu" eta "handi" lemak jarraian bilatu
katu + !handia	"katu" lema eta "handia" forma jarraian bilatu
Distantziak
katu +3 handi	"katu" eta "handi" lemak 3 elementuetako distantzian bilatu
katu +2 !handia	"katu" lema eta "handia" forma 2 elementuetako distantzian bilatu
katu +2 !handi*	"katu" lema eta "handi"z hasten diren formak 2 elementuetako distantzian bilatu
Formen konbinazioa desberdinak
bero + handi \| asko	"bero" lema eta jarraian "handi" edo "asko" lemak bilatu
bero +2 !handi* \| !asko*	"bero" lema eta jarraian "handi"z edo "asko"z hasten diren formak
!bero + handi\|asko\|gutxi\|txiki	"bero" forma eta jarraian "handi", "asko", "gutxi", "txiki" lemak
Ezaugarri morfologikoekin
proba + m:adj	"proba" lema eta jarraian adjketibo bat
proba +2 m:adj	"proba" lema eta bi hitzetako distantziak adjektibo bat adjketibo bat
bero + handi\|asko + m:adi	"bero" lema jarraian "handi" edo "asko" eta jarraian aditz bat
proba + m:izearr-erg	"proba" lema eta ergatibo kasuan dagoen izen arrunta

Ezaugarri morfologikoak

KATEGORIA

adb	adberbioa
adi	aditza
adilok	aditz-lokuzioa
adj	adjektiboa
det	determinatzailea
ior	izenordaina
izearr	izen arrunta
izepib	pertsona-izena
izelib	leku-izena
izeizb	erakunde-izena
lbt	laburtzapena
lotjnt	juntagailua
lotlok	lokailua
esr	esaera
esk	esklamazioa
prt	partikula
ono	onomatopeia
tit	titulua

KASUA

abs	absolutiboa
abl	ablatiboa
ala	adlatiboa
ban	banatzailea
dat	datiboa
des	destinatiboa
erg	ergatiboa
abz	hurbiltze-adlatiboa
ine	inesiboa
ins	instrumentala
gel	leku-genitiboa
mot	motibatiboa
abu	muga-adlatiboa
par	partitiboa
psp	postposizioa
pro	prolatiboa
soz	soziatiboa

MUGATASUNA/NUMEROA

mg	mugagabea
ms	mugatu singularra
mp	mugatu plurala
mph	mugatu plural hurbila

ADITZ MOTA

da	da
du	du
dio	dio
zaio	zaio
da-du	da-du
du-zaio	du-zaio
dio-zaio	dio-zaio
da-zaio	da-zaio
du-dio	du-dio
da-zaio-du	da-zaio-du
da-zaio-du-dio	da-zaio-du-dio

ukan corpus bat	2 (0,01)
ukan corpus digitalizatu	1 (0,01)
ukan corpus egin	1 (0,01)
ukan corpus eratu	1 (0,01)
ukan corpus hau	1 (0,01)
ukan corpus homogeneo	1 (0,01)
ukan corpus horiek	1 (0,01)
ukan corpus osatu	1 (0,01)

duen	5 (0,03)
dituen	3 (0,02)
du	2 (0,01)
duten	2 (0,01)
ditugu	1 (0,01)
dugu	1 (0,01)
genuen	1 (0,01)