2015
|
|
Corpusetan oinarritutako metodoek, nolabaiteko polaritate anotazioa behar dute lexikoak erauzteko.Bi hurbilpen nagusi daude multzo honetan: lehena, polaritate ezaguna duten hitz batzuetatik abiatuta, corpusetan hitz horien semantikoki antzekoak diren hitzak aurkitzean datza (Turney eta Littman, 2003). Bigarrena, polaritatea markatuta
|
duen
corpus batean oinarrituz, positiboenak zein negatiboenak direnhitzen zerrendak lortzea (Saralegi eta San Vicente, 2012)
|
|
Estrategia egokiena litzateke anotatutako corpus bat hartuta adibide positiboa eta negatiboak banatzea. Tamalez, ez dago euskaraz horrelako anotaziorik
|
duen
corpusik, eta erdibideko hurbilpen batera jobehar izan dugu, testu sub jektiboak eta objektiboak bereizita dituen corpus bat baliatuz. Horrelako corpus bat eraikitzeko estrategia merke bat hartu dugu Berriako artiku bilduma batetik CBerria abiatuta: Iritzi artikuluak subjetibotzat hartu dira, eta gainerakoak objektibotzat (CBerria) (Saralegi et al., 2013). 2 Taulak corpus horren neurriak eta erauzketaren datuak azaltzen ditu.
|
|
IXAikerketa taldearen1 baitan egiten ari garen ikerketa da. Lanak helburu izango ditu euskarazko denboraegituren analisia, denbora informazioa batuko
|
duen
corpus baten sorrera eta denbora informazio horiprozesatuko duten tresnen garapena. Horretarako, nazioarteko NewsReader2 proiektuan egin dugunlana euskararako oinarritzat hartuko da eta bai IXA ikerketa taldean bai Italiako Fondazione BrunoKesslerren3 existitzen diren tresnak euskarazko denbora informazioa prozesatzeko egokituko dira edoberriak sortuko dira.
|
2017
|
|
Balioen aldakortasunari dagokionez, Uxue Alberdiren kasuan argi esan liteke hitz lauz ekoitzitakobokalen balioak aldakorragoak direla bertsoetakoak baino (hasierako hipotesia berretsiz), baina ezMaialen Lujanbioren kasuan. Bertsolarien arteko desberdintasunak (gorago aipatutakoak ere) zerkeragindakoak diren zehaztea ez da erraza, bi bertsolari soilik aztertu direnez, eta bost minutukoiraupena
|
duen
corpusa, ezin baita seguru esan bokalismoan aurkitutako aldeak informatzailebakoitzaren ezaugarri pertsonalek, hizkerak edo lan honetan kontuan hartu ez den beste alderdirenbatek eragindakoak ote diren. Edonola ere, kontuan hartzekoa litzateke Maialen Lujanbioren hitzlauko ekoizpena paperean idatzitakoaren errezitaletik hurbil dagoela, eta Uxue Alberdirena, berriz, bat batean ekoitzitako hizketa formala dela.
|
|
testu corpusak sortu behar dira. Euskarazko denbora informazioa kodetzeko, EusTimeML etiketatzelengoaia (Altuna et al., 2016) sortu dugu TimeML lengoaian (Pustejovsky et al., 2003) oinarrituta etadenbora informazioa
|
duen
corpusa osatzen ari gara. 2 irudian ikus dezakegu EusTimeMLren bidez kodetuta 1 irudiko esaldiko denbora informazioa.
|
|
Etiketatzea gainbegiratu ostean, ezeztapena etiketatuta
|
duen
corpusa izango dugu. Tamainaz txikiada eta 33 ezeztapen baino ez dira aurkitu.
|