2014
|
|
Euskaldunon
|
hizkuntza
prozesamendurako ere datu interesgarria hauxe?
|
|
Euskarazko egitura konplexuen azterketa egiteko, corpusetan oinarritzen gara.Orain arte erabili ditugun corpusak Euskararen Prozesamendurako ErreferentziaCorpusa (EPEC) (Aduriz et al., 2006a), Consumer corpusa (Alcazar, 2005) etaEuskal Wikipedia9 dira. Azken hori corpusa ez den arren, testu multzo handia daeta
|
hizkuntzaren
prozesamenduko hainbat atazatan erabilia izan da. Corpus horietanagertzen ez diren egituren azterketa egiteko EGLU gramatikak erabili ditugu.
|
|
Ikerketa lan hau1 2
|
Hizkuntzaren
Prozesamenduaren alorrean kokatzen da (hemendikaurrera HP), Euskal Herriko Unibertsitateko Informatika Fakultateko IXA Taldearen3jardunaren barruan eta zehazki, baliabideak sortzeko atalean. Azkenaldian hainmodan dagoen corpus based edo corpus driven linguistic delakoaren barnean sartzenda bete betean eta zehatzago, corpusetan oinarritutako lexikografian (Hanks, 2012).
|
|
|
hizkuntzaren
prozesamendu automatikoan ikertzen diren hainbat atazatan, hala nolasintaxi mailako desanbiguazioa edo hizkuntzaren ulermena, eta era berean, aplikazioaurreratuen (itzulpen automatikoa, galderak sortzeko sistemak, etab.) emaitzakhobetzeko erabil daitezke. Hizkuntzalaritza teorikoan, aldiz, fenomeno linguistikoenazterketarako balia daitezke horrelako baliabideak baita hizkuntzen arteko aldeakaztertzeko ere (Estarrona et al., 2013).
|
2015
|
|
Testu bat prozesatzen, normalean, testua hainbat programak exekutatzen dute, batak bestearen atzetik. Programa horiei
|
hizkuntzaren
prozesamendurako modulu (HP modulu) deitzen diegu. Normalean, HP moduluek kate bat osatzen dute, modulu bakoitzaren irteera hurrengoaren sarrera izanik.
|
|
Hitz gakoak: Big data,
|
hizkuntzaren
prozesamendua, sistema banatuak
|
|
|
Hizkuntzaren
prozesamenduaren (HP) arloan ere gaurkotasun handiko gaia da big dataren kontzeptua.HPn testuak prozesatzen dira, informazio linguistikoaz baliatuz hainbat aplikazio lortzeko. Itzultzaileautomatikoena da HParen aplikazio garrantzitsuenetako bat.
|
|
Hitz anitzeko unitateek edo unitate fraseologikoek (UFek) egiteko giltzarria dute, hiztegigintzan eta hizkuntzen irakaskuntzan ez ezik,
|
hizkuntzaren
prozesamendu automatikoan ere (Sag et al., 2010). Gauregun aski onartua dago hizkuntzaren funtzionamendua ezin dela osagai bakunen konbinazio libreaz soilikazaldu, hiztunek erabiltzen dituzten elementu batzuk nolabaiteko unitate aurrez eratuak baitira (Fillmo re, 1979, 92).
|
|
Ikerketa honen ekarpenak baliagarriak dira etorkizuneko hiztegigintzak automatizaziorantz izangoduen bilakabidean, eta
|
hizkuntzaren
prozesamenduko arloko zenbait atazatan, hala nola datu base lexikalen elikatzean, corpusen etiketatzean eta, testuinguru eleaniztunean aplikatuta, itzulpen automatikoan.
|
|
Hitz gakoak: Izen aipamenen Desanbiguazioa,
|
Hizkuntzaren
Prozesamendua, Wikipedia
|
|
Hitz gakoak: aipamen detekzioa, korreferentzia ebazpena,
|
hizkuntzaren
prozesamendua
|
|
Hitz gakoak:
|
Hizkuntzaren
prozesamendua, termino kliniko, osasun txosten elebidun, SNOMED CT
|
|
CliniTermServer egokitzeko hizkuntza bakoitzerako tokenizatzailea eta lematizatzailea txertatu beharizan ditugu: gaztelaniaren kasuan
|
hizkuntzaren
prozesamendurako Freeling kode irekiko liburutegiaren3.1 (Padro eta Stanilovsky, 2012) bertsioa erabili dugu eta euskararako IXA taldeak garaturiko Eustagger etiketatzaile/ lematizatzailea (Ezeiza et al., 1998). Informatikaren alorrean liburutegi bat programenkodea idazteko eskuragarri dauden prozedura edo programen multzoa da, eta hori kode irekikoa izanik, libreki erabiltzeko edota aldatzeko aukera ematen du, kostu ekonomikorik gabe, betiere jatorriarierreferentzia eginik.
|
|
Argi dago hizkuntzaren sorkuntza automatikoak berebiziko garrantzia duela
|
hizkuntzaren
prozesamenduan, eta horren adibide dira atal honetan aurkezten ditugun lanak edo baliabideak.
|
|
Madrazo Azpiazu, Jon. 2013
|
Hizkuntzaren
prozesamendurako teknikak irakaskuntza arloan: galderasortzaile automatikoa.
|
|
Hitz gakoak:
|
Hizkuntzaren
Prozesamendua, euskarazko hitz konbinazioak, gaztelaniazko hitzkonbinazioak, fraseologia, itzulpengintza
|
|
Lan honetatik eratorritako emaitza guztiak eskuragarri daude sarean, eta edozein erabiltzailek duaukera aztertu ditugun hitz konbinazioen gainean bilaketak egiteko. Izan ere, hitz konbinazioak hainfenomeno linguistiko konplexua izanik, sortu dugun baliabidea erabilgarria izango delakoan gaude,
|
Hizkuntzaren
Prozesamenduan dabiltzanentzat ez ezik, baita bestelako hainbat erabiltzailerentzat ere, hizkuntzalariak, itzultzaileak eta euskara ikasleak tarteko.
|
|
|
Hizkuntzaren
prozesamenduan (HP) balio handikoa da denbora informazioa, horrek kokatzen baititutestuko gertaerak kronologian edo horien iraupena adierazten baitu. Erauzitako informazio horigertaerak noiz jazo diren jakiteko baliatu ahal izango da, baita gertaerak denboran zehar ordenatuedo etorkizunean zer gertatuko den aurrikusteko.
|
|
Hitz gakoak: Denbora informazioa,
|
hizkuntzaren
prozesamendua, corpusa, markaketa lengoaia
|
|
Azken urteetan denbora informazioaren analisia ikerketa ildo nabarmena bilakatu da
|
hizkuntzaren
prozesamenduaren (HP) esparruan; esaterako, TempEval lehiaketen( (Verhagen et al. 2007, 2010) eta (UzZaman et al., 2012)) helburua informazio hori prozesatzeko sistemak sortzea izan da, denbora egiturak edoerlazioak erauzteko sistemak, adibidez. Denbora informazioa erauzteko, testuko gertaerak identifikatubehar dira, hala nola denborako uneak eta tarteak adierazten dituzten egiturak eta horiek erlazionatukodituzten erlazio egiturak.
|
|
Kronologiako unea, gertaera eta horien arteko erlazioa identifikatzeko prozesu hori automatikoki eginahal izateko,
|
hizkuntzaren
prozesamendua egin behar da. Denbora informazioaren analisi eta prozesamendua egiteko hainbat baliabide nagusi garatu behar dira:
|
|
Hizkuntzaren Teoria Motorraren arabera,
|
hizkuntzaren
prozesamenduak prozesamendu motorreandu bere jatorria. Teoria hau frogatu nahian, mugimenduen prozesamenduari lotutako hainbat ezaugarrihizkuntzaren prozesamenduan ere ari dira aurkitzen.
|
|
Hitz gakoak: ispilu neuronak,
|
hizkuntz
prozesamendua, mu uhina, Hizkuntzaren Teoria Motorra
|
|
Hizkuntzaren Teoria Motorra aurkeztu zenetik (Liberman eta Mattingly, 1985) hizkuntzarenprozesamenduaren ikerketan prozesamendu motorrean ikertzen diren hainbat ezaugarri ikertzenhasi dira, horien artean, mu uhinak. Teoria honek
|
hizkuntzaren
prozesamendua etaprozesamendu motorra hainbat mailatan erlazionatzen ditu: maila fonetikoan, semantikoan, etab.
|
|
EEG (elektroentzefalografia) esperimentu honetan
|
hizkuntzaren
prozesamendua aztertzen dafuntzio motorrei dagozkien garun eremuetan. Honetarako, garunak sortzen dituen mu uhinendesinkronizazioa aztertzen dugu perpausak prozesatzean.
|
|
Liberman eta bere kideek Hizketaren Hautematearen Teoria Motorra aurkeztu zutenean (Liberman et al., 1967; Liberman eta Mattingly, 1985),
|
hizkuntza
prozesamendua etaprozesamendu motorra fonetika mailatik lotu zituzten. Teoriak dio hizkuntza hautematerakoanjasotzen ditugun objektuak fonemak ahoskatzerakoan kateatzen ditugun mugimendu edotakeinuak direla.
|
|
Denborarekin prozesamendu motorra eta
|
hizkuntz
prozesamendua prozesamendu hierarkikobezala identifikatu dira (Pastra eta Aloimonos, 2012; Pulvermuller, 2010; Pulvermuller etaFadiga, 2010). Hala, antzeko prozesu diren unetik, antzeko errekurtsoak erabil ditzaketelapentsatzen da.
|
|
Epe luzera, hizkuntza eta sistema motorraren elkarreraginak sakonago aztertzera bultzatzengaitu. Ikerketa bide honek,
|
hizkuntzaren
prozesamendua ulertzen laguntzeaz gain, burmuinarenfuntzionamendua osoki hobeto ulertzen lagun diezaguke. Etorkizunera, burmuina ulertzea dugugaixotasun neurologoikoei aurre egiteko modu bakarra, eta ikerketa alor honek sistema motornahiz hizkuntzazkoan eragiten duten gaixotasunak aztertzen beren eraginak samurtu ahalizateko.
|
2017
|
|
Aurkikuntza honek, hartara, hizkuntzalaritzarentzat eta harekin lotutako hainbatalderdirentzat ondorioak izan ditzake: hizkuntzalaritza historikorako,
|
hizkuntza
prozesamendurako, itzulpengintzarako, hizkuntza jabekuntzarako eta abarretarako. ANTk, gainera, zuzenean inoizlekukotu ez diren hizkuntzen berreraikuntza ahalbidetzen du.
|
|
|
Hizkuntzaren
Prozesamenduak testuetako informazioaren erauzketa eta analisia du helburu. Lan honetaneuskarazko ezeztapenaren analisia eta etiketatzea aurkezten ditugu, denbora informazioaren prozesamenduan osagarri gisa, ezeztapenak gertaeren faktualitatearen ebazpena eta gertaera horietako entitateenparte hartzea baldintzatzen baititu.
|
|
Hitz gakoak:
|
Hizkuntzaren
Prozesamendua, ezeztapena, denbora informazioa, etiketatzea
|
|
UFak fenomeno arazotsua dira
|
Hizkuntzaren
Prozesamendurako; hitz batez baino gehiagoz osatuta daude, baina ez dira beti konposizionalak esanahiari dagokionez eta, hortaz, hitz konbinazio osoa hartu behar dakontuan hizkuntza tresna aurreratuek ondo prozesa ditzaten (Sag et al., 2002). Halako hitz konbinazioaktestuetan identifikatze hutsa nahiko lan nekeza izaten da, askotan ezaugarri morfosintaktiko malguakizaten dituztelako eta, ondorioz, ez delako nahikoa hiztegietan begiratu eta hitz batez baino gehiagozosatutako sarrerak testuetan hitz segida finkoak balira bezala bilatzea.
|
|
Bi balio bakarrik har ditzaketen atributuentzat, identifikaziorako bezala, sailkatzaile bitarrak erabili dira. Gainerakoentzat, berriz, multiclass motakoak.Sailkatzaileen eraikuntzarako baliatutako algoritmoa Support Vector Machines SVM (Cortes eta Vapnik, 1995) izan da,
|
hizkuntzaren
prozesamenduko ataza askori algoritmo hau ongi egokitzen zaiela jakinadelako. Sailkatzaileak garatzeko jarraian aurkezten diren ezaugarri linguistikoak erabiltzen dira.
|
|
Hitz gakoak:
|
Hizkuntzaren
prozesamendua, adimen artifiziala, semantika, euskara
|
|
Zerrendatutako teorietatik,
|
hizkuntzaren
prozesamenduak, historian zehar, Davidsonek proposatutakoa jarraitu izan du (2). Izan ere, semantika konputazionalean perpausak adierazteko teoria honetanoinarritzen den semantika neo davidsondarra (Parsons, 1990) erabili ohi da.
|
|
Izan ere, semantika konputazionalean perpausak adierazteko teoria honetanoinarritzen den semantika neo davidsondarra (Parsons, 1990) erabili ohi da. Hortaz,
|
hizkuntzaren
prozesamenduan, eta ondorioz guretzat, gertaeraren definizioa teoria honek proposatzen duena izango da: denboran eta espazioan kokatua dagoen eta kausa jakin baten ondorioz eragin jakin bat sortzen duenjazoera.
|
|
Predikatu kontzeptuaren bi definizio ezberdin hauen arteko bereizketa egiteko, azken aldian, egungoteoria gramatikalak predikatuari predikatzailea deitzen hasi zaizkio. Dena den, eta gure predikatuarenulermena egungo teorietatik badator ere, ez diogu predikatuari predikatzaile deituko, predikatu baizik,
|
hizkuntzaren
prozesamenduan horrela deitu izan zaiolako.
|
|
Argumentuek eta adjuntuek gertaeren hainbat propietateren berri ematen dute; besteak beste, gertaerak denboran kokatzen laguntzen dute. Jakina denez,
|
hizkuntzaren
prozesamenduan rol semantikoen etiketatze automatikoaz arduratzen den atazak, SRL deitutakoak, argumentuak eta adjuntuak, eta ondorioz propietate hauek, detektatzeko gaitasuna dauka.Esan beharra dago, hala ere, SRLk ematen duen gertaeren inguruko informazio tenporala mugatua dela, eta interesgarria dela, gure ustez behintzat, informazio erauzketa sistemetarako adibidez, gertaereninguruko informaz... Hori erdiestekoISO TimeML (Pustejovsky et al., 2010) estandarrean oinarritutako bEVENT etiketatzailea garatu dugu.ISO TimeML testuetako denbora informazioa etiketatzeko sortutako anotazio eskema eta hizkuntza da.Anotazio eskemak hizkuntza naturaleko informazio linguistikoa nola markatu edo bildu behar den ezartzen duten formalismoak dira.
|
|
|
Hizkuntzaren
prozesamenduan ohikoak diren teknikak aplikatu ditugu datuotatik patroiak ikasi eta aurretik ikusi gabeko poemetan aplikatu ahal izateko. Aurretik garatutako Gervas (2000); Hartman (2005) eta Agirrezabal et al. (2016b) sistemen emaitzak erabiltzen ditugu oinarri lerrotzat (lehena gazteleraz etabeste biak ingelesez).
|
|
Lan honetan poesiaren eskantsioa, hau da, poemetako egitura erritmikoaren erauztea, burutzen duguautomatikoki. Horretarako
|
hizkuntzaren
prozesamenduko ohiko teknikak eta sare neuronaletan oinarritutakoak erabili ditugu. Esperimentazioa bi hizkuntzarekin egin dugu, ingelesarekin eta gaztelerarekin.Emaitzen arabera, sare neuronalekin lortu ditugu emaitza onenak, bi hizkuntzetan.
|
|
Uneko hizkuntzari buruzko informaziorik izan gabe egitura prosodiko hau erauzteko, tradizio poetikoezberdinen azterketa tipologiko bat egitea beharrezkoa dela uste dugu. Bide horretan lehen pausuak emateko ikerlan hau aurkezten dugu, non poesiaren egitura prosodikoa automatikoki aztertzen dugun
|
hizkuntzaren
prozesamenduko oinarrizko algoritmo batzuk erabilita. Metodo hauek ingelesezko eta gaztelerazkopoemetan aplikatu ditugu emaitza onak lortuaz, eta gure egungo erronka lanok euskarara aplikatzea da.
|
|
Lan honetan
|
Hizkuntzaren
Prozesamenduaren alorreko bi ikerketa lerro aurkezten ditugu: 1) semantikadistribuzionala eta bektore espazioen konbinaketa, eta, 2) testu lotura eta honek irakaskuntzan duenerabilgarritasuna.
|
|
Hitz gakoak:
|
Hizkuntzaren
Prozesamendua, Semantika Distribuzionala, Bektore espazioak, Testuloturak
|
|
Lan hau
|
Hizkuntzaren
Prozesamenduaren (HP) esparruan kokatzen da, ingelesez Natural Language Processing gisa ezagutzen den arloan. Ikerketa lerro zeharo zabala dugu HPa, hainbat diziplina konbinatzenbaititu, bereziki:
|
2019
|
|
Honela, euskararen egoera ezagutzetik gertuago egoteko aukera edukikoda, ikerketa teknika tradizionalen osagarria izango den begirada berria eskainiz. Helburu horretarako
|
Hizkuntzaren
prozesamenduko tekniketan oinarritu gara, informatikako teknologiak gizarte ikerkuntzan aplikatuz. Gizartezientzien eta konputazio zientzien arteko konbinazioan kokatzen da lan honen ekarpen nagusia, aurrerapen teknologikoetan eta informazio mugagabean oinarritutako egungo gizartea interpretatzen eta ulertzen lagunduko duensinbiosia.
|
|
Hirugarrenik eta azkenik, gazte eta helduen harremanak nola ematen diren argitu da, bi talde ezberdinen errealitatea zein den erakutsiz. Lan honekin, frogatuta geratzen da gizarte zientzia eta konputazio zientzienarteko konbinaketa aberasgarria dela,
|
Hizkuntzaren
Prozesamenduko teknikak aplikatuz, ezaugarri demografikoakiradoki edota komunitateen azterketa bezalako atazak burutu daitezkeela erakutsi delarik.
|
|
Sarean gero eta iritzi testu gehiago daude, iritzi positiboa edo negatiboa izan dezaketenak, eta horiek automatikoki prozesatzeko beharra sortu da, eskuz egitea lan nekeza delako.
|
Hizkuntza
Prozesamenduan, lexikoianoinarritzen diren tresnak daude eta esaldi edo testu bat positiboa edo negatiboa den esaten dute. Lexikoian, hitzek[] (balorazio oso negatiboa) eta[+ 5] (balorazio oso positiboa) arteko sentimendu balentzia dute.
|
|
Bestalde, ikerlerro honek ikuspegi berritu bat ekarriko lukeKAren eta elebitasunaren azterketa orokorrera, bi hizkuntzen fonologiak aldi berean nola erabiltzendiren ikertzeko datu adierazgarriak eskainiko lituzke eta. Hau ikusita, iruditzen zaigu azpimarratzekoadela KAren azterketak fenomeno linguistiko orokorragoei buruz datu berriak emateko duen gaitasuna.Horretarako, baina, beharrezkoa litzateke KAren azterketa beste arlo batzuetako ikerlanarekinuztartzea, hala nola fonologian, hizkuntzaren jabekuntzan eta
|
hizkuntzaren
prozesamenduan egitenden lanarekin.
|
|
|
Hizkuntzaren
Prozesamenduko (HP) ataza nagusietako bat testuetako informazioa automatikoki erauztea da. Horretarako, tresna automatikoak garatu behar dira eta, askotan, horiek garatzeko oinarrian ikasketa algoritmoakdaude.
|
|
Fraseologia mailan etiketatutako corpus bat oinarritzat hartuta, Unitate Fraseologikoen agerpen literalez jardundugu lan honetan, eta erakutsi dugu halako agerpenak urre baina urri direla. Izan ere, urre dira batetik,
|
Hizkuntzaren
Prozesamenduko tresnek behar beharrezkoa dutelako esanahi idiomatikoak eta literalak bereiztea, tresnalinguistikoek taxuzko emaitzak sortuko badituzte. Baina bestetik, urri dira, corpusak erakusten baitu oso gutxitanerabiltzen direla literalki praktikan.
|
|
|
Hizkuntzaren
Prozesamendura etorrita, lan asko egin da UFen inguruan, erronka zaila baita halakoak konputazionalki ondo tratatzea (Constant et al., 2017). Agerpen idiomatikoen eta literalen arteko bereizketak sekulakogarrantzia du HPn, bereizketa horren araberakoa baita tresna automatiko askoren kalitatea.
|
|
Esanahi idiomatikoen eta literalen arteko bereizketak hizkuntzalaritzako eta psikolinguistikako hainbat ikertzaileren arreta piztu du, eta
|
Hizkuntzaren
Prozesamenduko (HP) erronkarik handienetakotzat hartzen da gauregun, halakoakkonputazionalki desberdintzeaertz askoko lanabaita (Constant et al., 2017). Hain zuzen ere, PARSEME proiektu europarrak (Savary et al., 2015) fraseologia konputazionalaren arloko ikertzaileak bildu nahi izanditu, UFek HPn sortzen dituzten zailtasunei nola aurre egin ikertzeko.
|
|
Azkenik, euskarazko corpusa handitzeaz eta arkitektura aldatzeaz gain, hizkuntza arteko sistema bat eraiki daiteke (Kundu et al., 2018; Cruz et al., 2018); baliabide askoko hizkuntza batean (ingelesean adibidez) korreferentzia ebazpenerako sistema bat entrenatuz, eta ondoren sistema hau euskarako korreferentziaebazpenerako baliatuz. Hizkuntza batetik ikasitako ezagutza bigarren hizkuntza bati aplikatuta emaitza onak lortubaitira
|
hizkuntzaren
prozesamenduko ataza ezberdinetan.
|
|
|
Hizkuntzaren
prozesamendua (NLP Natural Language Processing) informatika, adimen artifiziala eta hizkuntzalaritza diziplinen arteko arloa da. Hizkuntzaren ulermena behar duten hizkuntzaren prozesamenduko atazetankorreferentzia ebazpena oinarrizko urratsa da.
|
|
Hizkuntzaren prozesamendua (NLP Natural Language Processing) informatika, adimen artifiziala eta hizkuntzalaritza diziplinen arteko arloa da. Hizkuntzaren ulermena behar duten
|
hizkuntzaren
prozesamenduko atazetankorreferentzia ebazpena oinarrizko urratsa da.
|
|
Korreferentzia ebazpen automatikoa garrantzitsutzat jotzen da, oro har, testu ulermen sakona dakarren
|
hizkuntzaren
prozesamenduko ataza oro burutzeko (Clark, 2015). Besteak beste, informazio erauzketan, testuenlaburpenean, galdera erantzun sistemetan, sentimenduen analisian eta itzulpen automatikoan aplikatzen da.
|
|
Azken urteetan
|
hizkuntzaren
prozesamenduan neurona sareek arrakasta handia izan dute, eta korreferentziaebazpenean ere, artearen egoeran emaitzarik onenak lortzen dituzten sistemek, teknologia hori darabilte. Neuronasareetan oinarritutako sistema gehienek ikasketa automatikoko sistemen antzera funtzionatzen dute, ikasteko etasailkatzeko atalak neurona sareekin ordezkatuz.
|