2002
|
|
Morfemetan oinarritutako sistemetan bi prozesaketa mota agertzen dira nagusiki:
|
egoera
finituetako morfotaktika deituko duguna eta baterakuntza mekanismoetan oinarritutakoak. Lehenengoetan morfemen arteko erlazioak grafo eran ikus daitezke, nodoak morfemak eta arkuak onartutako kateatzeak direla.
|
|
Analisirako tresna da eta ez du sorkuntzarako aplikaziorik. .
|
Egoera
finituetako morfotaktika erabiltzen du, morfema motetan oinarritua.
|
|
Espainierarako MARS (Meya, 1987) izeneko analizatzaile morfologikoak antz handia du DECOMP sistemarekin, ezaugarri guztiak, analisia egin ahala burututako desanbiguazioa barne, pareka baitaitezke: analisirako bakarrik balio izatea,
|
egoera
finituetako morfotaktika, aldaketa morfofonologikoak oso erregela sinpleen bidez nahiz eta arlo honetan DECOMPekin desberdintasunak izan, eta lexikoan morfemei dagozkien erregelei buruzko informazioa ere gordetzea. Lexikoan alomorfoak erabiltzen dira beren aldaketari dagokion erregela morfofonologikoa orokorra ez denean.
|
|
Suomierarako prestatu bazuen ere, berehala etorri zen KIMMO8 izeneko ingeleserako bertsioa, Karttunen ek (1983) egina. Aldaketa morfofonologikoak adierazteko
|
egoera
finituetako automata itzultzaileetan konpilatzen diren bi mailatako erregela paraleloak erabiltzen dira. Formalismo hau da euskararako oinarrizko tresnak diseinatzerakoan IXA taldeak aukeratu duena ere.
|
|
. Aldaketa morfofonologikoak. Gorago aipatu den bezala, sistemaren atalik berritzaileena da hau,
|
egoera
finituetako automaten ideia modu arrakastatsuan erabiltzen duelako xede honetarako.
|
|
1983an Koskenniemik bi mailatako morfologiaren eredu konputazionala definitu zuen, aurreko sailkapenean KIMMO izenarekin aipatu duguna.
|
Egoera
finituetako morfologiari bultzada handia eman zion eredu honek harrera bikaina jaso du ondoko urteetan, besteak beste, dituen ezaugarri hauengatik:
|
|
Bi mailatako erregelek errepresentazio lexikoaren eta azalekoaren artean parekatzea kontrolatzen dute. Erregelak
|
egoera
finituetako automata itzultzaile (FST) 13 paralelo bihurtzen dira, eta karaktere bikoteak onartuko dira baldin eta automata guztietan onartzen badira. Bi errepresentazioen artean, lexikokoaren eta azalekoaren artean hain zuzen, ez dago tarteko egoerarik, eta hauxe da fonologia sortzailearekiko desberdintasun nagusia.
|
|
Aipatu den bezala, Koskenniemik proposatutakoaren (morfo) fonologia eredu honen aurretik Kaplan-ek eta Kay k (1981) berridazketa erregeletan oinarritutako beste eredu bat proposatu zuten, erregela sekuentzialena, hain zuzen ere. Beren ereduan ere, erregelak
|
egoera
finituetako itzultzaileetan konpilatzen ziren14, eta, ondorioz, analisi zein sorkuntzarako balio zuen.
|
|
13
|
Egoera
finituetako itzultzaile (Finite State Transducer FST) eta egoera finituetako automata (Finite State Automaton FSA) baten artean dagoen desberdintasuna hau da: FSAren alfabetoko osagaiak sinbolo sinpleak diren bitartean, FSTarenak bikoteak dira.
|
|
13 Egoera finituetako itzultzaile (Finite State Transducer FST) eta
|
egoera
finituetako automata (Finite State Automaton FSA) baten artean dagoen desberdintasuna hau da: FSAren alfabetoko osagaiak sinbolo sinpleak diren bitartean, FSTarenak bikoteak dira.
|
|
4 irudia.
|
Egoera
finituetako itzultzaile ordenatu eta paraleloen arteko konparaketa
|
|
4 irudian konputazioaren aldetik bi ereduen artean dagoen desberdintasuna azaltzen da: alegia, bi sistemetan, erregelak
|
egoera
finituetako itzultzaile bihurtu arren, bi mailatako morfologian itzultzaile baino gehiago bikote kontrolatzaileak dira.
|
|
Koskenniemik proposatutako eredu honen funtsezko ezaugarria
|
egoera
finituetakoa izatea da, horrek eraginkortasuna areagotzen du-eta. Ereduaren atal konplexuena erregela multzoa da, baina, ahalmena handia izan arren, grafo edo automata15 bihur daitezke; beraz, egoera finituetakoa ere bada atal hau.
|
|
Koskenniemik proposatutako eredu honen funtsezko ezaugarria egoera finituetakoa izatea da, horrek eraginkortasuna areagotzen du-eta. Ereduaren atal konplexuena erregela multzoa da, baina, ahalmena handia izan arren, grafo edo automata15 bihur daitezke; beraz,
|
egoera
finituetakoa ere bada atal hau.
|
|
Erregelatik
|
egoera
finituetako automatara edo itzultzailera16 iragan ahal izateko konpiladoreak daude, baina, interesgarria da eskuz nola egiten den jakitea, erregela mota desberdinen esanahia hobeto ulertu ahal izateko.
|
|
l: i bikote bat bada, a: b ezkerreko testuingurua eta c: d eskuinekoa, ikus ditzagun lau erregela motak eta dagozkien
|
egoera
finituetako itzultzaileak. Ondoko konbentzioak hartu ditugu kontuan:
|
|
. Azala eta ohiko lexiko mailaren arteko aldaketak bi mailatako morfologiari dagozkion
|
egoera
finituetako itzultzaileen bidez gobernatzen dira. Horretarako twolc konpiladorea erabil daiteke.
|
|
ik.
|
egoera
finituak
|
|
|
egoera
finituak
|
|
Grafoetan oinarritutako konputazio eredu sinplea eta, ondorioz, azkarra programaren abiaduraren aldetik. Hizkuntza teknologietan
|
egoera
finituetako eredua kontrajartzen zaio baterakuntza mekanismoari, azken hau konplexuagoa eta, ondorioz, motelagoa izanik. Sintaxiaren eredu klasikoak baterakuntzan oinarritzen dira, egoera finituekin ezin baitira fenomeno sintaktiko guztiak adierazi.
|
|
Hizkuntza teknologietan egoera finituetako eredua kontrajartzen zaio baterakuntza mekanismoari, azken hau konplexuagoa eta, ondorioz, motelagoa izanik. Sintaxiaren eredu klasikoak baterakuntzan oinarritzen dira,
|
egoera
finituekin ezin baitira fenomeno sintaktiko guztiak adierazi. Dena den, egoera finituetan oinarritutako tresnak erabiltzen dira gaur egun tratamendu sintaktiko partziala burutzeko.
|
|
Sintaxiaren eredu klasikoak baterakuntzan oinarritzen dira, egoera finituekin ezin baitira fenomeno sintaktiko guztiak adierazi. Dena den,
|
egoera
finituetan oinarritutako tresnak erabiltzen dira gaur egun tratamendu sintaktiko partziala burutzeko.
|
2009
|
|
4.3 irudia. TCP
|
egoera
finituko makina, RFC 793 agirian agertzen den bezala.
|
2014
|
|
Hurrengo hilabeteetarako aurreikusi ditugun lanak dira arkitekturaren modulueninplementazioarekin jarraitzea eta azterketa linguistikoa sakontzea. Adibidez, DAR moduluaren inplementazioa egiteko,
|
egoera
finituko teknologia erabili nahidugu eta esaldien eta hitzen hurrenkeraren zehaztapena egiteko hizkuntzalaritzakobeste arloetan egiten diren lanak aztertu nahi ditugu. Etorkizunean, behin azterketasintaktikoa amaituta, sinplifikazio lexikalarekin hasteko asmoa dugu.
|
2015
|
|
Artikulu honetan euskarazko korreferentziak ebazteko sistema baten garapena azaltzen da. Leheniketa behin, azterketa linguistiko batean oinarritutako aipamen detektatzaile automatikoa aurkezten dugu.Sistema hori erregelatan oinarritutakoa da, eta
|
egoera
finituko teknologia erabiliz inplementatu da.Behin testuko aipamenak detektatuta, beraien artean gertatzen diren korreferentzia erlazioak ebaztendituen sistema ere garatu dugu. Horretarako, ingeleserako diseinatu den sistema eraginkor bat oinarritzathartu, eta euskararen ezaugarrietara egokitu da.
|
|
Aurreprozesaketan erabilitako tresna hauek guztiak Lengoaia Naturalaren Prozesamendurakotresna orokorrak dira eta beraz zehazki ez dira aipamenen detekzioa egiteko sortuak izan. Ondorioz, tresnahauen emaitzetatik lortzen diren aipamenen mugak ez dira erabat zuzenak, eta doitze lana eskatzen dute.Horretarako 34 erregela definitu dira eskuz eta erregela horiek konpilatuz 12
|
Egoera
Finituko Transduktoreak (Finite State Transducers, FST) lortu dira. Egoera Finituko Teknologia erabiliz datu multzo handiak azkareta memoria gutxi kontsumituz prozesa daitezke.
|
|
Ondorioz, tresnahauen emaitzetatik lortzen diren aipamenen mugak ez dira erabat zuzenak, eta doitze lana eskatzen dute.Horretarako 34 erregela definitu dira eskuz eta erregela horiek konpilatuz 12 Egoera Finituko Transduktoreak (Finite State Transducers, FST) lortu dira.
|
Egoera
Finituko Teknologia erabiliz datu multzo handiak azkareta memoria gutxi kontsumituz prozesa daitezke. Foma (Hulden, 2009), automata eta transduktoreekin lanegiteko aukera eskaintzen duen kode irekiko tresna, erabili dugu erregelak definitu eta transduktoreak lortzeko.
|
|
PATR II (Gojenola, 2000) eta Euskarako Dependentzia Gramatika Konputazionala (EDGK) (Aranzabe, 2008) ditugu besteak beste. PATRII TGG sinplea da eta EDGK
|
egoera
finituko mekanismoetan oinarritzen da. Gainera, teknika probabilistikoetan oinarritutako sintaxian, Maltixa izeneko gramatika estatistikoa (Bengoetxea, 2015) aurkidezakegu.
|