2002
|
|
Berba jardunean, hitzak eta esaldiak ez dira kate bateko begi isolatuak; aitzitik,
|
hitz
bakoitzak bere eragina du bere ondokoan eta esaldi bakoitzak berea hurrengoan nahiz aurrekoan. Berba jarduna prozesu bat da, bere osotasunean hausnartzen ez baldin bada, erabat ulertzen ez dena.
|
|
Morfologiaren eta sintaxiaren artean tagging edo etiketatze izeneko prozesua burutu ohi da, forma bakoitzari dagokion informazio guztia esleituz; ondoren, testuinguruaren informazioan oinarrituta,
|
hitz
bakoitzari analisi egoki bakarra utziko zaio. Analisien artean bat hautatzeko prozedurari desanbiguazio morfologikoa esaten zaio.
|
2005
|
|
Goiko tonuak eta behekoak erabiliz. Hortara, entzulea berehala jabetuko da esatariak ematen dion informazioaren zentzu zehatzaz,
|
hitz
bakoitzean erabiliko dituen tonu maila ezberdinek argibide ezin hobea ematen diolako entzulearen belarriari.
|
2007
|
|
Bestetik, hizkuntza beti herri historiko eta hizkera konkretuen formetan agertzen da, agertu. Hizkuntzak, eta
|
hitz
bakoitzak, bi elementu duela osagarri, esango du Humboldt-ek:
|
|
Humboldt-ek (1825) iruzkin luze bat idatzi dio Schlegel-i, Langlois ren kritikei ere puntuz puntu jaramon eginez. Printzipioz, dio?, itzulpeneko
|
hitz
bakoitzean originalekoak asmagarria izan behar luke. Egia da, testu hindua Schlegel-en itzulpenean bakarrik ezagutzen duenak, kontzeptu hinduen ezagutzarik duela eskuratu.
|
|
Logosak komunitateko abereak egiten gaitu, taldekoak soil gabe (ardiak edo inurriak legez). Gure ahoko
|
hitz
bakoitzean
|
|
oihartzuna durundiatzen da. Mintzatzen dugun
|
hitz
bakoitzean hildakoak entzuten dira, arbasoak. Garaikide biziak mintzo dira, familia, non ere baitugu hitz egiten ikasi; lagunak, zeintzuekin ere komunikatu ohi baikara, hitz horiekin elkar ulertuz eta mundua geureganatuz.
|
|
Aje naturalen puntu hau bukatzeko, bada: aditza egoki eraikia badago, frasea txukuna izanen da,
|
hitz
bakoitzak erritmoaren barruan bere tinkotasunari eutsiko dio eta esaerak hitz guztiak behar bezala bereizi eta elkarri lotuko dizkio, sintesia betegina da, pentsamendua eta espresioa betakorki elkarraiutuak? «organismo dohatsu» hori hizkuntza flexiboetan bakarrik da osoki erdiestekoa643 Orduan:
|
|
Mundua, zer ere den bera, hizkuntzaren barruan da. Eta horregatik bakarrik izan daiteke eta da diferentea gizakiaren kasuan banako bakoitzarentzat (bakoitzari modu diferentean soinu egiten dio
|
hitz
bakoitzean hizkuntza osoaren hondo hark, hots, munduak), eta da diferentea hizkuntz komunitate bakoitzarentzat, hizkuntza bakoitzak bestela egin duelako, hitzak edo zer selekzionatu bakanak baino gehiago, erlazioen sare osoa, ahaidetasun, oposizio, barne eta azpibilketen sistema.
|
2008
|
|
– Esaldiko
|
hitz
bakoitzeko kolpe bat eman.
|
|
Hizkuntzaren soinuen segidan jartzen da arreta, eta gero eta unitate txikiagotan zatitzen da segida hori. Unitate alfabetikoetan jartzen denean arreta, segmentu fonemikoz osaturik ikusten da
|
hitz
bakoitza; grafemen eta fonemen ezagutzari eta egokitzapenari ematen zaio garrantzia; hau da, letren segidari eta faktore fonologikoei begiratzen zaie. Letra gehienen formak eta izenak edo soinuak ikasten dituzte haurrek fase horretan.
|
|
3 hitzak izeneko fitxategi batean hitz bat dago lerro bakoitzeko. Kontatu zenbat hitz diferente dauden eta
|
hitz
bakoitzaren maiztasuna. Eman emaitza maiztasunaren arabera (maiztasun handienekoak hasieran):
|
|
for (i= 1; i <= NF; i++) #
|
hitz
bakoitzeko
|
2009
|
|
Programatzean, askotan errepikatu behar izaten dira zenbait eragiketa: egin hau erabiltzaileak teklatutik datuak idatzi bitartean; egin hori fitxategiko
|
hitz
bakoitzeko; egin hura array ko elementu bakoitzari; etab. Atal honetan agindu bloke bat nahi adina aldiz errepikatzeko Perl ek eskaintzen dituen tresnak aztertuko ditugu, programazio lengoaien ingurunean iterazio egitura edo begiztak deiturikoak.
|
|
Ariketa interesgarria da hurrengo hau: sarrera bezala testu bat jaso, eta testuko hitzak bistaratuko ditugu banan banan,
|
hitz
bakoitzak testuan duen agerpen kopuruarekin batera. Programak komando lerrotik argumentu bakarra jasoko du:
|
|
fitxategia lerroz lerro irakurri, bukaerako lerro jauzi karakterea kendu, split() funtzioarekin lerroa hitzetan banatu eta @hitzak array an gorde. Ondoren, array ko
|
hitz
bakoitza indibidualki tratatuko du programak foreach begizta erabiliz.
|
|
Berrikuntza
|
hitz
bakoitzaren prozesamenduan dator:
|
|
2.1 $lerro string ean aurkitzen duen
|
hitz
bakoitzeko 2.1.1 Gorde hitza $hitza aldagaian
|
|
Aurreko ariketan karaktereekin egindakoa, hitzekin egingo du oraingo programak: sarrera datu gisa fitxategi izena jaso eta bertako
|
hitz
bakoitzaren agerpen kopurua kontatu. Emaitzak agerpen kopuruaren arabera ordenatuta bistaratuko ditu, handienetik txikienera, hitz bakoitzeko honako informazioa erakutsiz:
|
|
sarrera datu gisa fitxategi izena jaso eta bertako hitz bakoitzaren agerpen kopurua kontatu. Emaitzak agerpen kopuruaren arabera ordenatuta bistaratuko ditu, handienetik txikienera,
|
hitz
bakoitzeko honako informazioa erakutsiz: hitza bera, bere agerpen kopurua edo maiztasuna, eta maiztasun erlatiboa.
|
2014
|
|
Aurreneko hirurak corpus historikoak dira, gure idazleek (klasikoek eta ez hainklasikoek)
|
hitz
bakoitza non, nola eta noiz erabili izan duten erakusten digutena.Azken hirurek, berriz, gaur egungo hizkuntzaren erabilera jasotzen dute.
|
|
Beharra baino gehiago erauzteko ahalmena izanez gero, gehigarri horieijaramonik ez egitea tokatuko zaigu. Adibidez, Freelingek gaztelaniarako analisiaegiterakoan,
|
hitz
bakoitzaren generoa ematen du. Oro har, hori ez da beharrezkoaeuskarara itzultzeko, eta beraz, ezikusi egiten da1 Analizatzaile berri batek zeingutxieneko informazio erauzi behar duen ezarri dugu lehenbizi, eta ondoren, aukeranagusietatik bat hautatu dugu.
|
|
–
|
hitz
bakoitzaren forma,
|
|
–
|
hitz
bakoitzaren lema,
|
|
–
|
hitz
bakoitzaren kategoria gramatikala2,
|
|
ea zerrendako zenbat gauza oroitzen dituzun. Gogoratutako
|
hitz
bakoitzeko puntu bat ematen da.
|
|
Ea zerrendako zenbat hitz gogoratzen dituzun. Gogoratutako
|
hitz
bakoitzeko puntu bat ematen da. Ez dago denbora mugarik:
|
2015
|
|
Ausazko ibilbideak konbergitzean, sarrerako
|
hitz
bakoitzari PRP k probabilitateez osaturiko bektore (PPB) bat esleitzen dio, eta bektore hori da, hain zuzen, hitzaren esanahia adieraziko duena. 4 irudiakgrafikoki adierazten du grafo sinple batean PPB pisuak zeintzuk liratekeen.
|
|
Sailkatzailea entrenatzeko, txio bakoitzaren ezaugarri linguistikoak behar ditugu, sailkatzaileak hauetatik ikas dezan. Horretarako, txioak tokenizatu ditugu, beste era batera esanda, hitzen banaketa bategin, eta
|
hitz
bakoitzaren lema, kategoria gramatikala eta entitate izen mota eskuratu. Ezaugarri linguistikoen sorkuntza Stanfordeko CoreNLP tresnaren7 8 bidez egin dugu.
|
|
3 taulak aurretik jarri dugun txioaren ezaugarriak irudikatzen ditu, lehenengo zutabeak txioko hitzaadierazten du, eta beste zutabeetan
|
hitz
bakoitzaren lema, kategoria gramatikala, entitate izen mota etakategoria ageri dira. Kategoria ezagutza baseko argumentua da.
|
|
Gure esperimentuetarako erabilitako sailkatzailea \Baldintzazko hausazko eremua" da (BHE, ingelesez, Conditional Random Field9). Sailkatzaile hau etiketatze sekuentzialean oinarritzen da, eta
|
hitz
bakoitzaren inguruko hitzak aztertzen ditu datu multzoa entrenatzean, baita hitz baten etiketairagartzean ere. Aukeratutako BHE sailkatzailea Stanfordeko CoreNLP tresnarena da.
|
|
a argumentuaren izena da eta i argumentuaren iragarpen potentziala. Txio bakoitzean, sailkatzaileakiragarpen probabilitate bat (p) ematen dio
|
hitz
bakoitzari argumentu bakoitzeko. P aldagaiak iragarpenprobabilitate guztiak multzokatzen ditu, a argumenturako.
|
|
Azkenik, comer con apetito bezalakoak konbinazio libretzat hartu ditugu, gure ustez hitz segidaohikoak baitira, berezitasun morfologiko, sintaktiko edo semantikorik gabeak. Hortaz, teorian, ez dutetratamendu berezirik behar,
|
hitz
bakoitzari dagokion ordaina emanda itzulpen onargarriak lortu beharkobailirateke.
|
2017
|
|
Guk erabiltzen dugun Lampleet al. (2016) laneko ereduak bi mailatan egiten du lan. Lehenik eta behin
|
hitz
bakoitza modelatzen dubere karaktereen arabera, horrekin hitzaren zenbakizko errepresentazio bat sortuz (hainbat zenbaki izanohi ditu honek). Honekin, hitz bakoitzaren informazioa (sasi informazio linguistikoa) zenbaki sekuentziabaten bidez adieraziko da, lehen mailako informazioa.
|
|
Lehenik eta behin hitz bakoitza modelatzen dubere karaktereen arabera, horrekin hitzaren zenbakizko errepresentazio bat sortuz (hainbat zenbaki izanohi ditu honek). Honekin,
|
hitz
bakoitzaren informazioa (sasi informazio linguistikoa) zenbaki sekuentziabaten bidez adieraziko da, lehen mailako informazioa. Esaldian daukagun hitz bakoitzarentzako, aurreikuspen bat sortu behar dugu eta horretarako uneko hitzaz haratago, testuinguruaren informazioa izateakberebiziko garrantzia du.
|
|
Honekin, hitz bakoitzaren informazioa (sasi informazio linguistikoa) zenbaki sekuentziabaten bidez adieraziko da, lehen mailako informazioa. Esaldian daukagun
|
hitz
bakoitzarentzako, aurreikuspen bat sortu behar dugu eta horretarako uneko hitzaz haratago, testuinguruaren informazioa izateakberebiziko garrantzia du. Adibidez, ondorengo adibideko lehen kasuan,
|
|
1 Irudia: silaba kopurua
|
hitz
bakoitzeko ingelesez eta gazteleraz erabili ditugun corpusetatikkalkulatuta.
|
|
Eta berazinstalatu eta, 130 hitzak itzultzen zituzten. Hori egin eta,
|
hitz
bakoitzean, interesgarria zen fonemabaztertua zen Praat i esker eta Script en bidez, bai iraupena, bai energia baita ere formakinen heinakateratzen ziren. Ondotik IBM SPSS Statistics 19 logizielaren bidez akustikoki aztertu nahi izan diraateratako datuak.
|
|
Aipatutako neurona sareek
|
hitz
bakoitzari bi bektore esleituko dizkio; hitz moduan dituen ezaugarrisemantikoak gordetzen dituena (W espazioan), eta testuinguruko hitz moduan dituen ezaugarriak dituena (C espazioan). 1 ataleko nomenklaturari jarraiki, bi espazioak V x d tamainakoak dira.
|
|
Sistema hiru azpiataletan antolatuta dagoen neurona sare konplexuen konbinazioan oinarritzen da, jarraian deskribatzen ditugu atal hauek guztiak: lehen azpiatalean, atentzioa deritzona, sarrerako esaldiparea irakurtzen da eta
|
hitz
bakoitza dagokion EBarekin lotzen da. Ondoren, hitzen EBak konbinatuegiten dira neural attention delako teknika baten bitartez (eragiketa aljebraikoetan oinarrituta).
|
2019
|
|
Azkenaldian kode alternantzia ikertu duten hainbat lanen arabera, sistema fonologiko bakarraerabili dezakegu hiztunok
|
hitz
bakoitzaren errealizazio fonetikoan, eta ondorioz ezinezkoa da hitzbakarrean hizkuntza ezberdinetako elementuak txertatzea (MacSwan, 2005; MacSwan eta Colina, 2014). Alabaina, euskara eta gaztelaniaren arteko kode alternantzia hitz barnean ere ematen da, etahori dela eta, sistema fonologikoak ez daudela guztiz bereizita eta sistemen artean interakzioa egondaitekeela proposatzen dugu.
|
|
bezala. Sareen ikuspegitik
|
hitz
bakoitza token independente bat denez, sareak ez ditu ikusten euskarazgertatzen diren hitzen arteko erlazioak, euskararen prozesamendu automatikoa zailduz. Hasiera batean behintzat, sarearentzat, haurrarengatik?
|