2008
|
|
Bide sublexikoak hiru prozesu biltzen ditu:
|
hitzaren
errepresentazioa fonematan zatitu, fonema bakoitza grafema bihurtu, eta grafemen segida eratu eta gordailu grafemikoan gorde.
|
|
– Subjektuak ez du lexiko ortografikoko
|
hitzaren
errepresentaziora sarbiderik.
|
|
Idatzi behar duen
|
hitzaren
errepresentazio lexikoa baldin badu idatziko du hitza.
|
|
Idatzi nahi den
|
hitzaren
errepresentazio ortografikoa eskuratzeko aipaturiko bi bide horietako bat edo bi bideak erabil daitezke. Bi bideak erabiltzen ditu idazle gaituak.
|
|
Bide fonologikoan edo zeharkako bidean, fonematik grafemarako aldaketa eginez lortzen da hitzaren ortografia. Bide zuzenean edo lexikoan, aldiz, zuzenean lortzen da
|
hitzaren
errepresentazio ortografikoa. Batera egin dezakete lan bide lexikoak eta bide fonologikoak.
|
2014
|
|
Lengoaiaren eta
|
hitzaren
errepresentazio funtzioarekin zerikusia dauka esanahiak. Komunikazioa, identifikazioa, lurraldetasuna, lengoaiaren lurraldetasuna.
|
2015
|
|
Gure antzekotasun ebaluazioetan PPB ekin lortutakoen emaitzak berdindu ditugu, baina milaka dimentsioko bektoreak barik askoz trinkoagoak (300dimentsiokoak) erabilita. Are gehiago,
|
hitzen
errepresentazio horien informazioa sare neuronaletan etaezagutza baseetan oinarritutakoekin osagarria da, eta, ondorioz, azken horiek banaka erabilita baino emaitza hobeak lortzen ditugu. Beraz, gure metodo berri honek ateak irekitzen dizkio orain arte banatutaegon diren bi estrategia horien konbinaketei.
|
2017
|
|
Bada, hizkuntza ereduek ele jakin bateko hitzen sekuentzien tasun estatistikoak jasotzen dituzte; aurreko berbak jakinik, hurrengoa aurresateko gai dira. Gauzak horrela, NSHEak neurona sareetanoinarritutako hizkuntza ereduak dira, eta neuronen aktibazioak
|
hitzen
errepresentazio distribuzionalak (esanahiak) legez erabiltzen dituzte. Corpus bat prozesatu ostean, berba bakoitzari d dimentsiotakobektore bat esleitzen diote; hain zuzen, errepresentazio horiek dira EBak, balio eskalarrez beteriko bektoretrinkoak.
|
2019
|
|
Beste aukera bat straight through Gumbel softmax (Bengio et al., 2013; Jang et al., 2016) zenbateslearen bidez gradientearen hurbilketa bat egitea da, Lu et al. (2017) eta Shetty et al. (2017) autoreekerakusten duten moduan. Azkenik, lan honetako autoreek guztiz diferentziagarria den sare sortzaile aurkari bataurkeztu berri dute (Lopez Zorrilla et al., 2019) 4,
|
hitzen
errepresentazio bektorial hurbilduak erabiltzen dituena, ondoren azalduko dugun moduan.
|
|
Sare sortzailea sekuentziatik sekuentziarako sare bat da, long short term memory (LSTM) (Hochreiter eta Schmidhuber, 1997) kodetzaile eta deskodetzaile errekurrente independenteekin (Sutskever et al., 2014) eta arretamodulu batekin (Bahdanau et al., 2015; Luong et al., 2015). Sare honek T luzera arbitrarioko
|
hitzen
errepresentazio bektorialen (Mikolov et al., 2013) segida bat hartuko du sarrera moduan: v= v1, v2,..., vT.
|
|
Irteera zenbat eta baxuagoa, orduan eta gizatiarragoa izango da erantzuna, sarearen irizpidearenarabera. Bi sarrerak, berriz ere,
|
hitzen
errepresentazio bektorialen moduan hartuko ditu sareak.
|
|
Sare sortzailearen geruzak 1.028 zelda dituzte, eta diskriminatzailearenak 128 Adam optimizazio metodoa (Kingma eta Ba, 2014) erabiliko dugu 3.2 ataleko hiru galera funtzioak minimizatzeko, 512 tamainako batch akerabiliz.
|
Hitzen
errepresentazio bektorialak Fastext metodologiarekin hasieratuko dira. Sare sortzailea 50.000iteraziotan zehar entrenatuko dugu, ikasketa begizta hasi baino lehen.
|
|
non v erabiltzailearen mezuaren
|
hitzen
errepresentazio bektorialen segida den, u erantzunarena, l erantzuna pertsona batena edo sare sortzailearena den adierazten duen eskalarra, eta a diskriminatzailearen irteera. Berriro ere, a-k v eta u rekiko duen mendekotasuna ez dugu esplizituki adierazi.
|
|
Honek
|
hitzen
errepresentazioa zailtzen du bi sareen sarreran, baita sare sortzailearen irteeran ere. Sareen sarreretan, hitzen egituran arreta jartzen duten errepresentazio bektorialak erabiliko ditugu hitzen arteko erlazio horieksortzeko, Fastext (Bojanowski et al., 2016) esate baterako.
|
|
Ezaugarri horien artean, aipamen bakoitzeko
|
hitzen
errepresentazio distribuzionalak dira nagusi. Hitzen errepresentazio distribuzionalak, hitzen esanahia gordetzen duten zenbakiz osatutako bektoreak dira, eta generoa, numeroa, eta beste hainbat ezaugarri biltzen dituzte.
|
|
Ezaugarri horien artean, aipamen bakoitzeko hitzen errepresentazio distribuzionalak dira nagusi.
|
Hitzen
errepresentazio distribuzionalak, hitzen esanahia gordetzen duten zenbakiz osatutako bektoreak dira, eta generoa, numeroa, eta beste hainbat ezaugarri biltzen dituzte. 2 irudian ikus dezakegunez, antzeko hitzak espazio bereanmultzokatzen dira, eta animalia eta hauen hotsen arteko erlazioak (txakur zaunka, asto arrantza), eta aditz formaezberdinenak (etorri etortzen, ikasi ikasten) biltzeko gai dira.
|