Datu orokorrak
2025eko martxoan argitaratutako EECren bertsioak 123.124 dokumentu, 154,21 milioi testu-hitz eta 129.817 lema desberdin biltzen ditu, 2000. urtetik hasi eta 2023ra bitartean euskaraz idatzitako edo ekoitzitako testuetatik datozenak. Testu hauek guztiak lematizatuak eta sailkatuak izan dira. Horrela, lema, forma eta kategoria gramatikalen bidezko kontsulta ahalbidetzen da. Baita metadatuen araberako iragazketa ere: gaia, euskalkia edo erabilera-erregistroa, adibidez.
Jatorriari erreparatuz, liburuetatik datozen testu-hitzak 68,42 milioi dira (% 44,37), aldizkako argitalpenetatik 72,49 milioi (% 47,01), sarerako berariaz idatzitakoak 4 milioi (% 2,59) eta bestelako edukiak (argitalpen bereziak, liburuxkak, gidoiak,...) 9,3 milioi (% 6,03).
Testu-motaren arabera, fikziozko testu-hitzak 39,67 milioi dira (% 25,73) eta ez-fikziozko testuak 114,54 milioi (% 74,27)
Kronologikoki, horrela banatzen da: 2000-2004, 11,18 milioi forma (% 7,25); 2005-2009, 28,27 milioi forma (% 18,33); 2010-2014, 38,03 milioi forma (% 24,66); 2015-2019, 39,81 milioi forma (% 25,82); eta, azkenik, 2020-2023, 36,92 milioi forma (% 23,94).
Proportzio horiek izateak erronka handiei erantzutea eskatzen du:
- Testu horien jabeak diren argitaletxe, erakunde eta komunikabideen eskuzabaltasuna gabe ezinezkoa litzateke. Gainera, horiekin guztiekin hitzarmenak sinatu behar dira, beren eskubideak bermatzeko.
- Testuak jaso eta formatu-egokitzapenak egiteko, testuen jabeak diren etxeetako teknikarien lankidetza ere ezinbestekoa izan da.
EECren bertsio hau, bide luze eta oparo baten lehen urratsa baino ez da. Urtero eguneratuko da, urte berrietako testuak gehituz eta aurreko urteetako hutsuneak osatuz, erreferentzialtasun ahalik eta handiena lortzeko helburuarekin.