Egungo Testuen Corpusa: 205 milioi berbarekin jolasean

Bizkor dabil euskarak inoiz izan duen corpusik handiena. 2001 eta 2011 bitarteko berbak jasotzen ditu, 7 probintzietakoak. Prosazkoak (liburuak, papereko agerkariak eta Wikipediakoak) eta kalitateagatik aukeratuak. Badira jatorriz euskaraz idatzitako testuak eta testu itzuliak ere. Iturriak eta urteak ere kontuan hartu izan dira, pisu antzekoa izan dezaten.

Corpusari tiraka hamaika lan egingo dira eta ona litzateke corpusak jarraipena izatea, esaterako, 2012ko berbak ere gehituz milioi horiei. Etorriko da. Akaso, bilaketak ematen dituen emaitzen embed kodeak ere ez lirateke txarto etorriko… Baina egindako lana ederra! Zorionak eta eskerrik asko EHU eta Goienarekin harremana izan duzuenoi.

Sartu ditut hainbat berba eta nire asmoa zen zenbat aldiz erabili ditugun hamar urteotan Goienan. eta bueno, kontuan hartzekoak:

– “Ekidin” 245 bider.
– “Igorri”: 590
– “Anitz”: 72 bakarrik.
– “Bermatu”: 802 aldiz.

Nik egin dut jolas 15 minutuan: asteko egunekin.  Egunero darabiltzadan astelehen, martitzen, eguazten, eguen, bariku, zapatu eta domekarekin. Euskara estandarreko parte diren horiekin, hain zuzen. Kuriosoa astelehenak (azkena jarri dut, aparte) dituen sarrera kopurua eta gainontzekoek dutena.

egunak

Oh.: Ordena: martitzenetik hasi eta astelehenarekin amaitu.

 

Utzi erantzuna

Zure e-posta helbidea ez da argitaratuko. Beharrezko eremuak * markatuta daude