Tres estudiants de doctorat de l’Escola Superior d’Enginyeria Industrial, Aeroespacial i Audiovisual de Terrassa (ESEIAAT) de la Universitat Politècnica de Catalunya · BarcelonaTech (UPC) han dissenyat un algoritme de detecció automàtica de neologismes que ha resultat guanyador del segon premi de la hackathon “Neologismos y tecnicismos en el ámbito energético y mediambiental”, organitzat per la Real Academia de la Lengua Española (RAE) i la Fundación Endesa.
Els doctorands de l’ESEIAAT Pol Fontanes, del Lightning Research Group (LRG) de la UPC, i Víctor Martínez i Eva María Urbano, ambdós del grup de recerca Motion Control and Industrial Applications (MCIA), han estat guardonats pel seu projecte Algoritmo de Detección Automática de Neologismos (ADAN) de la UPC. El premi obtingut, dotat amb 1.500 euros, l’han guanyat a la hakaton “Neologismos y tecnicismos en el ámbito energético y mediambiental”, organitzada el passat mes de maig per la Real Academia de la Lengua Española i la Fundación Endesa , en la qual van participar, via telemàtica, més de 400 persones. El repte, que forma part del projecte Lengua Española e Inteligencia Artificial (LEIA) de la RAE, consistia a proposar en un temps de 24 hores idees i projectes d’intel·ligència artificial per a l’estudi de neologismes i tecnicismes en el sector energètic i mediambiental.
Els treballs dels participants havien de resoldre qüestions com ara quines són les paraules d’ús més recent en el sector, quins tecnicismes s’utilitzen, quines han passat ja a l’ús mes general, quins estrangerismes són els més freqüents, i si existeixen alternatives en espanyol a aquests estrangerismes.
Intel·ligència artificial
El sistema ADAN es basa en la utilització d’algoritmes d’intel·ligència artificial i big data per processar texts i identificar les paraules susceptibles de ser neologismes. Per aconseguir-ho, ADAN fa ús de tècniques anomenades de Natural Language Processing (NLP) amb les que és capaç d’analitzar morfològicament, sintàctica i semàntica els texts en busca dels neologismes i estrangerismes, els significats dels quals són inferits pel context en cas de ser desconeguts.
ADAN treballa sobre un corpus de les publicacions científiques en espanyol més recents en l’àmbit de l’energia i el medi ambient, així com els articles científics divulgatius i publicats a la premsa especialitzada del sector. D’aquesta manera, el sistema capta l’aparició d’aquests nous termes tan aviat com aquests entren en ús tot realitzant també la traçabilitat de la freqüència de les seves aparicions. Tal com explica Eva Maria Urbano, “els algoritmes que hem utilitzat es recolzen en consultes a bases de coneixement i eines de traducció, que dedueixen si les paraules identificades inicialment com a neologismes són ja àmpliament acceptades com una paraula de llengua espanyola o, ben al contrari, es tracta d’anglicismes o tecnicismes, dels quals s’han de proposar alternatives en espanyol o bé analitzar el seu significat segons el context.”
Urbano afegeix que “abans de començar a treballar, la RAE ens va fer veure la importància de generar estratègies intel·ligents per assegurar un enteniment correcte entre la màquina i la persona; així podrem avançar cap la integració de la tecnologia sense deixar de banda la riquesa del llenguatge”.
El jurat de la hackató ha valorat el grau de finalització, l’originalitat, l’exhaustivitat, l’automaticitat i la dificultat tècnica de les eines del projecte, així com la viabilitat, el disseny i la usabilitat de les mateixes .
En paraules de Santiago Muñoz Machado, director de la RAE: “els neologismes són un assumpte important, perquè envaeixen amb molta velocitat el terreny de les ciències i les noves tecnologies […] Cada dia les màquines parlen més i hi ha un nombre major de màquines que parlen i fan servir un idioma que no és necessàriament el que ha normativitzat la RAE, sinó que és l’idioma que han determinat el seus fabricants.”