Un estudi de la Universitat Pompeu Fabra (UPF) ha advertit que algunes de les eines d’IA generativa més populars, com les que fa servir el ChatGPT o o Gemini, estan contribuint a propagar formes no normatives del català i que la influència del castellà en el seu model d’entrenament n’és una de les principals causes. Els resultats del treball, que s’ha publicat en un article en català a la revista ‘Linguamática’, han donat un toc d’alerta als responsables de la política lingüística. Així, la investigació, ha demanat avaluar aquest fenomen i l’impacte que aquestes tecnologies poden tenir en el futur de la llengua per prendre decisions informades.
L’estudi ha explicat que els models lingüístics d’aquestes eines d’IA generativa estan esbiaixats, ja que afavoreixen l’ús de les estructures gramaticals i del lèxic de les llengües amb més parlants (anglès, espanyol…), que han constituït la base del seu entrenament.
Fins ara, diversos treballs n’havien constatat la preferència per les estructures en anglès, però aquesta recerca de la UPF ha estat pionera a demostrar que també existeix un biaix cap al castellà.
La investigadora Mireia Almena (UPF), coautora de l’article, ha afirmat que aquests models d’IA no només reprodueixen el llenguatge, sinó que també n’influeixen l’evolució i poden tenir un impacte molt més gran en llengües com el català, amb menys volum de contingut escrit en mitjans digitals.
Sis models de llenguatge
Els investigadors han analitzat sis models de llenguatge extensos similars als que fan servir algunes de les eines d’IA generativa més conegudes, com ChatGPT o Gemini. Quatre d’aquests models eren multilingües i dos, monolingües especialitzats en català. Cal tenir en compte que fins i tot els models monolingües han estat entrenats en altres llengües, ja sigui en etapes inicials del seu desenvolupament o bé de manera no intencionada, perquè no s’han pogut depurar adequadament les bases de dades que fonamenten el seu aprenentatge.
Concretament, s’han examinat les preferències d’aquests sis models cap a formes normatives i no normatives del català a partir d’un corpus d’avaluació de 160 oracions corresponents a vuit estructures gramaticals diferents, que solen plantejar dubtes pel que fa a l’ús de la preposició adequada.
Algunes d’aquestes oracions poden donar peu a usos no normatius del català per influència del castellà, per exemple en el cas de l’ús o no de preposició davant d’objecte directe. D’altres poden suscitar formes no normatives del català per factors aliens al castellà. Per exemple, es podria utilitzar incorrectament la preposició «de» en lloc de «a».
En aquest sentit, la recerca ha apuntat que, a l’hora de triar entre una preposició normativa i una de no normativa, les IA multilingües s’equivoquen en un 55 % dels casos per influència del castellà i només en un 4% dels casos per altres motius.
Els resultats també han mostrat que els models multilingües són els que utilitzen més formes no normatives del català per influència del castellà. La probabilitat que es desviïn del català normatiu per aquest motiu és del 55%, enfront del 27% dels models monolingües. En canvi, si s’examina la probabilitat mitjana de fer un ús no normatiu en català per altres motius, els resultats dels models monolingües i multilingües són similars i, en ambdós casos, se situen entorn del 4%.
L’altre autor del treball, Thomas Brochhagen, ha assenyalat que aquests resultats “mostren la importància de verificar les preferències lingüístiques dels models de llenguatge, especialment en llengües minoritàries, per tenir aquesta discussió de manera informada, elaborar polítiques lingüístiques que tinguin en compte l’impacte de les noves tecnologies i actuar en conseqüència”.


