Dijous, 23 de setembre de 2021 - Edició 1155
La República

El Barcelona Supercomputing Center crea un sistema d’intel·ligència artificial expert en el castellà

ACN Barcelona.-El Barcelona Supercomputing Center (BSC) ha creat un sistema d’intel·ligència artificial expert en comprendre i escriure el castellà. El model, anomenat ‘MarIA’, ja està disponible per a desenvolupadors d’aplicacions, […]

Avatar
Agències 28/07/2021

ACN Barcelona.-El Barcelona Supercomputing Center (BSC) ha creat un sistema d’intel·ligència artificial expert en comprendre i escriure el castellà. El model, anomenat ‘MarIA’, ja està disponible per a desenvolupadors d’aplicacions, empreses i entitats i pot ser utilitzat sense cap cost per a múltiples funcionalitats, com ara correctors, predictors del llenguatge o motors de traducció i subtitulació automàtica, entre altres. El model s’ha entrenat al superordinador MareNostrum amb arxius de dades de la Biblioteca Nacional de España (BNE). El projecte s’ha finançat amb fons del Pla de Tecnologies del Llenguatge del Ministeri d’Afers Econòmics i Agenda Digital i del Future Computing Center, una iniciativa del BSC i IBM.

Així, el model MarIA és el primer model d’intel·ligència artificial massiu del castellà. El primer pas per crear-lo ha estat elaborar un corpus de paraules i frases i per a això es van utilitzar 59 terabytes de l’arxiu web de la Biblioteca Nacional. Per a crear-lo s’ha processat tota la documentació per eliminar tot allò que no fos text ben format, com números de pàgines, gràfics o altres idiomes, per exemple. Per a aquest cribratge i la seva posterior compilació van ser necessàries 6.910.000 hores de processadors del superordinador MareNostrum i els resultats van ser 201.080.084 documents nets, que ocupen un total de 570 gigabytes de text net i sense duplicitats.El corpus obtingut supera en diverses ordres de magnitud la mida i la qualitat dels corpus disponibles en l’actualitat. Un cop creat el corpus, els investigadors del BSC van utilitzar una tecnologia de xarxes neuronals. Els entrenaments consisteixen, entre d’altres tècniques, a presentar a la xarxa textos amb paraules ocultes, perquè aprengui a endevinar quina és la paraula amagada donat el seu context. Per a aquest entrenament han estat necessàries 184.000 hores de processador i més de 18.000 hores de GPU. Tot plegat fa que MarIA sigui un sistema entrenat per adquirir una comprensió de la llengua castellana, el seu lèxic i els seus mecanismes per expressar el significat i escriure a nivell d’expert. A més, és capaç d’entendre, no només conceptes abstractes, sinó també el seu context.