Análisis computacional de textos
La UPV desarrolla, junto a Autoritas Consulting, una herramienta contra la pederastia que permite deducir sexo y edad de los usuarios de redes sociales
[ 10/11/2015 ]
Un equipo de investigadores del Centro de Investigación Pattern Recognition and Human Language Technology de la Universitat Politècnica de València (PRHLT-UPV), ha desarrollado, junto a la empresa Autoritas Consulting, una nueva herramienta que permite deducir el sexo y rango de edad de los autores de comentarios en las redes sociales.
El trabajo, cuyos resultados han sido publicados por la revista Information Processing and Management, es de gran utilidad en operaciones de seguridad o detección de posibles casos de pederastia y, a su vez, constituye a su vez una herramienta muy valiosa para las empresas de cara al enfoque de sus acciones de marketing a partir del conocimiento de la segmentación del mercado.
La teoría de grafos, elemento clave
Paolo Rosso, investigador del PRHLT-UPV, explica que "la información sobre el sexo y la edad de los usuarios de las redes sociales no siempre es accesible ni está explícita, y cuando lo está, puede ser falsa. La herramienta que hemos desarrollado permite descifrar esta información, aplicando para ello técnicas de análisis lingüístico computacional".
Así, para inferir la información deseada, la herramienta desarrollada desde la UPV y Autoritas Consulting estudia el lenguaje utilizado por los usuarios de las redes, aplicando para ello la teoría de grafos.
Análisis de expresiones y estructura del discurso, tiempos verbales, emociones y categorías gramaticales
Ésta analiza los tiempos verbales empleados, las categorías gramaticales más repetidas, la estructura del discurso, la tipología de expresiones utilizadas y el peso de las emociones. A partir de estos datos, es posible saber si detrás de un texto anónimo se encuentra un hombre o una mujer, y su rango de edad.
Francisco Rangel, director tecnológico (CTO) en Autoritas Consulting, detalla el proceso: "Partimos de un texto, del que extraemos las categorías gramaticales para construir un grafo. Éste se enriquece con las emociones expresadas, la polaridad de las palabras, los tipos de verbo y de sustantivo, etc. Después, se aplica la teoría de grafos para calcular la importancia de cada elemento en la estructura del discurso. Ante cada caso nuevo, utilizando un algoritmo de aprendizaje, se extrae el grafo y se obtiene una predicción".
Utilizada ya en casos de investigación policial de amenazas de bomba
La herramienta ya ha sido utilizada en casos de investigación policial de amenazas de bomba. "En estos casos, interesa hacer un seguimiento de esas cuentas. No sólo para ver de qué hablan, sino también ver qué perfil tienen sus autores. El sistema, además, ayuda también a captar perfiles falsos", concluyen los autores del trabajo.
Noticias destacadas
Referente en digitalización del espacio aéreo europeo
La UPV desarrolla cinco proyectos europeos enfocados a la innovación tecnológica para la gestión segura y automática del tráfico aéreo y de drones
Innotransfer
La bioinformática impulsa el salto del dato al negocio en la Universitat Politècnica de València
"Es el mejor día de mi vida"
La UPV promueve y logra la salida de Gaza de dos estudiantes palestinas que seguirán su formación en la politécnica valenciana
II Gran Premio de Ciclismo UPV
Yelizabeta Sklyarova (élite/sub23), Adriana Vargas (júnior), Claudia de Diego (cadete), Marla K. Toledo (máster 30), Pilar Mansilla (máster 40) y Natalie Turjanicova (máster 50), vencedoras
Acuerdo de cooperación con la Universidad de Guangzhou
Además, la UPV refuerza su presencia internacional con reuniones con la Asociación de la Industria de Prospección y Diseño de Ingeniería de la Provincia de Guangdong