- -
UPV
 

Reto21dias_ago24-Codificación y clasificación automática (NLM vs IA generativa LLM). Resumen día 8. Tarea completada

Después de 8 días de trabajo, he logrado obtener un prototipo funcional que realiza las tareas que necesito y me permite obtener la información que requiero para la clasificación de artículos por proximidad al tema de prácticas de recursos humanos de alta implicación. Empecé hace 8 días describiendo el objetivo del caso de uso que iba a utilizar. Me he centrado en el desarrollo de este prototipo, utilizando clasificación automática con modelos de lenguaje basados en transformers, para capturar el significado de las palabras en su contexto, en lugar de trabajar solo con bolsas de palabras. A lo largo de estos 8 días, he realizado varias pruebas y refinamientos del código. Inicialmente, intenté hacer un preprocesamiento de texto, pero me di cuenta de que no era necesario cuando se utilizan modelos de transformers. He revisado diferentes modelos de transformers, apoyándome en la inteligencia artificial generativa de Claude3.5 Sonnet, que me ha ayudado en la selección de modelos y otras cuestiones. También he revisado literatura científica y consultado manuales sobre modelos de lenguaje. He ido iterando y refinando el código hasta conseguir exactamente lo que buscaba. Prácticamente cada día acababa con un código funcional para las tareas que me había planteado, ajustando y mejorando el código a medida que iba definiendo mejor los requisitos. Ejecuto el código en Google Colab, lo cual ha funcionado bien con las capacidades de cómputo de la versión gratuita. Finalmente, compartiré el código en GitHub. Para el futuro, mi próximo hito es publicar un artículo con el protocolo de trabajo realizado y las principales reflexiones. Paralelamente, haré difusión en redes sociales con videos y materiales gráficos. En esta segunda etapa, contaré con la colaboración de Juan Martínez, Cristina Santandreu y Amable Juárez, quienes me han ayudado en la codificación manual de los bancos de ítems, que luego contrastaré con la clasificación automática. Además, utilizaré la ayuda de inteligencia artificial generativa para la traducción del documento al inglés. En resumen, este desarrollo ha requerido aproximadamente 21-25 horas de trabajo en 8 días. Una de las principales conclusiones es que esto habría sido prácticamente imposible sin la ayuda de la inteligencia artificial generativa. Los próximos pasos incluyen documentar el protocolo, comparar el rendimiento de diferentes modelos de lenguaje y tipos de descripciones de categorías, y validar los resultados a gran escala con otros conjuntos de datos. #ProcesamientoLenguajeNatural #AprendizajeAutomático #MétodosInvestigación #LLM #ML #NLP #reto21dias


EMAS upv