- -
UPV
 

Reto21dias_ago24-Codificación y clasificación automática (NLM vs IA generativa LLM). Resumen días 2 a 4 Descripción tareas

El video describe las tareas que he realizado durante los días 2 al 4 de un reto sobre inteligencia artificial aplicada a la clasificación de textos. El principal objetivo es poder vectorizar el texto y probar diferentes modelos de aprendizaje automático y de inteligencia artificial generativa para clasificar las prácticas de "alta implicación" y otras prácticas relacionadas. Aspectos clave: Preprocesamiento de datos: me salto esta etapa inicialmente para enfocarse primero en la vectorización y clasificación, ya que si no logra vectorizar el texto de forma adecuada, no tiene sentido proceder con el preprocesamiento. Vectorización y embeddings: prueba diferentes modelos como BERT y otros de vectorización para generar representaciones numéricas del texto. Logra calcular matrices de similitud y hacer agrupamientos (clustering) con los embeddings obtenidos. Evaluación de los embeddings: planteo evaluar la calidad de los embeddings generados mediante: Inspección manual basada en conocimiento experto Agrupamiento (clustering) y análisis de la consistencia de los grupos Comparación de la distancia semántica entre las prácticas de "alta implicación" y otras prácticas relacionadas Clasificación: El siguiente paso sería entrenar modelos de aprendizaje automático supervisado para clasificar los textos en las diferentes categorías de prácticas. #ProcesamientoLenguajeNatural #AprendizajeAutomático #MétodosInvestigación #LLM #ML #NLP #reto21dias


EMAS upv