En este video se presenta un análisis de los resultados obtenidos al aplicar diferentes modelos de vectorización y agrupamiento (clustering) a un conjunto de datos relacionados con prácticas de recursos humanos. He probado varios modelos, tanto de embeddings como de vectorización, y que los resultados obtenidos no son totalmente consistentes entre sí. Esto me genera algunas dudas e incertidumbres sobre cómo proceder. Aspectos clave: Comparación de resultados de diferentes modelos: Los distintos modelos aplicados (embeddings y vectorización) arrojan resultados diferentes en cuanto a la agrupación de las prácticas. Esto genera dudas sobre cuál sería el modelo más adecuado. Preprocesamiento de los datos: no ha realizado un preprocesamiento exhaustivo de los datos, lo cual podría estar influyendo en los resultados. Análisis de la semántica y longitud de las descripciones: Surge la duda de si las diferencias en las agrupaciones se deben a diferencias semánticas entre las prácticas o simplemente a la longitud de las descripciones. Optimización del proceso de vectorización: se plantea la necesidad de explorar formas más eficientes de almacenar los embeddings o vectorizaciones, especialmente cuando se trabaje con conjuntos de datos más grandes. Consistencia y reproducibilidad de los resultados: Surge la inquietud de si los resultados obtenidos son consistentes al repetir la ejecución de los modelos, o si hay variabilidad en los embeddings generados. Exploración de nuevos modelos y estrategias: hay intención de probar otros modelos de vectorización y agrupamiento, así como de reflexionar sobre cómo incorporar las prácticas de "anti-implicación" en el análisis. #ProcesamientoLenguajeNatural #AprendizajeAutomático #MétodosInvestigación #LLM #ML #NLP #reto21dias
8:48 · 2024
12:48 · 2024
19:48 · 2024