Data Engineer
19-02-2025
Completado
Python
Gemini AI
Web Scraping
README.md
Ver en GitHub

PROYECTO ETL PARA ANÁLISIS DE DESCRIPCIONES DE PRODUCTOS DE FALABELLA (TEMPORADA PLAYA)

Este proyecto implementa un proceso ETL (Extracción, Transformación y Carga) para analizar datos de productos de la sección de "Temporada Playa" del sitio web de Falabella, obtenidos mediante web scraping. Se realizaron los siguientes análisis:

🔍 ¿Qué hice y cómo lo hice?

✅ Web Scraping: Extraje datos de productos directamente del sitio web de Falabella (sección Temporada Playa) utilizando técnicas de web scraping. 🌐

✅ ETL Pipeline: Implementé un proceso ETL completo (Extracción, Transformación, Carga) para estructurar y preparar los datos para el análisis. ⚙️

✅ Análisis con AI: Integré la API de (Gemini AI) para realizar análisis semánticos de las descripciones de productos y sus familias. 🤖

Proceso Realizado

  1. Análisis de relación entre la descripción de un producto y su categoría: Se utilizó la inteligencia artificial de Gemini, a través de la API google-genai, para evaluar la relación entre la descripción de un producto y su categoría asignada. Esto permitió identificar posibles errores en la categorización de productos. Análisis de Relación

  2. Análisis de duplicación de productos: Se identificaron y analizaron productos duplicados dentro del conjunto de datos, con el objetivo de determinar posibles causas de duplicación y evaluar su impacto en la calidad de los datos. Análisis de Duplicación

Si bien se exploraron superficialmente otros aspectos como el análisis descripciones redundantes o poco claras, reviews y ratings, incluyendo el cálculo de un rating ponderado basado en la metodología de IMDb, estos no se profundizaron ni se presentan resultados concretos en este documento.

Contenido sincronizado automáticamente desde GitHub