En este live vamos a trabajar el flujo completo de un proyecto de Machine Learning, desde la ejecución del código hasta la exploración y comprensión de los datos, usando Python, Jupyter Notebooks y Google Colab.
Comenzaremos configurando el entorno de trabajo en Google Colab, entendiendo qué es un runtime, cómo se ejecuta el código en la nube y cómo interactuar correctamente con celdas de texto y código. Veremos buenas prácticas al trabajar con notebooks: orden de ejecución, guardado de cambios, manejo de errores comunes y los riesgos de la interactividad.
Luego nos enfocaremos en la carga automática de datos, descargando un dataset real desde una fuente externa, descomprimiéndolo y cargándolo en un DataFrame de Pandas, explicando cada paso del proceso y por qué es importante automatizar la obtención de datos en proyectos reales.
A partir de ahí entraremos en la exploración inicial de los datos (EDA): estructura del dataset, tipos de variables, valores faltantes, atributos categóricos y numéricos, estadísticas descriptivas, y visualización mediante histogramas y gráficos geográficos. Analizaremos escalas, distribuciones sesgadas y valores truncados, entendiendo cómo estos detalles impactan un modelo de Machine Learning.
También abordaremos uno de los puntos más críticos y comúnmente ignorados: la creación correcta del conjunto de entrenamiento y prueba, revisando muestreo aleatorio, problemas de reproducibilidad, uso de identificadores estables y muestreo estratificado para evitar sesgos en la evaluación del modelo.
Finalmente exploraremos correlaciones entre variables, visualización de relaciones, limitaciones de la correlación lineal y la creación de features derivadas para mejorar la capacidad predictiva del modelo, discutiendo riesgos como la colinealidad.
Temas clave: Python, Google Colab, Jupyter Notebooks, Pandas, Machine Learning, EDA, carga de datos, visualización, train test split, muestreo estratificado, correlación, feature engineering.
Material de apoyo: Leer los siguientes temas del capitulo 2 del libro Hands-On Machine Learning with Scikit-Learn and PyTorch - Aurélien Géron
Get the Data
Running the Code Examples Using Google Colab
Saving Your Code Changes and Your Data
The Power and Danger of Interactivity
Book Code Versus Notebook Code
Download the Data
Take a Quick Look at the Data Structure
Create a Test Set
Explore and Visualize the Data to Gain Insights
Visualizing Geographical Data
Look for Correlations
Experiment with Attribute Combinations
Episodio Spotify de apoyo: EN PROCESO
🔗 Suscripciones 👉 https://www.youtube.com/cha.../UCpqqJ...
💬 Discord 👉 / discord
📸 Instagram 👉 / pildoras_de_programacion
🎵 TikTok 👉 https://www.tiktok.com/@pil_programac...
📘 Facebook 👉 / pilprogramacion
📺 YouTube 👉 / @pildorasdeprogramacion
🔔 ¡Suscríbete y activa la campanita para no perderte futuros lives!
🔴 ¡Nos vemos en el live! 🚀🐳
Информация по комментариям в разработке