Desafío Kaggle - Credit Scoring
Este proyecto se enfoca en el desarrollo de un modelo de machine learning para la predicción del otorgamiento de préstamos bancarios (Credit Scoring). El objetivo principal fue crear un sistema de clasificación que pudiera determinar la probabilidad de que un solicitante de préstamo cumpla con sus obligaciones financieras, optimizando el proceso de toma de decisiones para las instituciones bancarias.
El modelo desarrollado no solo se enfoca en la precisión de la clasificación, sino que también incorpora consideraciones económicas y de negocio, utilizando un enfoque de cost-sensitive learning que optimiza el retorno de inversión (ROI) y el beneficio económico neto para la institución financiera.
El desarrollo de este proyecto siguió una metodología estructurada que incluyó:
Implementé técnicas avanzadas de preprocesamiento para limpiar, transformar y preparar los datos para el modelado. Esto incluyó el manejo de valores faltantes, la codificación de variables categóricas y la normalización de características numéricas.
Desarrollé un proceso de feature engineering semántico, creando nuevas variables derivadas que capturan relaciones importantes entre los datos originales y que tienen significado en el contexto financiero. Estas características mejoradas permitieron al modelo capturar patrones más complejos en los datos.
Implementé un enfoque de modelado híbrido que combina:
Técnicas de cost-sensitive learning para optimizar el ROI y el beneficio económico neto.
Métodos estadísticos probabilísticos para cuantificar la incertidumbre en las predicciones
Incorporé mecanismos de explicabilidad en el modelo para proporcionar interpretaciones claras de las decisiones, combinando aspectos económicos y estadísticos que facilitan la comprensión de los resultados por parte de los stakeholders.
El modelo logró un rendimiento excepcional con un 95% en la métrica Precision-Recall AUC, lo que demuestra su capacidad para equilibrar eficazmente la identificación de préstamos de alto riesgo mientras minimiza los falsos positivos que podrían resultar en oportunidades de negocio perdidas.
Además, el enfoque de cost-sensitive learning permitió optimizar directamente el beneficio económico neto para la institución financiera, considerando tanto los costos de los préstamos impagos como los beneficios de los préstamos exitosos.
Este proyecto demuestra la efectividad de combinar técnicas avanzadas de machine learning con consideraciones económicas para crear un sistema de credit scoring que no solo es preciso en sus predicciones, sino que también está alineado con los objetivos de negocio de las instituciones financieras.
La integración de explicabilidad en el modelo permite una mayor transparencia en el proceso de toma de decisiones, facilitando la adopción del sistema por parte de los analistas de riesgo y cumpliendo con los requisitos regulatorios de explicabilidad en las decisiones de crédito.