Identificación de Fraude en Transferencias Eleectrónicas de Fondos en Chile
Este proyecto se desarrolló en dos fases:
- Generación de un dataset sintético realista sobre distribucion de transacciones legítimas y fraudulentas en Chile, durante el año 2024.
- Desarrollo y evaluación de modelos de machine learning, basados en árboles de decisión (CatBoost, XGBoost y LGBM)
El desarrollo de este proyecto siguió una metodología estructurada que incluyó:
Dada la naturaleza reservada de las TEF's, generé un Dataset con datos ficticios que incluya características como Monto, fecha, ID_transaccion, receptor_ID, Receptor_ID, Banco, es_fraude('Target')
Implementé técnicas avanzadas de preprocesamiento para limpiar, transformar y preparar los datos para el modelado. Esto incluyó la codificación de variables categóricas, y tipo 'timestamp'.
Desarrollé feature engineering, creando así nuevas variables tanto derivadas como de velocidad que permitan capturar dinámicas de comportamiento asociadas a los de fraudes bancarios. Estas características mejoradas permitieron al modelo capturar patrones más complejos en los datos.
Implementé el desarrollo de modelos basados en árboles de decisión como CatBoost, XGBoost y LightGBM adecuados para este tipo de problemas con clases desbalanceadas en el target.
Implementé métricas y herramientas de interpretabilidad como ranking de importancias de características, que permitan entender mejor cuales son las que aportan mayor valor predictivo al modelo.
LightGBM presentó un rendimiento superior a los otros algoritmos, con un 87% en la métrica Precision-Recall, lo que demuestra buena probabilidad de que correctamente el modelo identifique transacciones fraudulentas.
Este proyecto demuestra la importancia de tener datos abiertos (con los resguardos a la privacidad) para la detección de fraude en contexto de TEF's y como los modelos basados en Árboles de decisión pueden ser grandes aliados en su detección