Detección de Fraude Asociados a TEF

Identificación de Fraude en Transferencias Eleectrónicas de Fondos en Chile

Descripción del Proyecto

Este proyecto se desarrolló en dos fases:

- Generación de un dataset sintético realista sobre distribucion de transacciones legítimas y fraudulentas en Chile, durante el año 2024.

- Desarrollo y evaluación de modelos de machine learning, basados en árboles de decisión (CatBoost, XGBoost y LGBM)

Metodología

El desarrollo de este proyecto siguió una metodología estructurada que incluyó:

1. Generación de Dataset Sintético

Dada la naturaleza reservada de las TEF's, generé un Dataset con datos ficticios que incluya características como Monto, fecha, ID_transaccion, receptor_ID, Receptor_ID, Banco, es_fraude('Target')

2. Procesamiento de Datos

Implementé técnicas avanzadas de preprocesamiento para limpiar, transformar y preparar los datos para el modelado. Esto incluyó la codificación de variables categóricas, y tipo 'timestamp'.

3. Ingeniería de Características

Desarrollé feature engineering, creando así nuevas variables tanto derivadas como de velocidad que permitan capturar dinámicas de comportamiento asociadas a los de fraudes bancarios. Estas características mejoradas permitieron al modelo capturar patrones más complejos en los datos.

4. Modelos basados en Árboles de Decisión

Implementé el desarrollo de modelos basados en árboles de decisión como CatBoost, XGBoost y LightGBM adecuados para este tipo de problemas con clases desbalanceadas en el target.

5. Evalaución e Interpretabilidad de los modelos desarrollados

Implementé métricas y herramientas de interpretabilidad como ranking de importancias de características, que permitan entender mejor cuales son las que aportan mayor valor predictivo al modelo.

Tecnologías Utilizadas

CatBoost Pandas Scikit-learn XGBoost Feature_Importances Seaborn

Resultados y Métricas

Rendimiento del Mejor Modelo: LightGBM

LighGBM demostró un desempeño excepcional con valores ROC_AUC: 0.98. PR_AUC: 0.87 y F1-Score: 0.83

LightGBM presentó un rendimiento superior a los otros algoritmos, con un 87% en la métrica Precision-Recall, lo que demuestra buena probabilidad de que correctamente el modelo identifique transacciones fraudulentas.

Conclusiones

Este proyecto demuestra la importancia de tener datos abiertos (con los resguardos a la privacidad) para la detección de fraude en contexto de TEF's y como los modelos basados en Árboles de decisión pueden ser grandes aliados en su detección