Aprendizaje automático para la evaluación del riesgo crediticio en una Cooperativa de Ahorro y Préstamo7
Barra lateral del artículo
Contenido principal del artículo
Resumen
El objetivo de la investigación es proponer un modelo de aprendizaje computacional que permita identificar el riesgo crediticio para las solicitudes de crédito en las instituciones microfinancieras en el Estado de Oaxaca. Para ello, se emplean los conjuntos de datos Statlog German Credit Data (GCD) donde el modelo de redes neuronales obtiene el mejor rendimiento con una exactitud de 0.9533. A partir de la información proporcionada por la microfinanciera Esperanza Indígena Zapoteca se construye un conjunto de datos, alcanzando una exactitud de 0.9243 al utilizar el clasificador XGBoost. Ambos conjuntos de datos se encuentran desbalanceados, por lo cual se utiliza el método de SMOTE para realizar sobremuestreo. El modelo propuesto permitirá reducir costos y tiempo al momento de analizar una solicitud de crédito, siendo una herramienta auxiliar para gestionar el riesgo crediticio, minimizando de esta manera los índices de morosidad de la microfinanciera.
Descargas
Detalles del artículo
Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial-CompartirIgual 4.0.
Esta revista se encuentra bajo la licencia de Creative Commons, por tanto, los autores, al postular su artículo, lo adhieren a dicha licencia.El autor puede disponer de su artículo para su archivo en repositorios institucionales o en páginas web personales, con la referencia y agradecimientos a la fuente donde se ha publicado.
Citas
Autor confidencial. (s/f). Statlog (Australian Credit Approval) (ACA) [base de datos]. En UCI Machine Learning Repository. Irvine, CA: University of California, School of Information and Computer Science. https://archive.ics.uci.edu/ml/datasets/statlog+(australian+credit+approval)
Barajas, A., Gutiérrez, D., Rodríguez, L & Durán, V. (2019). Indicadores para la Aprobación de Créditos Bancarios con Algoritmos Genéticos. Aristas: Investigación Básica y Aplicada, 7(14), 178-183. http://fcqi.tij.uabc.mx/usuarios/revistaaristas/numeros/N14/27.pdf
Barrios, J. (2019). La matriz de confusión y sus métricas. En Big Data. Ciencia de datos, Informática Médica, Inteligencia Artificial, Machine Learning. https://www.juanbarrios.com/la-matriz-de-confusion-y-sus-metricas/
Breiman, L. (2001). Random Forests. Machine Learning, 45 (1), 5-32. https://doi.org/10.1023/A:1010933404324
Brown, I., & Mues, C. (2012). An experimental comparison of classification algorithms for imbalanced credit scoring data sets. Expert Systems with Applications. 39(3), 3446-3453. https://doi.org/10.1016/j.eswa.2011.09.033
Bussmann, N., Giudici, P., Marinelli, D., & Papenbrock, J. (2020). Explainable AI in Fintech Risk Management. Frontiers in Artificial Intelligence, 3(26). https://doi.org/10.3389/frai.2020.00026
Canchen, L. (2019). Preprocessing methods and pipelines of data mining: An overview. arXiv preprint, 1–7. https://doi.org/10.48550/arXiv.1906.08510
Chawla, N. V., Bowyer, K. W., Hall, L. O., & Kegelmeyer, W. P. (2002). SMOTE: synthetic minority over-sampling technique. Journal of artificial intelligence research, 16, 321-357. https://doi.org/10.1613/jair.953.
Chen, T., & Guestrin, C. (2015). Xgboost: Reliable large-scale tree boosting system. En Proceedings of the 22nd SIGKDD Conference on Knowledge Discovery and Data Mining, San Francisco, CA, USA (13-17). http://learningsys.org/papers/LearningSys_2015_paper_32.pdf
Comisión Nacional Bancaria y de Valores. (CNBV) (2022). Información de Sociedades Cooperativas de Ahorro y Préstamo (SOCAP) al cierre de enero de 2022. https://www.gob.mx/cms/uploads/attachment/file/723324/Comunicado_de_Prensa_30_socaps_enero_2022.pdf
Comisión Nacional Bancaria y de Valores. (CNBV) (2017). Sociedades cooperativas de ahorro y préstamo. Administración Integral de Riesgos. https://www.gob.mx/cms/uploads/attachment/file/236226/2_Observaciones_recurrentes_en_Administraci_n_de_Riesgos.pdf
Comisión Nacional para la Protección y Defensa de los Usuarios de Servicios Financieros. (CONDUSEF). (2021). Sociedades cooperativas de ahorro y préstamo (SOCAP). https://www.condusef.gob.mx/?p=mapa-socap&ide=1
Dablain, D., Krawczyk, B., & Chawla, N. V. (2023). DeepSMOTE: Fusing Deep Learning and SMOTE for Imbalanced Data. IEEE Transactions on Neural Networks and Learning Systems, 34 (9) 6390-6404. https://doi.org//10.1109/TNNLS.2021.3136503
Datta, L. (2020). A survey on activation functions and their relation with Xavier and He Normal initialization. Neural and Evolutionary Computing. https://doi.org/10.48550/arXiv.2004.06632
Dharwadkar, N. V., & Pantil, P. S. (2018). Customer retention and credit risk analysis using ANN, SVM and DNN. Int. J. Society Systems Science 10(4), 316-332. https://doi.org/10.1504/IJSSS.2018.095601
Gallardo, F., Hernández, A. & Salazar, A. (2023). Efecto de la crisis en las Sociedades Cooperativas de Ahorro y Préstamo Mexicanas. Denarius, 1(44), 11-50. https://doi.org/10.24275/uam/izt/dcsh/denarius/v2023n44/Gallardo
Gemp, I., Theocharous, G., & Ghavamzadeh, M. (2017). Automated Data Cleansing through Meta-Learning. Proceedings of the AAAI Conference on Artificial Intelligence, 31(2), 4760-4761. https://doi.org/10.1609/aaai.v31i2.19107
Grabusts, P. & Zorins, A. (2015). The influence of hidden neurons factor on neural network training quality assurance. Environment Technology Resources Proceedings of the International Scientific and Practical Conference, 3, 76-81. https://doi.org/10.17770/etr2015vol3.213
Guevara, C. B. & Freire, J. (2021). Modelo de clasificación de riesgo crediticio utilizando random forest en financiera del Ecuador (Tesis, para optar el Título de Master en Sistemas de Información con Mención en Data Science). Universidad Internacional SEK. https://repositorio.uisek.edu.ec/handle/123456789/4256
Guillén, E. & Peñafiel, L. (2017). Modelos predictor de la morosidad con variables macroeconómicas. Revista Ciencia Unemi, 11 (26), 13-24. https://www.redalyc.org/journal/5826/582661257002/html/
Hofmann, H. (1994). Statlog (German Credit Data) (GCD) [base de datos]. En UCI Machine Learning Repository. Irvine, CA: University of California, School of Information and Computer Science. https://archive.ics.uci.edu/ml/datasets/statlog+(german+credit+data)
Kohavi, R., & Provost, F. (1998). Glossary of terms. Machine Learning—Special Issue on Applications of Machine Learning and the Knowledge Discovery Process. Machine Learning, 30, 271-274. https://doi.org/10.1023/A:1017181826899
Kuppili, V., Tripathi, D., & Edla, D. R. (2019). Credit score classification using spiking extreme learning machine. Computational Intelligence, 36(2), 402-426. https://doi.org/10.1111/coin.12242
Lappas, Z., & Yannacopoulos, N. (2021). A machine learning approach combining expert knowledge with genetic algorithms in feature selection for credit risk assessment. Applied Soft Computing, 107, 107391. https://doi.org/10.1016/j.asoc.2021.107391
Li, T., Kou, G., & Peng, Y. (2023). A new representation learning approach for credit data analysis. Information Sciences, 627, 115-131. https://doi.org/10.1016/j.ins.2023.01.068
Liu, W., Fan, H., & Xia, M. (2021). Step-wise multi-grained augmented gradient boosting decision trees for credit scoring. Engineering Applications of Artificial Intelligence, 97(1), https://doi.org/10.1016/j.engappai.2020.104036
Luo, C., Wu, D., & Wu, D. (2016). A deep learning approach for credit scoring using credit default swaps. Engineering Applications of Artificial Intelligence. 65, 465-470. https://doi.org/10.1016/j.engappai.2016.12.002
Maimon, O. Z., & Rokach, L. (2014). Data mining with decision trees: theory and applications, 81. World scientific.
Matthews, B. W. (1975). Comparison of the predicted and observed secondary structure of T4 phage lysozyme. Biochimica et Biophysica Acta (BBA)-Protein Structure, 405 (2), 442–451. https://doi.org/10.1016/0005-2795(75)90109-9
McCulloch, W.S., & Pitts, W (1943). A Logical Calculus of Ideas Immanent in Nervous Activity. Bulletin of Mathematical Biophysics 5 (4), 115-133. https://doi.org/10.1007/BF02478259
Millán, J. C., & Caicedo, E. (2018). Modelos para otorgamiento y seguimiento en la gestión de riesgo de crédito. Revista de Métodos Cuantitativos para la Economía y la Empresa, 25(1), 23-41. https://doi.org/10.46661/revmetodoscuanteconempresa.2370
Moscato, V., Picariello, A., & Sperlí, G. (2021). A benchmark of machine learning approaches for credit score prediction. Expert Systems with Applications, 165, 113986. https://doi.org/10.1016/j.eswa.2020.113986
Ossa, W. & Jaramillo, V. (2021). Machine learning para la estimación del riesgo de crédito en una cartera de consumo (Tesis, para optar el Título de Magíster en Administración Financiera). Universidad EAFIT.
https://repository.eafit.edu.co/items/b56605a2-d3d2-4f86-9a39-cacc576c7ea9
P. Villarino, J., Álvaro Leitao, & García Rodríguez, J. (2023). Boundary-safe PINNs extension: Application to non-linear parabolic PDEs in counterparty credit risk. Journal of Computational and Applied Mathematics, 425, 115041. https://doi.org/10.1016/j.cam.2022.115041
Pandey, T. N., Mohapatra, S. K., Jagadev, A. K., & Dehuri, S. (2017). Credit Risk Analysis using Machine Learning Classifiers. International Conference on Energy, Communication Data Analytics and Soft Computing (ICECDS), 1850-1854. https://doi.org/10.1109/ICECDS.2017.8389769
Peng, Y., Wang, G., Kou, G., & Shi, Y. (2011). An empirical study of classification algorithm evaluation for financial risk prediction. Applied Soft Computing 11(2), 2906-2915. https://doi.org/10.1016/j.asoc.2010.11.028
Priyanga, C., & Kai, Q. (2016). The impact of data preprocessing on the performance of a naive bayes classifier. En 2016 IEEE 40th Annual Computer Software and Applications Conference (COMPSAC), 2, 618-619. https://doi.org/10.1109/COMPSAC.2016.205
Ramos, H. M. (2017). Implementación de una herramienta de análisis de riesgo de crédito basado en el modelo de rating de crédito, algoritmos genéticos y clustering jerárquico aglomerativo. (Tesis, para optar el Título Profesional de Ingeniero de Sistemas). Universidad Nacional Mayor de San Marcos. https://cybertesis.unmsm.edu.pe/handle/20.500.12672/7145
Rayo, S., Lara, J. & Camino D. (2010) A Credit Scoring Model for Institutions of Microfinance under the Basel II Normative. Journal of Economics, Finance and Administrative Science, 15 (28), 89-124. http://www.scielo.org.pe/scielo.php?script=sci_arttext&pid=S2077-18862010000100005&lng=es&tlng=es
Sano, Ch. (1992). Japanese Credit Screening Data Set. (JCS) [base de datos]. En UCI Machine Learning Repository. Irvine, CA: University of California, School of Information and Computer Science. https://archive.ics.uci.edu/ml/datasets/Japanese+Credit+Screening
Shen, F., Zhao, X., Kou, G. & Alsaadi, F. E. (2021). A new deep learning ensemble credit risk evaluation model with an improved synthetic minority oversampling technique. Applied Soft Computing Journal, 98, 106852. https://doi.org/10.1016/j.asoc.2020.106852
Sun, T., & Vasarhelyi, M. A. (2018). Predicting credit card delinquencies: An application of deep neural networks. Intelligent Systems in Accounting, Finance and Management, 25 (4), 174-189. https://doi.org/10.1002/isaf.1437
Tavana, M., Abtahi, A.-R., Di Caprio, D., & Poortarigh, M. (2018). An artificial neural network and bayesian network model for liquidity risk assessment in banking. Neurocomputing, 275, 2525-2554. https://doi.org/10.1016/j.neucom.2017.11.034
Teles, G., Rodrigues, J. J. P. C., Rabê, R. A. L., & Kozlov, S. A. (2020). Artificial neural network and bayesian network models for credit risk prediction. Journal of Artificial Intelligence and Systems, 2(1), 118-132. https://doi.org/10.33969/AIS.2020.21008
Trejo-García, J. C., Ríos-Bolívar, H., & Martínez-García, M. A. (2016). Análisis de la administración del riesgo crediticio en México para tarjetas de crédito. Revista Mexicana de Economía y Finanzas 11(1), 103-121. http://www.scielo.org.mx/scielo.php?script=sci_arttext&pid=S1665-53462016000100103&lng=es&tlng=es
Trejo, J. C., Ríos, H., & Almagro, F. (2016). Actualización del modelo de riesgo crediticio, una necesidad para la banca revolvente en México. Revista Finanzas y Política Económica, 8(1), 17-30. http://dx.doi.org/10.14718/revfinanzpolitecon.2016.8.1.2
Tripathi, D., Edla, D. R., Kuppili, V., & Bablani, A. (2020). Evolutionary extreme learning machine with novel activation function for credit scoring. Engineering Applications of Artificial Intelligence. 96(1), 103980. https://doi.org/10.1016/j.engappai.2020.103980
van Thiel, D., & van Raaij, W. F. (2019). Artificial intelligence credit risk prediction: An empirical study of analytical artificial intelligence tools for credit risk prediction in a digital era. Journal of Accounting and Finance, 19(8), 150-170. https://doi.org/10.33423/jaf.v19i8.2622
Vapnik, V., & Cortes, C. (1995). Support-vector networks. Machine learning, 20, 273-297. https://doi.org/10.1007/BF00994018
Wang, L., & Zhang, W. (2023). A qualitatively analyzable two-stage ensemble model based on machine learning for credit risk early warning: Evidence from Chinese manufacturing companies. Information Processing & Management, 60(3), 103267. https://doi.org/10.1016/j.ipm.2023.103267
West, D. (2000). Neural network credit scoring models. Computers & operations research, 27(11-12), 1131-1152. https://doi.org/10.1016/S0305-0548(99)00149-5
Wu, X., Kumar, V., Quinlan, J. R., Ghosh, J., Yang, Q., Motoda, H., . . . Steinberg, D. (2007). Top 10 algorithms in data mining. Knowledge and information systems, 14, 1-37. https://doi.org/10.1007/s10115-007-0114-2
Yang, M., Lim, M. K., Qu, Y., Li, X., & Ni, D. (2023). Deep neural networks with L1 and L2 regularization for high dimensional corporate credit risk prediction. Expert Systems with Applications, 213, 118873. https://doi.org/10.1016/j.eswa.2022.118873
Zhang, R., & Qiu, Z. (2020). Optimizing hyper-parameters of neural networks with swarm intelligence: A novel framework for credit scoring. PLOS ONE, 15(6), 1-35. https://doi.org/10.1371/journal.pone.0234254
Zhu, Q., Ding, W., Xiang, M., Hu, M., & Zhang, N. (2023). Loan default prediction based on Convolutional Neural Network and LightGBM. International Journal of Data Warehousing and Mining (IJDWM), 19 (1), 1–16. https://www.igi-global.com/pdf.aspx?tid=315823&ptid=310110&ctid=4&oa=true&isxn=9781668479025