Modelos Predictivos de Aprendizaje Automático para la Identif ...
Abstract
El objetivo del estudio fue desarrollar un modelo predictivo para identificar desregulación emocional y consumo de sustancias psicoactivas entre estudiantes universitarios mediante aprendizaje automático supervisado. El diseño empleado fue no experimental de tipo explicativo. Los datos fueron obtenidos de un centro universitario de consejería y salud mental. Estos datos fueron preprocesados mediante imputación de valores perdidos y se balancearon las clases utilizando la técnica de sobremuestreo de minorías sintéticas. Se emplearon diversas técnicas de aprendizaje automático, incluyendo bosque aleatorio, máquinas de soporte vectorial, regresión logística, k-vecinos más cercanos, Naive Bayes, y un clasificador por votación. El desempeño del modelo se evaluó utilizando métricas de recall, precisión, F1 score y AUC-ROC, tanto antes como después del ajuste de hiperparámetros. Para el CSP, antes del ajuste fino, el algoritmo de bosque aleatorio logró un AUC-ROC de 0.88, un recall de 0.85 y una precisión de 0.81. Después del ajuste fino, el mismo mantuvo un recall y un AUC-ROC de 0.88, y una precisión de 0.80. El modelo ensamblado post-ajuste obtuvo un recall de 0.85, una precisión de 0.74 y un AUC-ROC de 0.85. Para la DE, el modelo de bosque aleatorio logró un recall de 0.88, precisión de 0.95 y AUC-ROC de 0.97, mientras que el modelo ensamblado post-ajuste alcanzó un recall de 0.83, precisión de 0.97 y AUC-ROC de 0.96. Estos hallazgos demuestran la efectividad de los modelos de ML para la identificación temprana de estudiantes en riesgo. [The objective of this study was to develop a predictive model for identifying emotional dysregulation and psychoactive substance use among university students using supervised machine learning. The design was non-experimental and explanatory. Data were collected from a university counseling and mental health center. These data were preprocessed through missing value imputation and class balancing using the synthetic minority over-sampling technique. Various machine learning techniques were employed, including random forest, support vector machines, logistic regression, k-nearest neighbors, Naive Bayes, and a voting classifier. Model performance was evaluated using recall, precision, F1 score, and AUC-ROC metrics, both before and after hyperparameter tuning. For substance use, before fine-tuning, the random forest algorithm achieved an AUC-ROC of 0.88, a recall of 0.85, and a precision of 0.81. After fine-tuning, it maintained a recall and AUC-ROC of 0.88 and a precision of 0.80. The ensemble model post-tuning achieved a recall of 0.85, a precision of 0.74, and an AUC-ROC of 0.85. For emotional dysregulation, the random forest model achieved a recall of 0.88, a precision of 0.95, and an AUC-ROC of 0.97, while the ensemble model post-tuning achieved a recall of 0.83, a precision of 0.97, and an AUC-ROC of 0.96. These findings demonstrate the effectiveness of ML models for the early identification of at-risk students].