Aplicación de técnicas de minería de datos para la tipificación de enfermedades cardiovasculares en alumnos universitarios

Resumen

Las enfermedades cardiovasculares constituyen un conjunto de entidades que afectan el corazón y los vasos sanguíneos. Estás afectaciones dañan órganos como el cerebro, los miembros inferiores, los riñones y el corazón. Dentro de las enfermedades cardiovasculares las de mayor recurrencia son las enfermedades coronarias y las cerebrovasculares.

Las enfermedades cardiovasculares se caracterizan por la acumulación de grasa y el colesterol llamado aterosclerosis, ocurre cuando se acumulan en las paredes del vaso sanguíneo (arteria).Esta acumulación se llama placa, con el tiempo, la placa puede estrechar los vasos sanguíneos y causar problemas en todo el cuerpo.
Las causas más importantes de cardiopatía son una dieta malsana, la inactividad física, el consumo de tabaco y el consumo nocivo de alcohol. [1]
El proyecto denominado “Aplicación de Técnicas de Minería de Datos para la Tipificación de Enfermedades Cardiovasculares en alumnos universitarios” nace como una alternativa para conocer los hábitos de salud de los estudiantes del nivel universitario, que permitan posteriormente desarrollar medidas de prevención.
Las Técnicas de Minería de datos ayudaron a realizar de manera sencilla el análisis de los resultados y tipificar este tipo de enfermedades en los alumnos de la Universidad Tecnológica de la Huasteca Hidalguense de las carreras Mecatronica y Tecnologías de la Información y Comunicación.
El desarrollo de la investigación se realizó mediante la metodología CRISP-DM que es una de las metodologías más utilizada en los procesos de Descubrimiento de Conocimiento en Base de Datos apoyándonos en la herramienta WEKA utilizando el algoritmo SimpleKmeans.
Los resultados obtenidos se clasificaron en 4 clúster que contenían los vectores de las encuestas los cuales ayudaron a analizar de una manera más clara los datos y se concluyó que los estudiantes son susceptibles en un 18% a sufrir enfermedades cardiovasculares, en su vida futura de acuerdo a sus hábitos actuales.


Palabras clave: Enfermedades Cardiovasculares, Minería de Datos, Agrupamiento

Abstract

Cardiovascular diseases are a set of entities that affect the heart and blood vessels. These affections damage organs such as the brain, lower limbs, kidneys and heart. Among cardiovascular diseases, the most frequent recurrences are coronary and cerebrovascular diseases.
Cardiovascular diseases are characterized by the accumulation of fat and cholesterol, occurs when they accumulate in the walls of the blood vessel (artery) .This accumulation is called plaque, over time, the plaque can narrow the blood vessels and cause problems throughout the body.
The most important causes of heart disease are an unhealthy diet, physical inactivity, smoking and harmful alcohol consumption.

The project called "Application of Data Mining Techniques for the Classification of Cardiovascular Diseases in university students" was born as an alternative to know the health habits of students at university level, which later allow the development of prevention measures.
The Data Mining Techniques helped to easily perform the analysis of the results and typify this type of diseases in the students of the Huasteca Hidalguense Technological University of the Mechatronics and Information and Communication Technologies majors.
The development of the research was carried out using the CRISP-DM methodology, which is one of the most used methodologies in the Knowledge Discovery processes in the database, using the WEKA tool using the SimpleKmeans algorithm.
The results obtained were classified into 4 clusters that contained the vectors of the surveys, which helped to analyze the data in a clearer way and concluded that students are susceptible in 18% to suffer cardiovascular diseases, in their future life according To their current habits.


Keywords: Cardiovascular diseases, Datamining, Clustering

1.- Introducción

1. 1 Las  Enfermedades cardiovasculares

Las enfermedades cardiovasculares (ACV) constituyen un conjunto de entidades que afectan el corazón y los vasos sanguíneos. Cuando afecta los vasos sanguíneos puede comprometer órganos como el cerebro (enfermedad cerebro vascular), los miembros inferiores, los riñones y el corazón. Dentro de las enfermedades cardiovasculares las de mayor ocurrencia son la enfermedad coronaria y la enfermedad cerebro vascular.

La enfermedad coronaria es la enfermedad del corazón secundaria al compromiso de las arterias que lo nutren (arterias coronarias). Puede manifestarse como angina de pecho, o en forma aguda como infarto de miocardio. La enfermedad cerebro vascular se manifiesta principalmente en forma de ataques agudos ya sea por obstrucción o sangrado de una arteria. En cualquiera de los dos casos, pueden comprometerse en forma transitoria o permanente las funciones que desempeña el sector del cerebro irrigado por esa arteria. [2]

Las enfermedades cardiovasculares (ECV) son un grupo de desórdenes del corazón y de los vasos sanguíneos, entre los que se incluyen:

                 Los ataques al corazón y los accidentes vasculares cerebrales (AVC) suelen ser fenómenos agudos que se deben sobre todo a obstrucciones que impiden que la sangre fluya hacia el corazón o el cerebro. La causa más frecuente es la formación de depósitos de grasa en las paredes de los vasos sanguíneos que irrigan el corazón o el cerebro.

                Los AVC también pueden deberse a hemorragias de los vasos cerebrales o coágulos de sangre. Los ataques cardíacos y accidentes cerebro vasculares (ACV) suelen tener su causa en la presencia de una combinación de factores de riesgo, tales como el tabaquismo, las dietas malsanas y la obesidad, la inactividad física, el consumo nocivo de alcohol, la hipertensión arterial, la diabetes y la hiperlipidemia.

La enfermedad isquémica del corazón  en general se refiere a las condiciones que implican el estrechamiento o bloqueo de los vasos sanguíneos, causada por daño al corazón o a los vasos sanguíneos por  aterosclerosis. Una acumulación de placa grasosa que se espesa y endurece en las paredes arteriales,  que puede inhibir el flujo de sangre por las arterias a órganos y tejidos y puede conducir a un ataque al corazón, dolor de pecho (angina) o derrame cerebral. Otras condiciones del corazón, como las que afectan a los músculos, las válvulas o ritmo, también se consideran formas de enfermedades del corazón. [3]

Las causas más importantes de cardiopatía y AVC son una dieta malsana, la inactividad física, el consumo de tabaco y el consumo nocivo de alcohol. Los efectos de los factores de riesgo comporta mentales pueden manifestarse en las personas en forma de hipertensión arterial, hiperglucemia, hiperlipidemia y sobrepeso u obesidad. Estos "factores de riesgo intermediarios", que pueden medirse en los centros de atención primaria, son indicativos de un aumento del riesgo de sufrir ataques cardíacos, accidentes cerebros vasculares, insuficiencia cardíaca y otras complicaciones.

Está demostrado que el cese del consumo de tabaco, la reducción de la sal de la dieta, el consumo de frutas y hortalizas, la actividad física regular y la evitación del consumo nocivo de alcohol reducen el riesgo de ECV. Por otro lado, puede ser necesario prescribir un tratamiento farmacológico para la diabetes, la hipertensión o la hiperlipidemia, con el fin de reducir el riesgo cardiovascular y prevenir ataques cardíacos y accidentes cerebrovasculares. Las políticas sanitarias que crean entornos propicios para asegurar la asequibilidad y disponibilidad de opciones saludables son esenciales para motivar a las personas para que adopten y mantengan comportamientos sanos.

También hay una serie de determinantes subyacentes de las enfermedades crónicas, es decir, "las causas de las causas", que son un reflejo de las principales fuerzas que rigen los cambios sociales, económicos y culturales: la globalización, la urbanización y el envejecimiento de la población. Otros determinantes de las ECV son la pobreza, el estrés y los factores hereditarios. [4]

El sistema circulatorio es el circuito por el que viaja la sangre a los diferentes tejidos que componen el organismo. Está formado por los vasos sanguíneos, que recorren todo nuestro cuerpo y el corazón.

Hay dos tipos de circulación en el cuerpo humano: la circulación pulmonar, que lleva la sangre a los pulmones para que allí se cargue de oxígeno; y la circulación sistémica, que viaja por todo el organismo para llevar por las arterias esta sangre oxigenada que viene del pulmón a todos y cada uno de los órganos y tejidos del cuerpo.

Una vez que los tejidos se han oxigenado, la sangre, ya desprovista de oxígeno, vuelve al corazón a través de los vasos sanguíneos conocidos como venas.

Este sistema circulatorio puede verse afectado por diversas enfermedades que provoquen serias consecuencias en todo el organismo. Algunos de los trastornos que sufre se originan a nivel del corazón, la bomba encargada de impulsar la sangre hacia todos los órganos del cuerpo. Otros problemas son el resultado de enfermedades de los propios vasos sanguíneos, ya sea porque su pared se encuentra debilitada, o a causa de la formación de coágulos e inflamación en las venas, entre otros. [5]

1.2 Técnicas de Minería de Datos

La Minería de datos es el proceso de detectar la información de grandes conjuntos de datos. Utiliza el análisis matemático para deducir los patrones y tendencias que existen en los datos.

Los modelos de minería de datos se pueden aplicar en escenarios como los siguientes:

Previsión: calcular las ventas y predecir las cargas de servidor o el tiempo de inactividad del servidor.

Riesgo y probabilidad: elegir los mejores clientes para la distribución de correo directo, determinar el punto de equilibrio probable para los escenarios de riesgo, y asigna probabilidades a diagnósticos u otros resultados.

Recomendaciones: determinar los productos que se pueden vender juntos y generar recomendaciones.

Buscar secuencias: analizar los artículos que los clientes han introducido en el carrito de compra y predecir los posibles eventos.

Agrupación: separar los clientes o los eventos en clústeres de elementos relacionados, y analizar y predecir afinidades. [6]

La minería de datos, es un campo de las ciencias de la computación referido al proceso que intenta descubrir patrones en grandes volúmenes de conjuntos de datos. Utiliza los métodos de la inteligencia artificial, aprendizaje automático, estadística y sistemas de bases de datos. El objetivo general del proceso de minería de datos consiste en extraer información de un conjunto de datos y transformarla en una estructura comprensible para su uso posterior. [7]

Las técnicas de Minería de Datos una etapa dentro del proceso completo de KDD (Extracción de Conocimientos en Bases de Datos) intentan obtener patrones o modelos a partir de los datos recopilados. Decidir si los modelos obtenidos son útiles o no suele requerir una valoración subjetiva por parte del usuario.

Las técnicas de Minería de Datos se clasifican en dos grandes categorías: supervisadas o predictivas y no supervisadas o descriptivas.

Una técnica constituye el enfoque conceptual para extraer la información de los datos, y, en general es implementada por varios algoritmos.

 Cada algoritmo representa, en la práctica, la manera de desarrollar una determinada técnica paso a paso, de forma que es preciso un entendimiento de alto nivel de los algoritmos para saber cuál es la técnica más apropiada para cada problema. Asimismo, es preciso entender los parámetros y las características de los algoritmos para preparar los datos a analizar.  

Las predicciones se utilizan para prever el comportamiento futuro de algún tipo de entidad mientras que una descripción puede ayudar a su comprensión. De hecho, los modelos predictivos pueden ser descriptivos (hasta donde sean comprensibles por personas) y los modelos descriptivos pueden emplearse para realizar predicciones. De esta forma, hay algoritmos o técnicas que pueden servir para distintos propósitos. Por ejemplo, las redes de neuronas pueden servir para predicción, clasificación e incluso para aprendizaje no supervisado. [8]

1.3 Clustering Numérico (k-medias)

Uno de los algoritmos más utilizados para hacer clustering es el k-medias (kmeans), que se caracteriza por su sencillez. En primer lugar se debe especificar por adelantado cuantos clusters se van a crear, éste es el parámetro k, para lo cual se seleccionan k elementos aleatoriamente, que representaran el centro o media de cada clúster

Para cada uno de los clúster así construidos se calcula el centroide de todas sus instancias. Estos centroides son tomados como los nuevos centros de sus respectivos clúster. Finalmente se repite el proceso completo con los nuevos centros de los clúster. La iteración continúa hasta que se repite la asignación de los mismos ejemplos a los mismos clúster, ya que los puntos centrales de los clúster se han estabilizado y permanecerán invariables después de cada iteración. Para obtener los centroides, se calcula la media “mean” o la moda “mode” según se trate de atributos numéricos o simbólicos.[9]

El algoritmo SimpleKmeans es una técnica de Clúster que reúne en tablas distintos atributos con una semejanza, los divide en una cantidad de Clúster (Agrupamiento) y proporciona el porcentaje de este en cada uno de ellos.

2.- Desarrollo

2.1 Metodología

Para realizar el trabajo de investigación se utilizo la metodología CRIPS-DM (Cross Industry Standard Processfor Data Mining). Es una metodología que sirve para proyectos de implementación de minería de datos esta metodología es de libre distribución se puede trabajar con sus herramientas para desarrollar cualquier proyecto que se enfoque en la implementación de minería de datos. [10]

 

Figura 1 Metodología CRIS-DM

 

Las fases son:

a) Comprensión del Negocio o Caso de Estudio,

b) Comprensión de los Datos,

c) Preparación de los Datos,

d) Modelado,

e) Evaluación

f) Despliegue.

2.2 Caso de Estudio

La Universidad Tecnológica de la Huasteca Hidalguense es una de las universidades con mayor prevalencia de alumnos de la región actualmente, en la cual se imparte diferentes carreras, los alumnos de esta universidad se caracterizan por los pesados horarios que llevan.

Es por eso que nos interesamos en realizar un proyecto de investigación acerca de las enfermedades cardiovasculares, con la finalidad de saber que alumnos tienen mayores riesgos de padecer alguna de estas.

El análisis se realizó en alumnos que estudian la carrera de ingeniería de Tecnologías de la Información y Comunicación  e ingeniería en Mecatrónica ya que ellos son los que más batallan en la forma de llevar a cabo sus actividades escolares entre tareas y horarios.

La principal problemática que se presenta es que debido a la carga académica es más fácil adoptar  hábitos que no ayudan en nada a su salud, se empieza a comer a cualquier hora, no tienen tiempo para salir a ejercitarse y esto trae como consecuencia que la posibilidad de padecer alguna enfermedad cardiovascular sea mayor.

Necesitamos saber cuál el riesgo que cada alumno tiene de padecer alguna de estas enfermedades para ello se aplicara una encuesta a 203 alumnos de las carreras Mecatrónica y Tecnologías de la Información y Comunicación para saber el riesgo que se tiene de las enfermedades cardiovasculares

2.3 Comprensión de los Datos

El desarrollo de la minera de datos, por medio de la metodología CRISP se realizó un análisis completo en los alumnos de la Universidad Tecnológica de la Huasteca Hidalguense para saber si alguno de ellos estaba en riesgo de padecer alguna enfermedad cardiovascular.

Para el proceso de recolección de información, se utilizó el cuestionario Evaluación de riesgos cardiovasculares (RCV) en adolescentes que fue adaptado  del examen de salud preventivo del adulto  (ESPA) realizado en el año 2000  en la ciudad de Chile por el Instituto Ministerio de Salud, programa de salud del adulto.

El cuestionario consta de un total de 10 preguntas asociadas con el riesgo de padecer alguna enfermedad cardiovascular.

Para el llenado del cuestionario se subraya la respuesta que corresponda a la respuesta seleccionada.

Para la evaluación del cuestionario se asignaron los valores Bajo, Moderado, Alto y Máximo para los cuales la manera de evaluarlos se presenta a continuación.

Variables del cuestionario Enfermedades Cardiovasculares:

Otra de las maneras para que podamos comprender un poco más del tema es la discretización de los datos del cuestionario.

La discretización es el proceso mediante el cual los valores se incluyen en depósitos para que haya un número limitado de estados posibles. Los depósitos se tratan como si fueran valores ordenados y discretos. Puede discretizar tanto columnas numéricas como de cadena.

 

Figura 2 Discretizacion de los Datos

 

En la siguiente tabla se muestra la relación de alumnos  de la Universidad Tecnológica clasificados de acuerdo a sus carreras y  al nivel de estudios que están cursando.

El total de las personas a la que se le aplicó las encuestas es de 203 que corresponden a las carreras que se muestran en la siguiente tabla.

 

Tabla  1 Muestra la relación de alumnos de acuerdo a  las carreras.

 

2.4 Preparación de los Datos

Se inicia con el análisis de los resultado obtenidos gracias a las encuestas, también en este paso se determinan los vectores con los que se van a trabajar con la herramienta WEKA.

La información que se obtuvo se registro en un archivo .ARFF para que de esta forma se analizada con la herramienta

Toda la información que se  obtuvo  que se necesitaba para realizar el estudio.

Los archivos ARFF son un formato propio de la aplicación WEKA tienen formato de texto plano en ASCII, por lo que pueden ser visualizados y modificados desde cualquier editor de texto.

 

Figura 3 Archivo .ARFF

 

Para capturar los datos obtenidos con las encuestas se editó  un archivo bloc de notas con extensión TXT, en el cual después de haber sido llenado se cambió a una extensión  .ARFF, para que pueda ser procesado por WEKA.

 

Figura  4  Vectores de las encuestas

 

Una vez que se creó el archivo .ARFF se utilizó WEKA para poder analizar el contenido del archivo .ARFF.

 

Figura 5 Herramienta WEKA

 

Con el explorador de WEKA se cargaron los archivos .ARFF, para esto usamos el algoritmo o Clúster llamado SimpleKmeans.

 

Figura 6 Algoritmo SimpleKmeans

 

Para poder realizar el análisis de los datos se debió cambiar el algoritmo y los clúster que se querían generar, se eligieron cuatro clúster para este proyecto esto para poder obtener los cuatro grupos de nivel de riesgos de padecer una enfermedad cardiovascular: riesgo Bajo, Moderado, Alto y Máximo.

 

Figura 7 Cantidad de Clústeres utilizados

 

Posteriormente se eligió el número de clúster y las semillas que se utilizarían para el análisis, para obtener el resultado y analizar.

 

Figura 8 Configuración del algoritmo SimpleKmeans

 

Ya configuradas las semillas y los clúster que llevaría cada análisis, se procedió a analizar el archivo .arff cargado y su información.

 

Figura 9 Resultados del Algoritmo SimpleKmeans

 

2.5 Modelado

Experimento General.

Algoritmo SimpleKmeans, de las encuestas “Enfermedades Cardiovasculares”.

Tabla  2 Se muestran los resultados de el algoritmo SimpleKmeans

 

Figura 10 Resultados  de los clúster usando algoritmo SimpleKmeans

 

 

Los resultados del experimento realizado con el algoritmo SimpleKmeans:

La suma de los errores obtenido en esta ocasión fueron de 423.277586974729

2.6 Evaluación

Analizando los datos de salida:

 

Figura 11 Datos de salida

 

Se observa que en los datos el nivel de riesgo que tienen los alumno de padecer una enfermedad cardiovascular.

En la siguiente imagen se puede observar el agrupamiento de los 4 clúster, el primer clúster esta de color azul que representa el 56% de las encuestas  y que pertenece al nivel bajo, el segundo clúster está representado de color  rojo que pertenece a el nivel alto con el 13% de las encuestas aplicadas, el tercer clúster es el de color verde que representa el nivel moderado con un 12% de las encuestas  y el cuarto clúster es el azul cielo que pertenece al riesgo máximo y como se puede observar es el siguiente que predomina después del color azul que es el nivel bajo.

 

Figura 12 Visualización de los Clústeres

 

2.6 Despliegue

En la parte de visualización, nos muestra datos con respecto a las enfermedades cardiovasculares.

 

Figura 13 Visualización de las respuestas obtenidas

 

La siguientes graficas  muestran  las diferentes respuestas obtenidas con las encuestas que se realizaron.

 

Figura 14 Gráficas  de los vectores

 

2.7  Resultados

Los resultados que se obtuvieron con la herramienta WEKA se muestran en la siguiente tabla:

 

Tabla  3 Resultado final

 

De esta forma se determinó que el nivel de riesgo de padecer una enfermedad cardiovascular  que predomina en los alumnos de la Universidad Tecnológica de la Huasteca Hidalguense es bajo, ya que el clúster 1 es el que tiene mayor porcentaje y es el que corresponde a el nivel bajo, en el resultado del algoritmo SimpleKmeans.

                                                                                 

En las siguientes tablas se muestran los resultados de cada clúster

 

Tabla  4 Clúster 0

 

 

Tabla  5 Clúster 1

 

 

Tabla  6 Clúster 2

 

 

Tabla  7 Clúster 3

 

3. Conclusiones y Trabajos Futuros

Las enfermedades cardiovasculares son un problema que  si bien aún en este momento  en  los alumnos no  se notan de forma alarmante, se sabe que si no se toman  las  medidas  necesaria  los problemas que podríamos enfrentar en un futuro no muy lejano será de mayores riesgos, las principales causas por la que se pueden padecer este tipo de enfermedades es por el consumo de bebidas alcohólicas y la falta de ejercicio es importante mencionar que en la encuestas aplicadas la mayoría de las personas contesto que  consume bebidas alcohólicas  por lo cual tienen el riesgo de padecer una Enfermedad Cardiovascular .

De acuerdo a los datos que se obtuvieron gracias a las técnicas de minería de datos y de la herramienta WEKA  podemos decir que en las carreras de Mecatrónica y Tecnologías de la Información y Comunicación de  la Universidad Tecnológica de la Huasteca Hidalguense, hay un porcentaje considerable de personas que están en riesgo de padecer alguna enfermedad cardiovascular y que se tienen que tomar medidas para poder disminuir el riego que actualmente existe.

 Esta investigación nos da material necesario para seguir con proyectos que ayuden a informar a la población el riesgo que existe de padecer una enfermedad cardiovascular.

Referencias

[1] OMS. (Enero de 2015). http://www.who.int. Recuperado el 27 de mayo de 2017, de http://www.who.int: http://www.who.int/mediacentre/factsheets/fs317/es/

[2] Larrieta, M. I. (2003). http://www.ejournal.unam.mx. Recuperado el 7 de junio de 2017, de http://www.ejournal.unam.mx: http://www.ejournal.unam.mx/rca/190/RCA19007.pdf

[3] salud, G. H. (2012). salud.hidalgo.gob.mx. Recuperado el 25 de mayo de 2017, de salud.hidalgo.gob.mx: Salud Hidalgo: http://s-salud.hidalgo.gob.mx/wp-content/Documentos/gaceta/gaceta2.pdf

[4] Salud, O. M. (2012). http://www.who.int. Recuperado el 20 de mayo de 2017, de http://www.who.int: http://www.who.int/cardiovascular_diseases/about_cvd/es/

[5] Nutrición, E. N. (2006). http://ensanut.insp.mx. Recuperado el 2017 de mayo de 2017, de http://ensanut.insp.mx: http://ensanut.insp.mx/informes/ensanut2006.pdf

[6] salud, C. e. (2016). documentos/difusion/tripticos/2016. Obtenido de http://salud.edomex.gob.mx: http://salud.edomex.gob.mx/cevece/documentos/difusion/tripticos/2016/Semana_11_2016.pdf

[7] Felipe de Jesús Núñez Cardenas, R. H. (2013). repository.uaeh.edu.mx. Recuperado el 22 de mayo de 2017, de repository.uaeh.edu.mx: https://repository.uaeh.edu.mx/revistas/index.php/huejutla/article/view/1018/10 16

[8] Moreno, G. (2007). gamoreno.wordpress.com. Recuperado el 4 de julio de 2017, de gamoreno.wordpress.com: https://gamoreno.wordpress.com/2007/10/03/tecnicas-mas-usadas-en-la-mineria-de-datos

[9] Pascual, D., Pla, F., & Sánchez, S. (2007). Algoritmos de agrupamiento.Método Informáticos Avanzados.

[10] Chapman, P., Clinton, J., Kerber, R., Khabaza, T., Reinartz, T., Shearer, C., & Wirth, R. (2000). CRISP-DM 1.0. CRISP-DM Consortium.


[a] Universidad Autónoma del Estado de Hidalgo-Escuela Superior Huejutla
e-mail: felipe_nunez@uaeh.edu.mx, felipe.huejutla@hotmail.com

[b] Universidad Tecnológica de la Huasteca Hidalguense