INTRODUCCIÓN
El empleo de modelos estadísticos predictivos en las ciencias de la salud ha crecido significativamente en los últimos años. Estos emergen como un vínculo importante entre la estadística y la práctica médica; son de gran ayuda en la toma de decisiones y permiten la creación de diversos sistemas y herramientas útiles para reducir las incertidumbres, garantizar mejores actuaciones y establecer eficaces medidas de control para la erradicación de las enfermedades.1 Las técnicas estadísticas multivariadas son la base para la elaboración de dichos modelos, se emplean comúnmente en problemas de reducción de dimensionalidad, y los resultados de estas proyecciones pueden ser empleados para visualización y/o para determinación de asociaciones significativas entre variables.2,3
Entre las técnicas multivariadas más utilizadas en las ciencias médicas, se encuentran la regresión logística binaria, empleada para modelar respuestas discretas4 y la metodología de árboles de decisión a través del algoritmo de detector automático de interacciones mediante Chi-cuadrado (CHAID, por las siglas del inglés Chi-squared Automatic Interaction Detector), útil para solucionar los problemas que surgen al obtener información, encontrar patrones y definir tendencias.5
Se calcula que en 2014 la prevalencia mundial de la diabetes mellitus (DM) fue del 9 % entre los adultos mayores de 18 años. En 2012 fallecieron 1,5 millones de personas como consecuencia directa de la diabetes. Más del 80 % de las muertes por esta enfermedad se registra en países de ingresos bajos y medios. Según proyecciones de la OMS, la diabetes será la séptima causa de mortalidad en 2030.6-8
Las complicaciones de la DM pueden ser metabólicas y afectar múltiples órganos, entre ellos, los miembros inferiores. Por diferentes factores los pies reciben las mayores afectaciones, con altas probabilidades de presentar ulceraciones que generalmente se tornan complicadas y llegan a presentar infecciones que van desde leves hasta severas; a esta enfermedad se le denomina pie diabético y es una de las complicaciones más frecuentes y significativas de la DM.9 Estadísticas mundiales revelan que cada año, del 1 al 4 % de los pacientes diabéticos padece úlcera en sus pies; y entre el 10 y el 15 % tienen altas probabilidades de tenerlas en algún momento de su vida.10
Una vez que aparecen las úlceras no solo se pone en peligro el miembro afectado, sino incluso la vida del paciente, puesto que se considera que entre un 15 y un 30 % de los pacientes diabéticos con este padecimiento requiere la amputación del miembro; en Cuba se realizan alrededor de 1000 amputaciones de miembros inferiores cada año.11
La necesidad de comprender, prever y estudiar el padecimiento de pie diabético es una cuestión primordial y representa un gran reto médico. Trazar estrategias de intervención para disminuir este padecimiento, puede traducirse en resultados positivos para mejorar la calidad de vida de los pacientes diabéticos, así como desde la perspectiva socioeconómica, debido a la alta prevalencia de la diabetes en la población laboralmente activa.
En la Clínica del Diabético del municipio de Cienfuegos, entidad docente-asistencial a la que son remitidos pacientes de las consultas multidisciplinarias de las diferentes áreas de salud o del Hospital Provincial, se ha recopilado una información estadística considerable sobre el comportamiento de los factores de riesgo del pie diabético, lo cual posibilita profundizar en el estudio del sistema de relaciones entre la aparición del pie diabético en pacientes con DM y los factores de riesgo asociados.
En el presente trabajo se persigue diseñar un modelo estadístico predictivo para la aparición de pie diabético en pacientes con DM tipo 2 a partir del análisis de los factores de riesgo.
MÉTODOS
Se realizó un estudio descriptivo, prospectivo, que incluyó pacientes atendidos en la Clínica del Diabético de Cienfuegos, en los años 2010, 2011, 2012 y 2013, con diagnóstico de DM tipo 2, por ser la de mayor incidencia en este tipo de enfermedad; y los residentes del municipio Cienfuegos, debido a su estabilidad en las cosultas por la cercanía a la clínica. Del total de pacientes atendidos en este municipio (1060), se seleccionaron dos muestras por el método del muestreo aleatorio simple, a razón de uno a tres: la primera contó con 795 pacientes con la finalidad de elaborar los modelos; y la segunda, con 265 pacientes, para la evaluación de la capacidad predictiva de los modelos determinados.
Se utilizaron las historias clínicas o registros médicos de la institución como fuente para la recolección de datos. Se utilizó como variable dependiente el padecimiento de pie diabético, operacionalizada a través de las categorías sí o no.
Las variables independientes se agruparon en los cuatro grupos que se citan a continuación y se correspondieron con los factores de riesgo medidos en la Clínica del Diabético:
- Sociodemográficas: edad (en años cumplidos); sexo (femenino y masculino); nivel de escolaridad (primaria no terminada, primaria, secundaria, obrero calificado, bachiller, técnico medio, universitario); ocupación (trabajador, jubilado, ama de casa, desempleado o desocupado).
- Hábitos tóxicos: consumo de bebidas alcohólicas (no bebedor, ex bebedor, bebedor ocasional, bebedor); consumo de café (sí o no); hábito de fumar (sí o no).
- Clínicas: tiempo (evolución de la diabetes desde que fue diagnosticada en años); índice de masa corporal (Kg/m2); niveles en sangre de glucemia (valores menores a 7,00 mmol/l y valores mayores iguales a 7,00 mmol/l); creatinina (μmol/l); triglicéridos (mmol/l); ácido úrico (μmol/l); colesterol (valores menores iguales a 5,20 mmol/l, y valores mayores a 5,20 mmol/l).
- Antecedentes patológicos personales: hipertensión arterial (sí o no ); cardiopatía isquémica (sí o no); hiperlipidemia (sí o no ); claudicación intermitente (sí o no ); DM (sí o no).
Se procedió al análisis exploratorio de los datos. Para ello se determinaron los modelos de pronóstico factibles, con los 795 pacientes seleccionados en la muestra; se interpretaron los resultados del modelo seleccionado; se analizó la validez de los modelos estimados y se seleccionó el modelo más ventajoso mediante la muestra de prueba conformada por los 265 pacientes.
En la selección de las variables del modelo de predicción, se tuvieron en cuenta las que presentaron relación con la variable dependiente. Para ello se efectuó un análisis bivariado de asociación entre cada una de las covariables explicativas (independientes) y la variable de respuesta (dependiente) padecimiento de pie diabético (PD).
Para verificar el ajuste de las variables independientes cuantitativas a la distribución normal con la variable dependiente, se aplicó la prueba Kolmogorov-Smirnov.
En el caso de las variables independientes de tipo cualitativa o categórica (nominales u ordinales), se emplearon tablas de contingencia para la exploración de posibles asociaciones; se comprobó la significación estadística del contraste asociado al estadístico Chi cuadrado. Cuando la significación asociada a este estadístico fue menor o igual a 0,05 (p≤0,05), se rechazó la hipótesis nula de independencia y se incluyó la variable explicativa en un análisis posterior. Para las variables de distribución normal, se utilizó la T-Student; en caso contrario se realizó la prueba no paramétrica U the Mann-Whitney, se comprobó la significación estadística del contraste y, en caso de diferencias significativas (p≤0,05), se incluyó la variable explicativa en un análisis posterior.
Para evitar el problema de la multicolinealidad en los modelos estimados, y separar la influencia de las variables independientes sobre la dependiente, se determinó si los cambios en una variable influían en los cambios de la otra. Cuando el grado de asociación fue superior a 0,8 se evidenció la existencia de una correlación fuerte; en este caso se analizó y valoró la posibilidad y beneficios de excluir una de las variables en el análisis de regresión.
Para la evaluación de la correlación se aplicaron los siguientes coeficientes de asociación: entre variables categóricas dicotómicas se utilizó el estadístico Phi; entre variables categóricas politómicas, V de Cramer; entre variables ordinales, Rho de Spearman; y entre variables cuantitativas, el estadístico Pearson (r) o Spearman, según criterio de normalidad.
Para elaborar el modelo mediante regresión logística binaria, se consideró la técnica de selección hacia delante, que contrasta la entrada según la significación del estadístico de Wald. La bondad del ajuste de dicho modelo se comprobó a través del estadígrafo Chi Cuadrado de Hosmer y Lemeshow, y para evaluar la interrelación entre los cambios de la variable dependiente por la unidad de cambios de cada una de las variables independientes, se calculó la R2 de Cox y Snell y R2 de Nagelkerke.12,13
Para elaborar el modelo mediante el algoritmo CHAID, se incluyeron todas las variables independientes seleccionadas en el análisis exploratorio que tuvieron relación con la variable dependiente padecimiento de pie diabético. El análisis de sensibilidad se basó en los criterios de razón de verosimilitud y los otros parámetros utilizados y requeridos por el programa fueron: control del tamaño del árbol (hoja con registros superiores a 30 y profundidad del árbol menor a 8).14
Se llevó a cabo un estudio comparativo de los resultados obtenidos al establecer un modelo predictivo con regresión logística binaria y otro con árboles de decisión con algoritmo CHAID. Se tuvo en cuenta el de mayor porcentaje de pacientes bien clasificados (PT), de valor predictivo de un resultado positivo (VPP), y mayor valor de sensibilidad (Sb).
Para la validación de los resultados se construyó la curva característica de funcionamiento del receptor (ROC, por las siglas del inglés Receiver Operating Characteristic Curve).
Para el análisis estadístico de los datos, se utilizó el programa SPSS 15.0 para Windows.
RESULTADOS
Desde el año 2011 hubo un incremento de los pacientes diabéticos tipo 2, hasta llegar a la cifra más elevada en el año 2013 (29,8 %). (Figura 1).
La mayoría de los pacientes (630) padeció pie diabético y solo el 20,8 % de ellos no lo presentó. (Figura 2).
Al realizar análisis bivariado para determinar los factores de riesgo más significativos en el padecimiento del pie diabético, se obtuvieron los siguientes: edad, tiempo, hábito de fumar, consumo de café, consumo de bebidas alcohólicas, cardiopatía isquémica (APP_CI), hiperlipidemia (APP_HIPER), niveles de glucemia en sangre (glucemia) y colesterol. (Tabla 1).
Al no existir multicolinealidad entre estas variables, se decidió incluirlas a todas en la elaboración de los modelos predictivos.
Resultados de la regresión logística
Las variables que mostraron asociación estadísticamente significativa en la regresión logística (p<=0,05), fueron la edad (p=0,011), tiempo (p=0,006), APP_CI (p=0,001) y APP_HIPER (p=0,000). (Tabla 2). Como resultado de la regresión logística binaria se obtuvo la siguiente ecuación para predecir el padecimiento de pie diabético:
La probabilidad asociada al estadígrafo (Chi cuadrado) fue de 0,442, y los valores de R2 de Cox y Snell y R2 de Nagelkerke fueron 0,095 y 0,148 respectivamente. El modelo elaborado clasificó correctamente, la predicción del padecimiento de pie diabético (PD), con un porcentaje global de 79,2 %. (Tabla 3).
Resultados del árbol de decisión con algoritmo CHAID
Como resultado del algoritmo CHAID, se obtuvo un modelo compuesto por ocho nodos terminales (segmentos), que predijeron el padecimiento de pie diabético según los factores de riesgo presentes en cada paciente. (Figura 3).
El modelo elaborado clasificó correctamente la predicción del padecimiento de pie diabético (PD), con un porcentaje global de 80 %. (Tabla 4).
Los modelos se comportaron de forma similar en los tres elementos analizados, aunque el árbol de decisión con CHAID mostró un porcentaje de clasificación ligeramente superior al de regresión logística en VPP con un valor de 85 %. (Tabla 5).
Al analizar el comportamiento de la curva ROC, los valores con el algoritmo CHAID fueron de 0,732, mientras que los del modelo de regresión logística binaria fueron de 0,697, lo cual es considerado como aceptable para evaluar la capacidad predictiva de los modelos. (Tabla 6).
DISCUSIÓN
Al analizar la distribución de pacientes para cada uno de los años estudiados, se observó un incremento de la DM tipo 2 de manera proporcional al transcurso del tiempo. A mayores escalas sucede algo similar, o sea, en Cuba y en el mundo, la enfermedad afecta cada vez a más personas. De manera específica, la alta frecuencia del pie diabético como una complicación importante de la diabetes, ha sido reconocida a nivel mundial por su impacto sobre los sistemas de salud.15,16
Al aplicar la técnica de regresión logística se comprobó la bondad del ajuste del modelo respecto a los datos, a través del estadígrafo Chi Cuadrado de Hosmer y Lemeshow, sin obtener diferencias entre los valores esperados y los observados, con independencia de la prevalencia del suceso, por lo cual se considera que el modelo se ajusta a los datos.
Al evaluar la interrelación entre los cambios de la variable dependiente por la unidad de cambios de cada una de ellas, se obtuvo un resultado significativo en los valores de R2 de Cox y Snelly y R2 de Nagelkerke. Estos análisis previos indican que algunas de las variables independientes funcionaron en el modelo de regresión logística como variables predictoras.
La probabilidad de padecer pie diabético en la población estudiada, está significativamente relacionada con la edad, tiempo de evolución de padecer diabetes, antecedentes patológicos de cardiopatía isquémica e hiperlipidemia. Los resultados coinciden con los criterios de diferentes autores que han estudiado este padecimiento,17,18 e incluyen las variables identificadas como factores de riesgo unidas a otros factores que no se registran en la Clínica del Diabético de Cienfuegos.
Para la obtención del modelo mediante el algoritmo CHAID, se comprobó que las variables cardiopatía isquémica e hiperlipidemia fueron las de mayor incidencia en el padecimiento del pie diabético, con un 97,3 %. No obstante, también influyen en esta enfermedad las variables edad (pacientes mayores de 50 años), niveles de glucemia (valores mayores de 7,0 mmol/l) y tiempo de evolución (más de dos años con diagnóstico de DM).
Posteriormente se realizó la selección del modelo más ventajoso, mediante la tabla de clasificación de cada uno los modelos elaborados. (Tablas 3 y 4). Se seleccionó el modelo con mejor porcentaje de PT y VPP, y se tomó el de mayor Sb, ya que el objetivo del trabajo es la predicción del padecimiento de pie diabético y de acuerdo con lo que plantean diferentes autores para establecer hipótesis diagnósticas, se requieren pruebas de alta sensibilidad para evitar que escapen positivos (enfermos).19
Respecto al porcentaje de clasificación, los modelos se comportaron de forma similar, aunque el árbol de decisión con CHAID es ligeramente superior con un 80 % de clasificación correcta. Respecto al VPP los modelos mostraron valores adecuados, superiores en el árbol de decisión con CHAID, que fue de 85 %. Los resultados de la sensibilidad, tanto para el modelo de regresión logística, como para el árbol de decisión, se comportaron de forma similar, ya que ambos clasificaron correctamente a los pacientes que tenían padecimiento de pie diabético con valores de 89,3 % y 89,1 %, respectivamente.
Como los modelos se comportaron de forma bastante similar en los elementos analizados, se procedió a validar los resultados a través de la curva ROC, lo cual permite comprobar la utilidad de las variables pronósticas que, ante un par de individuos, uno enfermo y otro sano, los clasifique correctamente.20 Este procedimiento reveló que, aunque ambos modelos tienen resultados aceptables para la predicción, los valores del área bajo la curva para el modelo elaborado con el algoritmo CHAID fueron superiores a los del modelo de regresión logística binaria. Por tanto, se decidió seleccionar el modelo elaborado con el árbol de decisión como el más efectivo.
Como resultado del proceso de búsqueda de un modelo estadístico predictivo del padecimiento de pie diabético en la población de pacientes con DM de tipo 2 a partir de factores de riesgo, se pudo establecer que el uso de los árboles de decisión a través del algoritmo CHAID constituye la variante que garantiza una capacidad predictiva adecuada, factible para ser aplicada en la Clínica del diabético de Cienfuegos.