INTRODUCCIÓN
La educación de calidad en las ciencias médicas es primordial para la formación de profesionales responsables y competentes cuyo encargo social responde a los objetivos de la salud pública, con mejores indicadores de salud y calidad de vida de las poblaciones.(1)
En la educación superior cubana está reglamentado que la evaluación del aprendizaje es un proceso consustancial al desarrollo del proceso docente educativo; tiene como propósito comprobar el grado de cumplimiento de los objetivos formulados en los planes de estudio, mediante la valoración de los conocimientos y habilidades que los estudiantes van adquiriendo y desarrollando.(2)
La evaluación constituye una vía para la retroalimentación y la regulación, le permite al profesor indagar sobre el grado de aprendizaje y desarrollo en el proceso de formación, así como la capacidad para aplicar los contenidos en la solución de problemas de la profesión, le brinda información oportuna y confiable para descubrir aquellos elementos de la práctica, de tal manera que pueda reflexionar para mejorarlos y reorientarlos de forma permanente.(2,3,4)
Cuando se utilizan instrumentos de alto impacto, como los exámenes finales de las asignaturas, es necesario conocer los indicadores técnicos que definen la calidad del instrumento evaluativo que se emplea. La elaboración de comprobaciones debe ajustarse a rigurosos estándares de calidad; los defectos en su elaboración tienen efectos negativos en el currículo, el proceso docente y los estudiantes.(2,4,5)
Dentro de los indicadores de calidad de los exámenes escritos, que con mayor frecuencia se trabajan, están la validez, confiabilidad, dificultad y discriminación.(6,7) Los autores de esta investigación asumen los dos últimos indicadores de calidad para este estudio.
En Cuba, como en otros países, diversos estudios(4,5) reportan defectos en la elaboración de instrumentos evaluativos escritos, estos repercuten de manera perjudicial en las características psicométricas y en su validez.
La implementación del Plan E en la carrera de Medicina comienza a partir del curso 2019-2020 e incluye en su currículo, como una de sus disciplinas, las Bases Biológicas de la Medicina, dentro de ella la asignatura Célula, Tejidos y Sistema Tegumentario impartida en el primer semestre de primer año, la cual termina con un examen final escrito.(7,8)
Los autores consideran que al realizar un análisis de los indicadores de calidad aportarían información útil al colectivo de profesores sobre el grado de dificultad que presenta un examen o contenido evaluado, para trabajar en la superación de los problemas que puedan presentarse en ese sentido y con ello mejorar la calidad del proceso enseñanza-aprendizaje.
Con la realización de este trabajo pretendemos identificar las principales dificultades presentes en el proceso evaluativo de la asignatura y así trazar estrategias a través de las actividades metodológicas planificadas por el colectivo de profesores que permitan realizar acciones que garanticen elevar la calidad en la formación de los estudiantes, por tal motivo fue su objetivo evaluar la calidad del examen ordinario de la asignatura Célula, Tejidos y Sistema Tegumentario a través del nivel de dificultad y el poder de discriminación del instrumento.
MÉTODOS
Se realizó un estudio observacional, descriptivo de corte transversal en el marco de la educación médica (en el campo de la evaluación), para evaluar la calidad del examen ordinario de la Asignatura Célula, Tejidos y Sistema Tegumentario, a través del nivel de dificultad y el poder de discriminación del instrumento aplicado en el primer semestre del primer año de la Carrera de Medicina en la Facultad de Ciencias Médicas de Cienfuegos, curso 2020-2021.
El universo de estudio estuvo integrado por 369 exámenes que corresponden al total de estudiantes presentados al examen de Célula, Tejidos y Sistema Tegumentario en el curso 2020- 2021.
Se clasificaron las preguntas teniendo en cuenta procedimientos y técnicas empleados para su elaboración y se determinó la frecuencia de errores de cada una.
Las variables de estudio declaradas fueron el procedimiento (examen de siete preguntas de tipo ensayo y test objetivo) y técnicas (verdadero y falso, respuesta corta, respuesta larga y enlace o apareamiento), frecuencia de errores, índice de dificultad y poder de discriminación.
Nivel de dificultad: proporción de personas que responden correctamente dentro del total de examinados, es inversamente proporcional a la dificultad, cuanto mayor sea esta proporción menor será la dificultad. Bajo una perspectiva estadística se expresa como índice de dificultad (p) y, como cualquier índice, debe estar cercano a una proporción de 0,5-0,6.(6,9) Su cálculo se realizó por la fórmula de Backhoff.(9)
Se distribuyeron los valores de p en: altamente difícil menos de 0,32; medianamente difícil de 0,32-0,52; dificultad media de 0,53-0,73; medianamente fácil de 0,74-0,86 y altamente fácil más de 0,86 de acuerdo a los parámetros propuestos por Backhoff.(9)
Se interpretaron los resultados acordes con la curva de distribución de frecuencias donde se espera que, según las respuestas correctas dadas por los estudiantes, un 5 % considera fácil el examen, 20 % medianamente fácil, 50 % con dificultad media, 20 % medianamente difícil y 5 % difícil.(9)
Poder de discriminación: permite distinguir a los estudiantes de alto y bajo rendimiento, además aporta criterio de predicción sobre los resultados del estudiante, pues si el examen y una pregunta miden la misma habilidad o competencia, se puede esperar que quien tuviera una puntuación alta en todo el examen deberá tener altas probabilidades de contestar correctamente los temas evaluados en sus preguntas. Para identificarlo se utilizan dos indicadores: índice de discriminación y coeficiente de discriminación.(9) En esta investigación solo se trabajó con el índice de discriminación.
Índice de discriminación: permite distinguir los estudiantes de alto y bajo rendimiento, solo se valora 54 % (27 % más alto y 27 % más bajo) de los estudiantes evaluados, por tanto, se dividió el grupo de estudiantes en tres subgrupos, de acuerdo con calificación que obtuvieron en el examen, quedó así un tercio superior, un tercio medio y un tercio inferior.(9)
Cuanto más alto es el índice de discriminación (Di), la prueba diferenciará mejor a los estudiantes con altas y bajas calificaciones. Si todos los estudiantes con altas calificaciones contestan correctamente una pregunta y todos los estudiantes con bajas calificaciones contestan incorrectamente, entonces el Di= 1, (valor máximo de este indicador); si sucede lo contrario D= -1 (valor máximo negativo), si ambos grupos contestan por igual Di= 0 (valor mínimo de discriminación).
Un índice de discriminación negativo refleja error en la determinación de la clave o que es una pregunta muy difícil, lo cual impediría discriminar correctamente un grupo de estudiantes para valorar si dominan o no el contenido evaluado.
Cuando el índice es altamente positivo se considera una pregunta excelente, ajustada a la clave, pero si disminuye el índice refleja que la pregunta se podrá modificar, debido a que muy pocos estudiantes seleccionaron la respuesta correcta, o un gran número de estudiantes seleccionó otra respuesta como correcta, lo cual orienta a la revisión para valorar si esa otra respuesta predominante sería igualmente correcta, si hay problemas de redacción que hagan que el estudiante interprete diferente a la respuesta correcta, o si consta de preguntas con respuestas muy elementales que disminuyan el poder de discriminación que se persigue.(10)
Para el cálculo del indicador índice de discriminación (Di) se aplicó la fórmula:(8, 9,11)
Pasos seguidos para el cálculo de Di: se organizaron los resultados de los exámenes en orden decreciente, se calculó 27 % de los resultados más altos y de los más bajos, se calculó el número que representa 46 % restante, se aplicó la fórmula.
El Di se distribuyó según propuesta de Backhoff:(9) mayor de 0,39 calidad excelente (conservar), de 0,30 – 0,39 buena calidad (posibilidades de mejorar), de 0,20 – 0,29 calidad regular (necesidad de revisar), de 0,00 – 0,20 pobre calidad (descartar o revisar a profundidad) y < -0.01 pésima calidad (descartar definitivamente).
Los métodos estadísticos que se utilizaron para la identificación del índice de dificultad y el índice de discriminación fueron del software de hoja de cálculo Excel de Windows XP. Se realizó un análisis descriptivo de todas las variables del estudio. Se trabajó con números enteros, porciento e índices para la presentación de los resultados en tablas.
Esta investigación fue aprobada por el Comité de Ética y el Consejo Científico de la Universidad de Ciencias Médicas de Cienfuegos.
RESULTADOS
El examen ordinario estuvo compuesto por siete preguntas. Predominaron las preguntas de tipo ensayo (57,14 %) y dentro de estas las de respuesta corta (75 %). (Tabla 1).
Se comprobó que la pregunta uno tuvo mayor número de aciertos con un total de 349 para un 94, 58 %; la pregunta cuatro tuvo el mayor número de errores o menor número de aciertos con un total de 253 que representa el 68, 56 %. Resultaron aprobados en el examen 328 estudiantes que representa el 88,88 % y desaprobados 41 estudiantes para un 11,11 %. (Tabla 2).
Según los resultados obtenidos del examen, de acuerdo a su índice de dificultad, se observó que de las siete preguntas, cinco (71,42 %) fueron altamente fácil, dos (28,57 %) medianamente fácil, una (14,28 %) dificultad media. (Tabla 3).
El índice de discriminación osciló entre 0,69 y 0,85, así la mayoría de las preguntas presentaron excelente discriminación y solo una con pobre discriminación. (Tabla 4).
DISCUSIÓN
El examen ordinario estuvo compuesto por siete preguntas, predominaron las de tipo ensayo y dentro de estas las de respuesta corta. El hecho de limitar el espacio de respuesta favorece la facilidad de calificación, pero, al mismo tiempo, reduce la posibilidad del estudiante de la libre expresión. Permite apreciar la capacidad de síntesis, comparación, redacción y originalidad del estudiante.
Al revisar algunos artículos se pudieron encontrar autores como Carrazana et al.(6) que analizaron en sus investigaciones instrumentos evaluativos con formato mixto, resultados que evidencian la tendencia a la elaboración de exámenes en este formato en ciencias médicas. Zayas,(12) plantea que las preguntas más empleadas son las de test objetivo, pero, contrariamente, las preguntas de mayor preferencia por los estudiantes fueron las de ensayo.
Las autoras consideran que lo correcto sería utilizar exámenes de formato mixto, utilizando ambos tipos de preguntas y así se pueden aprovechar las ventajas de cada una y minimizar sus desventajas.
Cuando se hace el análisis de la frecuencia de errores se puede observar que la pregunta uno tuvo mayor número de aciertos que la pregunta cuatro, lo que coincide con los resultados obtenidos cuando se le calcula el índice de dificultad a cada una de las preguntas. En investigaciones revisadas se plantea que los resultados que se desean obtener para un examen, como promedio, deben oscilar en un rango de dificultad media a medianamente fácil;(6,9) sin embargo, este estudio no se comporta según lo planteado.
El promedio general de dificultad del examen analizado fue de 0,88, clasificándose de altamente fácil lo cual provocó que más de 80 % de los estudiantes lograran responder el examen satisfactoriamente. Según Carrazana,(6) el nivel medio de dificultad del examen debe oscilar entre 0,5 y 0,6; aunque Backhoff(9) extiende el límite superior de este rango hasta 0,73, criterio asumido por los autores de este trabajo.
El resultado de este estudio difiere de lo planteado por algunos autores, los cuales plantean que un examen que posea dificultad media es superior, en confiabilidad de resultados, a aquellos que tengan mucha dificultad o que resulten muy fáciles, debido a que aumenta el criterio para diferenciar los estudiantes que dominan un contenido de los que aún no lo hacen. Es decir, exámenes muy fáciles o muy difíciles dan poco margen de discriminación, debido a que los estudiantes son igualados, en un examen muy fácil la mayoría tiene altos resultados, en un examen muy difícil la mayoría tiene muy bajos resultados, estas preguntas no contribuyen a la fiabilidad.(6,9,13)
Los autores consideran que los resultados obtenidos en el examen se encuentran asociados al trabajo metodológico del colectivo de la asignatura con el uso de las guías autoformativas, las cuales se implementaron en la educación a distancia debido a la COVID-19, fortaleciendo así la autopreparación de los estudiantes que se enfrentaron a un proceso de enseñanza aprendizaje diferente a los cursos anteriores.
El índice de discriminación osciló entre 0,69 y 0,85; así, la mayoría de las preguntas presentaron excelente discriminación y solo una con pobre discriminación. Estas cifras muestran que el instrumento presenta buena eficacia para diferenciar los estudiantes que tienen buenos resultados de aquellos con resultados bajos, define sin dificultad aquellos estudiantes que tienen el conocimiento correcto de aquellos que no lo tienen, resultados diferentes se encontraron en otros estudios afines con este.(6,9,14)
La excelente discriminación general del instrumento concuerda con la frecuencia de errores del examen. Estos resultados coinciden con investigaciones realizadas por Blanco Pereira y colaboradores.(13)
La pregunta con índice discriminativo pobre (14,28 %) coincide en ser clasificada de dificultad media según su índice de dificultad, fue elaborada de tipo ensayo de respuesta larga, por lo que tenía mayor grado de complejidad, a pesar de esto podemos decir que aunque los estudiantes hayan obtenido baja calificación en esa pregunta, no determinó para que alcanzaran altas puntuaciones en el examen en general.
Es criterio de las autoras que en la pregunta de dificultad media que no discriminó adecuadamente, debe ser valorada la posibilidad de emplear otro tipo de procedimiento para su confección, descartar o revisar con profundidad para lograr la mejor comprensión por parte de los estudiantes, también se considera que ellos pueden ser entrenados durante las evaluaciones frecuentes en este tipo de preguntas, siempre con el objetivo de lograr buenos resultados en las preguntas del examen.
Se debe tener presente que al hacer la revisión de un examen se debe verificar: si las preguntas responden a los objetivos generales a evaluar, si otras respuestas predominantes serían igualmente correctas, si existen problemas de redacción que hagan que el estudiante interprete diferente a la respuesta correcta, o si constan preguntas con respuestas muy elementales o muy difíciles que disminuyan el poder de discriminación que se persigue.(6,9)
Podemos concluir que el examen de Célula, Tejidos y Sistema Tegumentario mostró una calidad adecuada a partir del análisis de la coherencia entre las preguntas, el nivel de dificultad y el poder de discriminación.
Sugerimos incorporar a estas investigaciones métodos cualitativos que permitan valorar la calidad de los instrumentos, así como continuar trabajando la línea de la evaluación del aprendizaje en las actividades metodológicas de los colectivos de asignaturas que integran la disciplina Bases Bilógicas de la Medicina y de esta forma profundizar en la elaboración del diseño de los instrumentos de evaluación, que ayudan en la eficiencia del proceso docente educativo.
Conflicto de intereses
Los autores declaran no tener conflicto de intereses.
Contribuciones de los autores
Conceptualización: Marlen Llanes Torres.
Curación de datos: Grey Alicia Crespo Lechuga.
Análisis formal: Zulema Tamara Mesa Montero .
Investigación: Marlen Llanes Torres,
Metodología: Laura Naranjo Hernández.
Administración del proyecto: Marlen Llanes Torres.
Supervisión: Galia Ivis Pérez Rumbaut, Marlen Llanes Torres.
Validación: Laura Naranjo Hernández, Marlen Llanes Torres.
Visualización: Marlen Llanes Torres, Laura Naranjo Hernández.
Redacción del borrador original: Marlen Llanes Torres.
Redacción, revisión y edición: Laura Naranjo Hernández, Marlen Llanes Torres.
Financiacion
Universidad de Ciencias Médicas de Cienfuegos. Cienfuegos, Cuba.