Evaluar oralmente en tiempos de IA: conclusiones provisionales
La irrupción de la inteligencia artificial generativa en la vida universitaria ha cambiado nuestro modo de pensar la evaluación mucho más deprisa de lo que estamos dispuestos a reconocer. No solo porque se haya vuelto técnicamente más difícil detectar el fraude académico, sino porque el propio diseño de las actividades comienza a presuponer —de forma más o menos explícita— que los estudiantes harán uso de estas herramientas. En este mismo blog se ha descrito ese giro, primero como desconcierto y miedo ante ChatGPT, que llevó a algunos a refugiarse en exámenes orales y escritos “hasta nuevo aviso”, y después como oportunidad para repensar la evaluación y las actitudes del alumnado en un mundo atravesado por la IA.
El problema es que esta presunción tiene consecuencias también para aquellos pocos alumnos que, comprendiendo sus riesgos, se resisten conscientemente a utilizarlas. Al comienzo de este curso, en la jornada de inauguración de mi universidad, una alumna lo expresó con una claridad que previene contra una opción demasiado acelerada por la integración de la IA en la evaluación. Venía a decir algo así: quienes no queremos usar la IA para hacer los trabajos nos sentimos empujados a hacerlo, porque los ejercicios parecen pensados para gente que sí la usa.
Es decir: la dificultad creciente de los encargos académicos, sumada a la escasez de tiempo real de muchos estudiantes, acaba penalizando precisamente a quienes desean mantener una relación personal con su propio aprendizaje. No es un buen punto de partida.
La importancia de evaluar para el proceso de aprendizaje
Ahora bien, evaluar no es opcional en la universidad. No se trata solo de custodiar el “valor” de los títulos académicos —un valor, por lo demás, cada vez más cuestionado—. La evaluación forma parte del propio proceso educativo.
En otras entradas se ha insistido en que solo tiene sentido si se vincula de verdad con el proceso de aprendizaje. La necesidad de alcanzar una determinada marca en una fecha concreta sigue siendo, para bien o para mal, el detonante de buena parte del estudio que realizan los alumnos a lo largo del curso. Y eso tiene un lado positivo: un examen bien planteado puede llegar a ser la ocasión de una adquisición de conocimientos que, de otro modo, quizá nunca se produciría. Además, si la prueba está bien diseñada, no constituye únicamente un control; es también ocasión de una nueva síntesis de conocimientos, clave para la adquisición personal del saber. Es un momento en el que aprendemos y, por tanto, crecemos.
Las dificultades que impone la IA en este proceso
Por eso la preocupación por la evaluación en tiempos de IA es real. Y no sólo a posteriori, en el momento de corregir. Las dificultades para evaluar están empezando a condicionar el tipo de instrumentos y de contenidos que nos atrevemos a poner en las manos de nuestros estudiantes.
La pregunta se vuelve incómoda: ¿tiene sentido pedirles que redacten un ensayo si no es en el contexto del aula, con bolígrafo y papel? ¿Tiene sentido pedirles que lean un libro entero sabiendo hasta qué punto pueden delegar resúmenes, comentarios y reseñas?
En una entrada anterior me preguntaba, precisamente, si “necesita un universitario saber escribir”, advirtiendo del riesgo de que el lenguaje (el instrumento y cauce principal del razonamiento) se convierta en una destreza externalizable.
Movido por esta preocupación, este curso me he animado a pedir algo que nunca había pedido a un determinado perfil de alumnos (estudiantes de un grado en Ciencias de la Actividad Física y del Deporte): que se lean un libro. Y no contento con ello, he añadido una segunda decisión: evaluar el contenido de ese libro. Y hacerlo de forma oral, mediante un diálogo en grupos reducidos. La apuesta entronca, en cierto modo, con la reciente reflexión de Neila Campos sobre la necesidad de volver a la oralidad y al debate dialéctico —desde la disputatio medieval hasta nuestras aulas.
La prueba sigue en curso —todavía me quedan varias decenas de alumnos por examinar, de un total de un centenar—, pero el experimento me está permitiendo ver ya algunos frutos (varios de ellos inesperados) que van más allá de mi intención inicial de asegurarme de que “se leyeran el libro” y “lo trabajaran”. Primero explicaré muy brevemente el diseño del ejercicio para quien tenga interés en ello y paso, inmediatamente después, a detallar algunas conclusiones provisionales.
El experimento: leer un libro y trabajarlo
El contexto es bastante particular. Se trata de una asignatura de carácter humanístico (antropología filosófica), en un grado de Ciencias de la Actividad Física y del Deporte. El estudiante tipo aborrece, en muchos casos, la lectura continuada y está poco habituado a enfrentarse a un texto largo (para algunos es su primera lectura de un libro desde la Educación Secundaria). Por esto, cuando se les plantea en septiembre, al inicio de la asignatura, la lectura completa de un libro narrativo de no ficción (una autobiografía) el escepticismo es generalizado. Poco a poco, según algunos van comenzando y compartiendo sus experiencias en clase y según se aproxima la fecha de la evaluación, el efecto inicial se irá mitigando y comenzarán a tomárselo más en serio.
El objetivo de la actividad es emplear los conceptos desarrollados durante el curso como clave de interpretación de la vida de una persona, en este caso, el protagonista. Así, se emplea una vida real (de otra persona) como terreno de ensayo y aplicación que permita conectar la teoría y la vida, objetivo fundamental de una asignatura de antropología para un perfil sin otros intereses académicos en la materia. Dicho en otras palabras: la asignatura de antropología: ¿me ayuda a comprender mejor la vida y las relaciones entre personas?
Evaluación a prueba de IA
La evaluación del libro se realiza mediante un examen oral en grupos de tres o cuatro alumnos definidos pocos días antes para evitar la división del trabajo. Para dejar evidencia de la prueba y materia para el derecho a revisión, se graba el sonido de la actividad (deben decir sus nombres, para que las voces resulten reconocibles). La rúbrica con los criterios de evaluación está definida de antemano y los alumnos la conocen.
Cada grupo dispone de un tiempo acotado —unos veinte minutos— durante el cual mantengo con ellos un diálogo en torno al texto. Durante el desarrollo de la prueba: las preguntas no se centran en datos marginales, sino en cuestiones de fondo: comprensión del argumento, interpretación de algunos pasajes clave, capacidad de relacionar el libro con los contenidos de clase y, en la medida en que se presten, con la propia experiencia de los estudiantes.
He procurado evitar el formato de “interrogatorio” y optar más bien por una conversación guiada. Pregunto, repregunto sobre sus aportaciones, pido ejemplos, invito a que se respondan entre ellos, les pido que se posicionen ante determinadas decisiones del protagonista, aclaro y conecto conceptos que utilizan, propongo marcos de interpretación. El objetivo no es que “reciten” el libro o el temario, sino que entren en relación con ambos por medio del diálogo. Para esto, último, me ha resultado útil adelantar la evaluación de los contenidos de la asignatura a los días anteriores a la prueba oral sobre el libro, permitiéndoles optimizar el estudio para las dos pruebas.
Algunas conclusiones provisionales
Insisto: lo que sigue no son “resultados” en sentido fuerte ni un informe de innovación docente. Son impresiones persistentes que se repiten con la suficiente frecuencia como para merecer ser nombradas. Su valor no pasa de una experiencia concreta en un contexto particular, que puede o no ser replicable, pero que arroja algunas luces sobre factores importantes de la relación educativa y el proceso de adquisición y evaluación de conocimientos.
-
Primera conclusión: la lectura del libro (o su ausencia) se vuelve visible en una prueba oral
No todos se han leído el libro. Era previsible y no es, en sí mismo, una buena noticia. Sin embargo, el examen oral ha permitido constatarlo con una claridad que no había tenido hasta ahora. Frente a la distancia que introduce el papel entre el profesor y el alumno, la riqueza del diálogo —que permite repreguntar, pedir que expliquen con sus palabras, que ilustren una idea con ejemplos en la historia— ofrece un grado de certidumbre mucho mayor.
No basta con haber hojeado un resumen: cuando alguien no ha entrado en el texto, el vacío aparece pronto.
Cuando alguien sí ha leído, incluso si le cuesta expresarse, hay matices, hay memoria de escenas que se activa con algo de ayuda. Hay una huella experiencial que se nota. Es una forma modesta de asegurar que la evaluación recoge no solo “datos” sino también comprensión, aplicación y juicio, algo que ya se reclamaba al pedir que la evaluación cubra todo el abanico de competencias.
-
Segunda conclusión: el grupo reducido rescata alumnos “perdidos” en el aula grande
En alguno de los grupos con los que trabajo se había instalado una dialéctica profesor–grupo bastante enquistada. Cierta ironía de fondo, un clima de resistencia pasiva y dispersión generalizada, una especie de pacto tácito para no tomar en serio la asignatura. Era un grupo difícil, como expresaron también otros profesores en las Juntas de Evaluación. En ese contexto, es fácil que uno acabe dando por perdidos a alumnos que sistemáticamente se esconden en el anonimato del aula.
La dinámica de tres o cuatro alumnos por turno (escogidos sin un orden predefinido) ha roto, en parte, este esquema. En el plano comunicativo más personal han aparecido estudiantes que, en el día a día de clase, daban la impresión de estar completamente desconectados o incluso combativos, y que sin embargo, en el tú a tú, han mostrado una comprensión y una capacidad de reflexión muy superiores a lo que cabía esperar. El examen oral, paradójicamente, ha funcionado como dispositivo de rescate.
-
Tercera conclusión: la prueba se convierte en un espacio real de clarificación y feedback
En un examen escrito masivo, el margen para aclarar malentendidos durante la propia prueba es prácticamente nulo. El examen oral, en cambio, se ha convertido en muchos casos en una oportunidad para afinar conceptos, corregir asociaciones erróneas, profundizar en cuestiones que habían quedado mal comprendidas en clase. Los alumnos reciben una respuesta directa que difícilmente tendrían en una tutoría formal, bien porque no la solicitarían, bien porque no se prepararían para aprovecharla bien.
La evaluación deja así de ser únicamente un juicio final para convertirse en un momento de aprendizaje privilegiado.
-
Cuarta conclusión: aparece algo nuevo —frágil y valioso—: conversación entre iguales sobre un libro
Un efecto colateral que no había previsto ha sido la escenificación de un diálogo entre compañeros acerca de un libro que todos han leído. Para muchos estudiantes, es literalmente la primera vez que hablan con sus compañeros sobre la experiencia de lectura de un texto: qué les ha llamado la atención, qué les ha incomodado, qué frases se les han quedado grabadas, en qué momentos se han reconocido.
Hasta entonces, la comunicación sobre el temario de la asignatura había quedado circunscrita a la relación profesor-alumno. Es muy posible que esa escena no se repita en el resto del grado, pero ha servido, al menos, para “romper el hielo” y mostrar que un libro puede ser también un espacio compartido. Mi experiencia con los trabajos en grupo realizados fuera del aula es muy distinta: en la mayoría de los casos no requieren una interacción real más allá de la mínima organización para dividir tareas. Si en otros textos de este blog se ha lamentado la pérdida de espacios universitarios de conversación pausada, aquí aparece, al menos, una pequeña ventana de oportunidad.
-
Quinta conclusión: la IA no desaparece, pero cambia de lugar
Sería ingenuo pensar que la IA se queda fuera de este proceso. Estoy razonablemente seguro de que muchos alumnos han recurrido a herramientas de IA para elaborar resúmenes, listas de temas o respuestas-tipo a posibles preguntas. Sin embargo, en el momento del examen se hace muy visible quién se ha limitado a copiar sin digerir y quién seguramente ha utilizado esos apoyos como punto de partida para un trabajo propio.
Los resúmenes de ChatGPT aprendidos de memoria no soportan una repregunta en vivo y en directo sobre las razones que uno tiene para afirmar algo. La IA puede ayudar a preparar, pero no puede sustituir el acto de apropiación personal que exige responder en primera persona. De algún modo, la prueba oral reordena el ecosistema: el problema ya no es tanto “usar o no usar IA”, sino cómo se usa. El verdadero fracaso se da cuando, tras haber usado todas las ayudas posibles, el alumno llega al examen sin nada que decir cuando se le mira a los ojos. Es, en el fondo, la misma distinción que se viene subrayando aquí entre una IA que empuja hacia los niveles altos de la taxonomía de Bloom y una IA que se limita a suplantar el esfuerzo intelectual mínimo.
-
Sexta conclusión: afloran desigualdades en un ámbito en el que pueden ser rescatadas
El examen oral tiene, por supuesto, sus propias sombras. Una de ellas es que visibiliza desigualdades que de otra forma no aflorarían. Al igual que hay alumnos con una capacidad razonable para estructurar un texto y otros que lo hacen con gran dificultad, hay alumnos que se bloquean en la oralidad: timidez extrema, ansiedad, dificultades para ordenar el discurso en tiempo real. La diferencia entre el formato escrito y el dialogado (no simplemente oral, sino dialogado) es que la interacción personal permite ajustar la comunicación a la capacidad del alumno.
La justicia en la evaluación oral no es automática; exige prestar una adecuada atención al alumno, pero esto resulta mucho más sencillo cuando lo que se evalúa es un rostro humano que cuando todo lo que se tiene es una respuesta escrita en un papel.
Aquí la IA no es el problema central: lo es nuestra capacidad —o incapacidad— para diseñar evaluaciones que no castiguen de manera sistemática ciertos perfiles de estudiante, sin renunciar a potenciar sus capacidades en todos los ámbitos.
-
Séptima conclusión: el profesor también aprende —y queda comprometido por ello
La experiencia me está permitiendo conocer a mis alumnos y el grado en que han alcanzado la comprensión de los contenidos de la asignatura de un modo que difícilmente habría podido comprobar de haberme ceñido a una evaluación escrita. Después de varias decenas de diálogos breves, uno empieza a detectar patrones: qué conceptos cuesta más asumir y qué temas de la asignatura (y del libro) les tocan más de cerca y ofrecen una mejor oportunidad para acceder, desde ellos al conjunto de la asignatura. Todo esto, como es lógico, está llamado a volver a entrar en el aula: me ayuda a ajustar ejemplos, a replantear explicaciones, a dedicar más tiempo a ciertas cuestiones e incluso a reestructurar el temario de cara a cursos próximos.
-
Octava conclusión. Reaviva el deseo de enseñar y acompañar a los alumnos
En un plano quizás más personal, la experiencia de dialogar de tú a tú con los alumnos en un terreno seguro (la vida de un tercero que, generosamente, la comparte en su autobiografía) tiene una riqueza incomparablemente mayor que la soledad que a menudo acusa el docente. La comunicación profesor-alumno, cuando queda circunscrita únicamente a la comunicación regular con grupos grandes, fácilmente se despersonaliza y queda aparentemente reducida a una mera transacción de información, sin acuse de recibo.
Cuando en este blog se nos invita a no perder la fe en nuestros alumnos ni en el sistema, pese a todas las frustraciones, creo que experiencias así son un motivo razonable para mantenerla. La solución, como muchos intuimos, pasa por acercarnos más a ellos y entre nosotros, los profesores.


Muy interesante tu experiencia, Ignacio. (Y gracias por la cita :))
Yo me empecé a dar cuenta de esto antes de la llegada de la IA, concretamente en la pandemia, cuando hice exámenes en directo por videollamada a cada estudiante, para complementar a las pruebas online escritas que ofrecían dudas razonables de autoría.
Mi experiencia se parece a la tuya: mucha más flexibilidad, riqueza, autenticidad, comunicación, incluso aprendizaje durante la prueba.
Puede parecer que las ratios elevadas hacen difícil dedicar ese tiempo a evaluar al alumnado, pero ¿no nos lleva tanto o más tiempo evaluar cada uno de los exámenes o trabajos escritos?
Esto demuestra que el cambio de paradigma que se nos viene puede hacer que en realidad salgamos ganando. Lo que se suele llamar hacer de la necesidad virtud. Hay que ponerse a ello.
Gracias, Ignacio, por plantear y resolver muchas de las dudas que nos han asaltado a todos los docentes en este 2025. Que el mensaje de esperanza que lanzas se haga realidad en los años venideros donde la IA será la nueva realidad del día a día en el proceso de enseñanza-aprendizaje.
¡Muchas gracias, Carmen y Neila! Nos leemos por aquí.
Estimado Ignacio, muchas gracias por expresar tu experiencia de una forma tan clara y sistematica.Este tema es motivo de analisis por mi parte como docente universitario y tu expertisse sera un modo de aplicarlo, saludos