Datos universitarios, Power BI y evidencia causal
Periodismo de datos y el peligro de la estadística Power BI
Afortunadamente cada vez es más habitual que los medios de comunicación escriban piezas de lo que se conoce como periodismo de datos. Sin embargo, algunas de estas piezas usan lo que me gusta denominar como “Estadística Power BI”.
El Power BI es una herramienta de Microsoft para crear dashboards interactivos y visualizaciones bonitas con datos, muy potente para comunicar rápido, aunque a veces se usa más por el “efecto wow” que por su capacidad de realizar un análisis estadístico profundo. (He copiado lo que ha dicho Grok).
Con datos universitarios son habituales las piezas periodísticas que comparan la media de alguna variable entre varios grupos. Los distintos grupos pueden ser, por ejemplo, si la universidad a la que ha acudido un estudiante es pública o privada o si un estudiante acude regularmente a clase de una asignatura o no.
Las diferencias en las medias son un dato interesante, pero pocas veces nos sirve para responder a preguntas causales del tipo ¿cuánto cambian los salarios de los egresados de la universidad privada respecto de la pública?, ¿cuánto cambia el rendimiento en el MIR por haber cursado el grado en una universidad pública y no en una privada?, o ¿cuánto mejora la nota de una asignatura si se acude con asiduidad a clase?
¿Por qué la diferencia de la media no suele servir para responder a la pregunta causal?
Porque los grupos son diferentes, a veces muy muy diferentes. Los estudiantes que acuden a la universidad privada tienen por lo general un entorno económico familiar – con todo lo que ello supone-, diferente de los que acuden a la universidad pública. En Medicina, lo que diferencia a los estudiantes de la universidad pública de la privada son, habitualmente, las notas de acceso. La mayoría de los estudiantes que puede acceder a una universidad pública así lo hace, quedando la universidad privada como una segunda opción para aquellos que no consiguieron entrar por méritos académicos en alguna pública y que, además, puedan costeárselo. Por último, los estudiantes que acuden a clase con asiduidad es probable que estén más motivados que los que no lo hacen, y que, además tengan mayor rendimiento previo.
Así, si los grupos son muy diferentes comparar las medias no tiene ningún valor causal.
¿Cuál es la alternativa?
En la econometría está la solución. Un primer paso sería estimar un modelo econométrico tradicional en el que se use la variable dependiente a explicar (sueldo, nota en MIR, nota en una asignatura), se incorpore una variable dicotómica para el tratamiento a analizar (universidad pública o privada, acude o no a clase con asiduidad) y variables de control.
Para el caso de los salarios de egresados sería fundamental incorporar variables que midiesen el entorno económico de la familia, [y,] en el caso del MIR y de la nota de una asignatura, lo fundamental sería incorporar las notas de acceso a la universidad. De esta manera, es posible que el coeficiente del tratamiento recoja el efecto causal.
Sin embargo, en econometría, desde hace varios años, la “credibility revolution” muestra que para estimar de forma adecuada el efecto causal de un tratamiento hay herramientas más adecuadas que una mera regresión tradicional.
En primer lugar, estaría los experimentos aleatorios que consisten en formar dos grupos similares en cuánto a sus integrantes y en un caso se le somete al tratamiento y en otro no. En este caso comparar la media sí recogería el efecto causal. Sin embargo, en aspectos universitarios parece complicado por no decir imposible realizar ciertos experimentos.
Por ejemplo, la de cantidad de gente a la que tendría que convencer para poder realizar un experimento de si ir a clase es realmente útil. Tendría que tener la autorización de mi vicedecana, el decano, la directora de departamento, el vicerrectorado, y luego lo más complicado, la participación de los estudiantes que caigan en el grupo de ir a clase y que vayan a clase, y de los que caigan en el grupo de no ir a clase y que no vayan. En fin, muy complicado. Por ello, hay que usar muchas veces datos observacionales y si aparece de alguna manera un experimento natural (situación real que simula un experimento aleatorio por azar o reglas externas) miel sobre hojuelas.
Ojalá este post les llame suficiente la atención sobre el toolkit de la “credibility revolution” para aprender más acerca de sus posibilidades y emplearlas.
Diferencia salarial entre universidades públicas y privadas
Esta artículo de Olga Sanmartín en El Mundo tuvo un gran impacto mediático. Su título: “Los titulados de la universidad pública ganan 3.500 euros menos al año que los de la privada… ”, ilustra el contenido del artículo. La autora, con datos del Sistema Integrado de Información Universitaria (SIIU), compara la base media de cotización, la tasa de afiliación a la Seguridad Social, el porcentaje de egresados con contrato indefinido para egresados de universidades públicas y egresados de universidades privadas. En el caso de la base media también lo muestra por ámbitos de estudio. En casi todos los datos, los egresados de universidades privadas obtienen un valor más alto que sus pares de universidades públicas.
¿Acaso son mejores las universidades privadas?
En la introducción a esta entrada, se hacía referencia a uno de los motivos que me había animado a escribir este artículo: el informe de Ismael Sanz, publicado por Funcas, sobre la inserción laboral de los egresados en las universidades españolas, en el que también se emplean datos administrativos del SIIU.
Este trabajo introduce controles por origen socioeconómico, incorporando, de forma separada y conjunta, indicadores del nivel educativo y de la ocupación de los progenitores. En particular, se incluyen variables que indican si ambos padres tienen estudios superiores y si ambos desempeñan ocupaciones de alta cualificación. El objetivo, en este caso, es evaluar hasta qué punto las diferencias salariales observadas reflejan ventajas familiares preexistentes, y no un efecto propio del tipo de universidad cursada.
Los resultados muestran que la desventaja de los egresados de universidades públicas se transforma en ligera ventaja una vez controlado el entorno socioeconómico.
Tomando datos de la Encuesta de Inserción Laboral de Titulados Universitarios (2014) del INE, el trabajo de mis colegas de la Universidad de Oviedo, Juan Francisco Canal y César Rodríguez, analiza la prima salarial entre universidades privadas y públicas para egresados en el curso 2009-2010. Aunque no pueden controlar por el entorno socioeconómico de los egresados, sí lo hacen por varias circunstancias.
Los resultados indican que la rentabilidad es nula: estudiar en una universidad privada no afecta comparativamente ni a los salarios ni a la clase social ocupacional. Es decir, dos análisis que usan modelos econométricos tradicionales encuentran que no hay diferencia salarial entre estudiar en una universidad pública y en una privada, pues las diferencias encontradas se deben a otros factores.
Ojalá aparezcan análisis con evidencia causal sobre esta pregunta, y para ello es imprescindible disponer de buenos datos.
El caso del MIR entre universidades públicas y privadas
Gráficos como este de José María Romeo son habituales una vez que salen los resultados del MIR. En ellos se ordenan las universidades españolas en función de la cantidad de egresados que alcanzan distintos percentiles en el MIR. Este que aquí se incluye es particularmente útil pues muestra la media de 12 ediciones.
Las universidades con mayor rendimiento son la Autónoma de Madrid, Barcelona, la mía (Universidad de Castilla-La Mancha), la Rey Juan Carlos y la de Oviedo, todas ellas públicas. Por el contrario, las de menor rendimiento son la Alfonso X el Sabio, Cardenal Herrera, Cádiz, Vic y San Vicente Mártir, casi todas privadas. Por lo que se podría inferir que las universidades privadas preparan peor para el MIR que las públicas.
Pero, ¿es esto cierto?
Un primer paso lo da Carlos Sunyer junto con sus coautoras Lucía Cobreros y Judit Vall en este post del blog Nada es Gratis. Usando microdatos del MIR 2024, facilitados por Transparencia, son capaces de controlar por el rendimiento académico durante el grado para analizar las diferencias en el rendimiento en el MIR entre universidades públicas y privadas.
Los resultados sugieren que, en el ámbito de la Medicina, los egresados de las universidades privadas obtienen, en media, una calificación inferior en el examen MIR que sus pares de universidades privadas, debido a las diferencias en el rendimiento académico durante el grado. Es posible que pudiera estar este hecho potencialmente relacionado con un rendimiento inferior en las pruebas de acceso a la universidad (nota EvAU), lo que no puede inferirse con los datos disponibles.
Este trabajo es un primer paso: para ahondar en estos resultados y obtener evidencia causal harían falta más (más años) y mejores datos
¿Es útil ir a clase?
Por último, voy a analizar los resultados obtenidos por mis estudiantes en la parte de Microeconomía de la asignatura anual Introducción a la Economía, distinguiendo entre los que acuden (casi) siempre a clase y los que no.
A continuación se muestra el histograma de calificaciones distinguiendo por la variable citada.
Los resultados son claros: para sacar buena nota es imprescindible acudir siempre a clase, mientras que si no vas a clase siempre es muy poco probable que obtengas más de un 5. ¡Yo, tan contento, mis clases son útiles!!
¿Y si no es así?
Para comprobar si realmente mis clases son útiles habría que dar varios pasos. En primer lugar, hay que eliminar ciertas endogeneidades: cuando califico a los asistentes a clase que responden bien a una pregunta, es obvio que para contestarla bien hay que estar en clase. Una segunda endogeneidad viene por el hecho de que a estudiantes con buena actitud en clase les subo algo la nota «porque sí». Pero, lo más importante sería controlar por las diferencias entre los grupos. Mi intuición es que son bien distintos, estando formado el grupo de los que van siempre a clase por estudiantes más motivados, con mejores notas previas especialmente en Matemáticas. Si no se controla por esto, la diferencia en la media no sirve para responder a la pregunta causal.
Una de las pocas cosas buenas de la COVID-19 es que permitió hacer o sirvió como experimento natural para responder a algunas preguntas. Por ejemplo, este trabajo aleatorizó a los estudiantes de Introducción a la Economía en dos grupos: asistencia presencial y asistencia en remoto. Los resultados muestran que los estudiantes que acudieron a clases presencialmente obtuvieron mejores resultados que aquellos que las siguieron on-line.
Conclusiones y petición
Hay que tener cierta precaución cuando se compara la media de varios grupos: si los grupos no son homogéneos, la diferencia en la media no sirve como resultado causal.
Por tanto, un primer paso es estimar modelos econométricos tradicionales controlando por algunos factores. Y un paso más se da con los modelos de la caja de herramientas de la evidencia causal. Para poder usar estos modelos hace falta datos, muchos datos y buenos datos. En este sentido el portal universidata es un avance en la buena dirección, pero debería ser el Ministerio el que se ocupará de facilitar la vida a los investigadores. Yo he buscado la palabra “microdato” en el portal del SIIU y no aparece. Lo mínimo podría ser incluir una pestaña que dijese qué datos están disponibles a nivel de individuo y qué condiciones hay que cumplir para poder conseguirlos.
Aunque este requisito parece obvio, lo deseable sería disponer de un portal con datos abiertos, ¡lleno de microdatos! De esta forma muchas de las preguntas que subyacen al mundo universitario podrían tener evidencia causal.




Excelente entrada muy interesante y que cuestiona algunos de los tópicos que se escuchan , basados únicamente en valores medios sobre grupos muy heterogéneos sin considerar variables que pueden ser determinantes en mayor medida de los resultados obtenidos , en temas como ,salarios de los egresados o rendimientos en las pruebas del MIR .
En todo caso avanzar con más datos en los análisis siempre aproxima mejor al problema y a la causalidad del resultado .
El artículo es muy interesante. Claramente explicado! Felicidades!
Enhorabuena, Julio, por tu claridad expositiva y porque haces fácil lo difícil. Son muy ilustrativos los ejemplos que pones que muestran la necesidad del microdato también en universidades, con un post anterior de este Blog firmado por Carlos Sunyer, Lucía Cobreros y Judit Vall sobre los resultados del MIR en universidades públicas y privadas (gracias a transparencia) y por tu propio ejemplo de si es útil ir a clase (o no) en Introducción a la Economía. Ojalá se consigan más microdatos correctamente anonimizados de nuestras universidades a modo de rendición de cuentas y transparencia.
Muchas gracias por los comentarios.
Ojalá los organismos pertinentes se lo tomen en serio y se publiquen más, bueno alguno para empezar, microdatos.
Julio, pídele al Ministerio de Sanidad y al de Ciencia, Innovación y Universidades (o a las consejerías) los expedientes de los egresados presentados al MIR en los últimos años y ajusta en un modelo las probabilidades de quedar en el decil superior…y luego mira los resultados de este año. Enhorabuena por la entrada.
Por cierto, si superpongo los resultados de mis alumnos asistentes/no asistentes tengo exactamente tu misma figura. Asistir no implica aprobar (causalidad), pero el ajuste de la predicción de la calificación a un mes de acabar clases casi siempre acierta.