particularmente un uso relevante del Coeficiente de Correlación de Pearson
Hace un cierto tiempo publiqué un tuit sobre la correlación entre el índice H5 de las publicaciones ESCI de WoS, en Google Scholar Metrics, y el FI, precisamente de WoS-Clarivate, de dichas revistas. La sorpresa fue que era negativo. Pero hubo otra sorpresa colateral que expresaba con este otro tuit [1]:
No todo está perdido. ¿Por qué un tuit con un volcado de una hoja de cálculo y la obtención de dos Coeficiente de Correlación de Pearson ha obtenido en unos minutos más de mil impresiones y 57 interacciones?

Hace un cierto tiempo publiqué un tuit sobre la correlación entre el índice H5 de las publicaciones ESCI de WoS, en Google Scholar Metrics, y el FI, precisamente de WoS-Clarivate, de dichas revistas. La sorpresa fue que era negativo. Pero hubo otra sorpresa colateral que expresaba con este otro tuit [1]:
No todo está perdido. ¿Por qué un tuit con un volcado de una hoja de cálculo y la obtención de dos Coeficiente de Correlación de Pearson ha obtenido en unos minutos más de mil impresiones y 57 interacciones?
Además del interés, este hilo despertó el desprecio, o al menos la minusvaloración, de algún conocido pope de la webmetría, que hizo un comenterio de un tenor semejante a "siempre he sostenido que las matemáticas de Secundaria son muy importantes".
En otras ocasiones he encontrado vídeos, memes o viñetas en las que se ridiculizaba el aceptar la relación de covarianza o de correlación, positiva o negativa, con el determinismo que supone una relación funcional, o su interpretación con ese sentido. Como si alguien hubiera utilizado alguna vez esta burda interpretación de estos coeficientes.
La covarianza,y con más precisión el Coeficiente de Correlación de Pearson, son instrumentos que se suelen utilizar para detectar, frecuentemente de forma inicial, una posible variación conjunta o simultanea de dos variables estadísticas, en sentido directo o en sentido inverso. Y eso se hace desde la más pura hortodoxia de la investigación científica en sus distintas áreas y modalidades: PARA BUSCAR REGULARIDADES Y PARA BUSCAR PATRONES. Pero nunca se utilizan como método único ni como método principal. Siempre son el inicio de una investigación que tiene que ser evidenciada con otros métodos de la más variada índole. En las ciencias positivas, y también en las ciencias sociales, ese otro método es fecuentemente un contraste de hipótesis, donde se somete a prueba la hipótesis conjeturada después de obtener una variación conjunta o simultánea por el Coeficiente de Pearson.
Otra característica de este método, en contra de lo que se intenta hacer pensar en esos memes y vídeos donde no aparece ni se tiene en cuenta, es que siempre está implícito el principio de parsimonia o navaja de Ockham: Se acepta como más probable la explicación más sencilla, a falta de otra causa.
Un ejemplo de uso de la correlación en una investigación en un tema no solo alejado de las ciencias duras, sino incluso de las ciencias sociales más cuantificables, o a las que se puede ajustar mejor modelos matemáticos, es el siguiente trabajo. Se trata de un estudio sobre corpus lingüísticos analizando el lenguaje de un colectivo del máximo interés, el de los textos en mensajes y foros de los yihadistas, con el objetivo de obtener patrones de expresión textual.
Se trata del artículo de Gavin Brookes y Tony McEnery Correlation, collocation and cohesion: A corpus-based critical analysis of violent jihadist discourse.
En resumen, este trabajo explora el lenguaje de la yihad rama violenta, centrándose en la conceptualización que implican los códigos lingüísticos como conceptualización del léxico propio del Islam.
Mediante el uso de la correlación, este artículo demuestra que las palabras que codifican dichos conceptos se distribuyen en relaciones de dependencia que son invariantes a través de diferentes tipos de textos. Lo hace estudiando la consistencia a través de razones no causales, a través de la consistencia por correlaciones. La variación en los patrones de cohesión léxica se produce en un amplio espectro de textos. De forma que tanto en los que promueven la violencia como en aquellos que son ajenos a esta temática, se produce el mismo patrón terminología de atribución de sentido al texto. De esta forma se puede obtener otras formas de cohesión textual en otros ámbito que no son los de la expresión de la violencia yihadista. Esa podría ser la principal aplicación del resultado obtenido en el artículo.
Mediante el uso de la correlación, este artículo demuestra que las palabras que codifican dichos conceptos se distribuyen en relaciones de dependencia que son invariantes a través de diferentes tipos de textos. Lo hace estudiando la consistencia a través de razones no causales, a través de la consistencia por correlaciones. La variación en los patrones de cohesión léxica se produce en un amplio espectro de textos. De forma que tanto en los que promueven la violencia como en aquellos que son ajenos a esta temática, se produce el mismo patrón terminología de atribución de sentido al texto. De esta forma se puede obtener otras formas de cohesión textual en otros ámbito que no son los de la expresión de la violencia yihadista. Esa podría ser la principal aplicación del resultado obtenido en el artículo.
En el texto no se busca una relación causal. La correlación es más efectiva por la coincidencia de la ausencia de causas. Más indicativo que una co-ocurrencia es la ausencia de ellas. Esto lo veremos en el análisis que se hace en este trabajo, así como en el siguiente. Veamos un ejemplo del trabajo de Gavin Brookes y Tony McEnery:
Que traducido viene a decir:
“Si bien estas tablas muestran la escala de
co-ocurrencia de estos términos, no demuestran directamente que ningún par de
correlación esté directamente asociado con el texto (en otras palabras, la
correlación de A y B no es en sí misma evidencia directa de que A sea siendo
usado, por ejemplo, para justificar B en el texto). Lo que buscamos a
través de esta prueba son indicaciones de lo que podríamos buscar en un
análisis del discurso (crítico) de estos textos.
Algunas
observaciones pueden hacerse sobre la base de estas tablas. Primero,
existe una correlación positiva entre algunos de estos conceptos, pero no se
encuentran correlaciones negativas moderadas o grandes en el corpus. Esto
indica que hay un grado de conexión entre los conceptos, que es lo que
deberíamos esperar de los términos que surgen de un sistema de creencias; es
decir, se despliegan en concierto con un propósito retórico.
Segundo, los
diferentes tipos de texto exhiben similitudes y diferencias interesantes, con
énfasis en la diferencia. En la parte de efecto moderado de la escala de
correlación, no se comparte ningún par correlacionado en las tres categorías de
texto (es decir, Moderado, Fringe y Extremo)”
Veamos un segundo ejemplo, mucho más humilde, donde la metodología es idéntica: Primero se trata como propósito general de encontrar co-ocurrencias entre dos variables mediante el cálculo de correlaciones parciales, pero, segundo, lo verdaderamente relevante en la obtención de conclusiones es la ausencia significativa de éstas, es decir la confirmación del suceso contrario.
En este caso el trabajo es del firmante de este post (Zapata-Ros, 2015), se titula Gestión del aprendizaje en Educación Superior y web social.
En resumen, se trata de validar una propuesta que identifique los rasgos de calidad de un sistema de educación online universitaria que integre entornos de web social (redes sociales, blogs, etc). Se plantea con él la validación de los indicadores y la necesidad de un marco de modelo pedagógico y de diseño instruccional. También ante la insuficiencia, en el contexto de generalización de la web social como medio singular de comunicación y de convivencia de estudiantes y profesores, de políticas instituciones que las integren. Para ello en un momento se correlaciona la declaración de profesores como innovadores o implementadores tempranos de las redes sociales como entorno de aprendizaje y su papel como diseñadores instruccionales de dichos entornos. Y se hace mediante el estudio de esos dos rasgos modelizados con variables estadísticas según se explica en el artículo.
En él nos centramos en el
estudio de la variación simultanea que hay entre dos variables, para ello
utilizamos el método que se describe a continuación así como la explicación de
cuales son las variables y cuál es la interpretación del resultado:
La correlación que se estudia es, en este caso, entre la variable boolena respuesta a la pregunta "2.3 ¿Obtienen indicaciones suyas sobre el uso y el alcance de uso en su asignatura?" y la pregunta 5.3 del estudio que se describe en la figura siguiente:
La explicación es más
amplia. La podemos ver en el artículo (Zapata-Ros, 2014 pág. 9-11) donde se lee:
“Análisis.-
En el informe completo vamos
correlacionando pares de variables en los casos que creemos de interés para los
objetivos del estudio. La primera variable es la del perfil de profesor en
función de su respuesta sobre su situación, actividad o actitud en relación al
uso integrado de la web social (normalmente es una variable boolena, es
decir una variable estadística con valores 1 para “sí” y 0 para “no”1), y la
segunda es la variable para la respuesta que identifica su grado de actitud
para la integración. Así obtenemos el índice de correlación de Pearson de pares
de variables. En este caso correlacionamos los items:
2.3
¿Obtienen indicaciones suyas sobre el uso y el alcance de uso en su asignatura?
y
5.3 El uso del
software social debe estar incluido en la organización instruccional (Guías
didácticas, etc.) del programa formativo.
(…)
En este caso el Coeficiente de
Correlación de Pearson (r) es 0,303833133
Es decir, hay una correlación
positiva entre las dos variables, existe una interdependencia pero es
moderadamente baja: 0,303833133 (recordemos que el Coef. de Pearson se mide entre -1 y 1, y la correlación positiva entre 0 y 1). Lo cual se debe
interpretar como que, en una medida moderada pero existente, el que los
profesores se implique en dar indicaciones a sus alumnos “sobre el uso y el
alcance de uso en su asignatura” está correlacionado (es mayor que en el caso
contrario) en que opinan que “El uso del software social debe estar incluido en
la organización instruccional (Guías didácticas, etc.) del programa formativo”.
Pero el que sea moderadamente bajo se debe interpretar como que hay algunos
profesores de los que “dan indicaciones” que no son favorables a que el uso del
software social debe estar incluido en la organización intruccional. Y también
de forma minoritaria, pero en mayor grado, hay profesores que no dan
indicaciones a sus alumnos, suponemos que porque no hay oportunidad o porque no
han llegado a ese grado de madurez en su innovación, pero que sí consideran que
“El uso del software social debe estar incluido en la organización
instruccional (Guías didácticas, etc.) del programa formativo”.”
Es decir el que sea relativamente baja, aunque positiva, la correlación de la opción directa que se correlaciona, confirma el que hay una gran cantidad de profesores que opinan una cosa que no va acompañada por la práctica (El uso del software social debe estar incluido en la organización instruccional (Guías didácticas, etc.) del programa formativo.
Como en el caso anterior, el análisis de la correlación no es tan valida por la coincidencia como por el análisis que se hace de la ausencia de ella.
Referencias.-
Brookes, G., & McEnery, A. (2020). Correlation, collocation and cohesion: A corpus-based critical analysis of violent jihadist discourse. Discourse and Society. https://doi.org/10.1177/095792
Zapata-Ros, M. (2014). Gestión del aprendizaje en Educación Superior y web social. Revista de educación a distancia, (42). http://www.um.es/ead/red/42 y https://revistas.um.es/red/article/view/236611
[1] Este tuit tiene como referencia y muestra los datos obtenidos en el post "¿Más ayuda a la investigación o más ayuda a Elsevier y Clarivate? (y III)"
Comentarios
Publicar un comentario