Artículo publicado: «Science through Wikipedia: A novel representation of open knowledge through co-citation networks» en PLOS ONE

Daniel Torres, Wenceslao Arroyo, Enrique Herrera y yo acabamos de publicar un artículo en PLOS ONE titulado «Science through Wikipedia: A novel representation of open knowledge through co-citation networks» (a través del enlace al artículo se puede descargar en acceso abierto). En él lanzamos una mirada global sobre todas las áreas de la ciencia y su representación en Wikipedia, extendiendo la investigación que realizamos previamente en el campo de las Humanidades. Se trata de un resultado más del proyecto Knowmetrics.

Incluyo la referencia bibliográfica.

Arroyo-Machado, W., Torres-Salinas, D., Herrera-Viedma, E., & Romero-Frías, E. (2020). Science through Wikipedia: A novel representation of open knowledge through co-citation networks. PLOS ONE15(2), e0228713. https://doi.org/10.1371/journal.pone.0228713

Incluyo el resumen del artículo.

This study provides an overview of science from the Wikipedia perspective. A methodology has been established for the analysis of how Wikipedia editors regard science through their references to scientific papers. The method of co-citation has been adapted to this context in order to generate Pathfinder networks (PFNET) that highlight the most relevant scientific journals and categories, and their interactions in order to find out how scientific literature is consumed through this open encyclopaedia. In addition to this, their obsolescence has been studied through Price index. A total of 1 433 457 references available at Altmetric.com have been initially taken into account. After pre-processing and linking them to the data from Elsevier’s CiteScore Metrics the sample was reduced to 847 512 references made by 193 802 Wikipedia articles to 598 746 scientific articles belonging to 14 149 journals indexed in Scopus. As highlighted results we found a significative presence of “Medicine” and “Biochemistry, Genetics and Molecular Biology” papers and that the most important journals are multidisciplinary in nature, suggesting also that high-impact factor journals were more likely to be cited. Furthermore, only 13.44% of Wikipedia citations are to Open Access journals.

——————-

Recientemente publicamos un artículo en PLOS ONE en el que presentamos una nueva metodología para mapear la ciencia a través de Wikipedia, adaptando la teoría de la co-citación a este entorno, al mismo tiempo que la aplicamos en un caso práctico con un extenso dataset relativo a su edición inglesa. Una investigación que además es fruto del proyecto BBVA “Knowmetrics – evaluación del conocimiento en la sociedad digital”.

¿Por qué la Wikipedia?

Wikipedia

Si bien el uso y contenidos de esta enciclopedia suelen ser objeto de crítica, siendo además uno de los sitios web con más tráfico del mundo, con las referencias bibliográficas sus editores buscan otorgarle rigor a estos contenidos. Una acción que es transparente y dispone de un control de calidad, además de una normativa y recomendaciones tanto para usuarios relacionados con el ámbito académico como para aquellos que no lo están, todo con el fin de evitar actividad nociva. Al respecto, es importante destacar que los bots, cuyo listado es incluso público, no actúan citando de manera automatizada sino que su uso está más enfocado a la corrección de errores.

Una vez explicada la validez de estas citas como medida altmétrica, cabe destacar que los resultados alcanzados en este artículo muestran precisamente diferencias respecto a Scopus y otros medios sociales. Es por ello que encontramos que Wikipedia, a través de sus editores, ofrece una visión diferente de la ciencia.

Nuestro dataset y herramientas

En primer lugar hay que remarcar que esta propuesta continúa otra reciente pero centrada únicamente en las Ciencias Sociales. Ya en dicho trabajo alcanzamos resultados relevantes que distanciaban la visión de esta disciplina en un entorno abierto y colaborativo como el de Wikipedia del de otros académicos y controlados como Scopus, aunque esta disciplina solo representa un 5 % de los artículos analizados ahora. Pero además de dicha diferencia en los datos, también hemos ampliando ahora el marco metodológico.

Es por ello que los datos empleados esta vez están compuestos del total de referencias bibliográficas de la Wikipedia disponibles Altmetric.com (1 433 457 inicialmente). No obstante, estas se vieron reducidas tras su preprocesamiento y la vinculación de cada artículo con su revista, recogida en el Cite Score Metrics de Elsevier, con el fin de obtener datos complementarios a ellos como las categorías temáticas. Un proceso que en su totalidad ha sido llevado a cabo en R.

Proceso metodológico seguido para la recolección, limpieza y vinculación de los datos

Tras ello la muestra final utilizada para el estudio quedó compuesta de 847 512 referencias incluidas en 193 802 entradas de Wikipedia que citan 598 746 artículos pertenecientes a 14 149 revistas. Mientras que como principal resultado se han generado diferentes mapas de co-citación que muestran cómo los artículos y revistas son citados desde Wikipedia, además de llevar un análisis estadístico de estas, también a diferentes niveles.

Desgranando la Ciencia en la Wikipedia

En primer lugar, destaca la llamativa presencia artículos relativos a las disciplinas de Medicina y Bioquímica, mientras que aquellos pertenecientes a las Ciencias Sociales y las Humanidades se encuentra en un segundo plano. Estas diferencias son apreciables también en la propia obsolescencia de las referencias citadas.

Scatter plot de revistas por citas recogidas en Scopus y Wikipedia en 2016 a artículos publicados entre 2013 y 2015.

La mayoría de artículos citados en Wikipedia reciben sólo entre una y tres citas, estando ante un fenómeno más extremo que la ley de Pareto, mientras que las revistas siguen una distribución power-law. Tras describir la distribución de las citas en Wikipedia, los resultados muestran nuevamente diferencias entre Wikipedia y Scopus, tanto en la cobertura de los artículos como en las citas que estos acumulan, con las cuales no hemos podido establecer causalidad.

Por su parte resulta relevante que pese al enfoque abierto de Wikipedia, las revistas de Open Access solo representan un 13 % del total de las revistas citadas, encontrando entre las más referenciadas las de alto impacto, aunque con algunas diferencias respecto a otros medios sociales.

Red de co-citación Wikipedia
Red de co-citación de revistas en Wikipedia: A) sin pathfinder, B) con pathfinder

A través de los mapas realizados, en los cuales se ha aplicado como método de poda el algoritmo Pathfinder (con él reducimos las relaciones a solamente aquellas más fuertes), se han conseguido retratado las relaciones que los editores establecen entre los artículos científicos y las revistas cuando los citan conjuntamente en una misma entrada. Gracias a ello es posible ver cómo las revistas se agrupan bajo sus cuatro áreas principales (FísicaCiencias de la SaludCiencias Sociales y Ciencias de la Vida) y su interdisciplinariedad, ocupando una posición central aquellas de carácter multidisciplinar, donde destaca el papel de Science, Nature, PNASPloS ONE y The Lancet.

Las disciplinas por su parte están articuladas en torno a la Medicina y la Bioquímica, algo que también se puede apreciar a nivel de especialidades. Ambas están situadas en el centro de la red, manteniendo entre sí la co-citación más fuerte. El resto se dividen entre ellas, quedando por ejemplo MatemáticasInformática o Ingenería del lado de la Biomquímica, mientas que Artes y HumanidadesCiencias Sociales y Psicología permanecen con Medicina.

Red Pathfinder de la co-citación de las disciplinas
Red Pathfinder de la co-citación de las disciplinas

Asimismo, son varias las limitaciones de este estudio, donde destaca la co-citación latente al trabajar con diferentes categorías temáticas para un mismo artículo o revista y todas aquellas derivadas del uso de diferentes fuentes de datos.

Deja un comentario