
Wikipedia, ese compendio colectivo de conocimiento que ya forma parte del día a día digital de millones de personas, vive tiempos complejos. No porque su esencia haya cambiado —sigue siendo una enciclopedia abierta y comunitaria—, sino porque el mundo que la rodea lo ha hecho. En plena era de la inteligencia artificial generativa, el valor de sus contenidos ha crecido exponencialmente, convirtiéndola no solo en fuente de información para humanos, sino también en cantera de entrenamiento para máquinas.
El problema es que estas máquinas —o mejor dicho, los bots diseñados por quienes construyen modelos de lenguaje— han estado devorando Wikipedia sin demasiado miramiento. El tráfico no humano a sus servidores se ha disparado, con un aumento del 50% en el consumo de ancho de banda desde enero de 2024. Una cifra preocupante para una fundación sin ánimo de lucro que no monetiza su página y que depende casi en exclusiva de las donaciones de sus usuarios. Frente a esta situación, la Fundación Wikimedia ha optado por una solución tan lógica como audaz: ofrecer un acceso ordenado, estructurado y oficial a su contenido… a cambio de que dejen de saturar sus servidores.
La respuesta ha llegado esta semana en forma de alianza con Kaggle —la plataforma de ciencia de datos propiedad de Google— para lanzar un nuevo conjunto de datos específicamente diseñado para entrenar modelos de IA. Esta versión optimizada de Wikipedia, inicialmente disponible en inglés y francés, presenta los artículos en formato JSON, con campos organizados que incluyen el resumen, la infobox (tabla con datos estructurados) y el contenido principal. Quedan fuera las referencias, el código markdown y otros elementos que complicarían su utilización directa por parte de los desarrolladores. La intención, además, es extender esta iniciativa a otros idiomas conforme se afine el formato y se recopile feedback de la comunidad.
Este movimiento no es solo técnico. También es político. Wikipedia está diciendo, de forma sutil pero clara, que no se opone al uso de sus datos, pero sí quiere que se haga con respeto y con sentido común. Lo paradójico del caso es que, aunque todo el contenido de la enciclopedia se publica bajo una licencia libre (CC BY-SA), que permite su uso incluso comercial, eso no significa que la Fundación no tenga derecho a establecer normas sobre el acceso a sus sistemas. Es más, uno de los grandes interrogantes del momento es si las empresas tecnológicas que usen este nuevo dataset cumplirán con las condiciones de atribución y compartición que exige dicha licencia.
Dentro de la comunidad de editores de Wikipedia, esta iniciativa tampoco ha pasado desapercibida. Aunque muchos entienden la necesidad de encauzar el acceso a los datos, no faltan voces críticas que consideran problemático facilitar tan abiertamente el uso de los contenidos por parte de grandes compañías tecnológicas que, en muchos casos, no contribuyen ni en trabajo ni en financiación al proyecto. En este sentido, el acuerdo con Kaggle se percibe como un intento de establecer ciertas reglas en un juego donde, hasta ahora, el descontrol ha sido la norma.
Y es que el auge de la IA ha trastocado muchas dinámicas. Crear contenido original —de calidad, verificable y neutral— no es barato. Exige tiempo, esfuerzo y compromiso, justo lo que aporta la comunidad de editores voluntarios de Wikipedia. Que este trabajo acabe siendo utilizado por modelos comerciales sin retorno tangible genera un desequilibrio cada vez más difícil de ignorar. La publicación del dataset puede verse como una respuesta pragmática: si no puedes evitar que accedan, al menos dales un canal oficial que limite los daños.
Desde mi punto de vista, lo que está en juego aquí no es solo la infraestructura de Wikipedia, sino el equilibrio entre conocimiento libre y explotación tecnológica. Está bien que la inteligencia artificial se nutra de las mejores fuentes, pero eso no puede hacerse a costa de quienes las construyen. Quizá este movimiento marque un punto de inflexión, una forma de recordar que detrás de cada artículo, cada definición y cada párrafo, hay personas. Y si las máquinas quieren aprender de ellas, lo mínimo es respetar su trabajo. ¿Será este modelo replicable para otras fuentes abiertas?
La entrada Wikipedia abre sus puertas a la IA… y frena a los bots se publicó primero en MuyComputer.