/ 15 minutos

Este artículo es parte de una conversación que tuvimos en el marco del Día de Aaron Swartz en noviembre de 2025.

Por f de Sutty, con aportes de piratas del PIP P)

Esta es una investigación incipiente, sin conclusiones, basada en conversaciones que venimos teniendo, conversaciones que venimos viendo suceder en otros lados, intentando determinar cuál es nuestro lugar en ellas.

Lo que está sucediendo ahora con el capitalismo es que vemos a las empresas competir por quiénes logran el mejor modelo de inteligencia artificial. Esto les implica la construcción de centros de datos, que se basa en los modelos coloniales como el genocidio en Sudán por el control del coltán y otras “tierras raras”, en el extractivismo colonial en África y Abya Yala, la persecución y asesinato de defensorxs de la tierra, su puesta a prueba en “los mercados” del control social de la redes y su puesta a punto en otros genocidios, en particular el genocidio palestino, como Palantir de próxima implementación en Argentina y Latinoamérica.

La construcción de centros de datos implica la destrucción del agua y la tierra, como siguen de cerca les compas de Tu Nube Seca mi Río y funcionan de formas muy similares a otros proyectos extractivistas que ya enfrentan años de lucha y resistencia. Afirmamos que estas luchas contra la minería, contra los monocultivos, por la tierra y la vida se entrecruzan y se solapan y debemos solidarizarnos entre todes. Aunque nadie entienda cómo funcionan las IAs, todes sabemos los efectos de la destrucción del medio ambiente por empresas capitalistas, extranjeras o locales, la promesa vacía de generación de trabajo, la tierra y el agua contaminadas, etc.

En este artículo intentamos desarrollar otra arista, que tiene que ver con la colonización de Internet y el ciberespacio como campo de lucha, en particular con la aparición sorpresiva de miles de visitas simultáneas a los servidores autónomos, que auto-alojan servicios por y para comunidades pequeñas (en comparación a les miles de millones de usuaries de Instagram, X, Facebook y TikTok, al menos). Visitas que agotan sus pocos recursos y les obligan a cerrar proyectos o pasar mucho tiempo tratando de combatirlas y que son generadas automáticamente por crawlers, programas que descargan sitios enteros, en este caso para procesarlos y entrenar modelos de inteligencia artificial.

Como primera hipótesis de trabajo o analogía histórica, pensamos que estamos frente a un nuevo proceso de acumulación primigenia, aquella que permitió el establecimiento del capitalismo al acumular la propiedad de las tierras en pocas manos, al mismo tiempo que desposeía a campesines, conviertiéndoles en proletaries en las ciudades. Ni hablar de la apropiación de saberes convertidos en procesos industriales, como el recientemente re-habilitado caso de las fundiciones jamaiquinas que dieron paso al procesamiento moderno del hierro, apropiándose de procesos desarrolladores por esclavizades. Fueron y son procesos violentos de re-acomodación social y de concentración de capital. Nuestra crítica a las fuentes liberales de “la cultura libre” es que evitan activamente esta historia de lucha, usando términos más lavados como “cercamiento” del conocimiento, para referirse al mismo proceso histórico, separándonos cuando deberíamos reconocernos como parte del mismo movimiento.

Nos preguntamos entonces cuál es el proceso de desposesión actual que da continuidad a esta analogía en el caso concreto de la carrera por la IA. Como proveedores de alojamiento web y escuchando y leyendo a otres en el ámbito de las infraestructuras autónomas, el auto-alojamiento, la desobediencia algoritmica, los jardines y las huertas digitales, lo que experimentamos es que hay una creciente y preocupante avalancha de visitas a nuestros servidores, descargando toda la información que publiquemos en nuestros sitios.

Esto es algo que ha ocurrido siempre, desde indexadores de búsqueda como Google y otros hasta la Wayback Machine del Internet Archive. Ninguno de estos servicios podría funcionar sin descargarse nuestros sitios. Por tener visibilidad y memoria colectiva, muchas veces dejamos que lo hagan.

La escalada es que ahora nuestros servidores reciben miles de visitas desde montones de direcciones distintas, que con un poco de análisis (en inglés) resulta claro que son automatizadas, pero que son difíciles de detectar individualmente. Muchos de estos crawlers no se identifican, ni respetan límites como los de robots.txt (en inglés). Solo nos visitan una y otra vez, nos desgastan y nos sacan de Internet.

Siguiendo nuestra analogía inicial, nos obligan a irnos desde nuestros propios servidores a proveedores más grandes como Cloudflare, que cuentan con la capacidad de limitarles o bloquearles, o incluso negociar entre empresas. Esto acelera la concentración de recursos en estos proveedores, generando nuevos oligopolios de la web.

Esta conversación la tuvimos en noviembre 2025, a 12 años del suicidio de Aaron Swartz, perseguido por piratear con objetivo de liberar toda la investigación científica que pueda, atrapada en el circuito capitalista de los journals científicos. Sin entrar a discutir si este es el tipo de conocimiento que tenemos que compartir, la contradicción es que Meta, OpenAI y otros han hecho lo mismo, descargando terabytes y terabytes de libros, papers, sitios web, peliculas (incluyendo porno) y todo lo que puedan, “violando el copyright” de todo el mundo, sin ninguna de las consecuencias que Aaron y otrxs piratas y hackers han sufrido durante años. La patente de corso se la autoadjudicaron y como siempre, es una cuestión de poder.

Las emisiones de carbono de la web

En paralelo, venimos siguiendo otras conversaciones sobre el impacto ambiental de la Internet en sí misma. Desde Sustainable Web Design (en inglés), se proponen algunas buenas practicas para desarrolladores web como nosotres, y en particular un algoritmo que permite estimar emisiones de CO2 a partir de la transferencia de datos que implica visitar un sitio web. Este modelo toma como variables la energía consumida por byte transferido para estimar el CO2 emitido en producir sea energía. El modelo tiene en cuenta el país de origen de la visita, la energía consumida por el dispositivo de le visitante, la red y el servidor, basado en la ubicación geográfica del servidor.

En Sutty modificamos un poco ese modelo (en inglés) para poder separar el CO2 emitido por le visitante y el CO2 emitido por nuestra infraestructura, en base al país de cada quién.

En base a eso, actualmente estamos calculando las emisiones de CO2 de nuestros servidores en vivo. La pregunta que nos surge es qué hacer con esta información. Por un lado, podríamos usarla para tener una idea más concreta de nuestro propio impacto ambiental, incluso visibilizarlo a usuaries y visitantes.

Podemos ver otras experiencias que permiten visualizar este impacto y compararlo en hamburguesas consumidas, donde nos surgen dos contradicciones. Una es que comparar visitas web con hamburguesas es una unidad de comparación muy muy muy yanqui --¿vieron ese meme de que a los yanquis hay que explicarles las cosas en hamburguesas? La otra es que vuelve a poner el foco en la responsabilidad individual del impacto ambiental (“hay que comer menos hamburguesas”) en lugar de dónde está la verdadera responsabilidad, que es el modo de producción capitalista industrial, colonial, patriarcal, occidental. De la misma forma que una canilla goteando no se compara con la cantidad de agua contaminada por una mina a cielo abierto o, para el caso, un centro de datos.

Y en eso entonces, pensamos que podemos llevar un registro de nuestro supuesto impacto ambiental, contextualizado a una cooperativa de trabajo basada en un país colonial y colonizado, que depende de infraestructura y centros de datos en Estados Unidos. Lo que nos lleva a decir que el problema está en otro lado, sin lavarnos las manos.

¿Podríamos comparar nuestro impacto ambiental y decir que emitimos el 0.0000000000001% de lo que una bomba yanqui lanzada por Israel sobre Gaza? O las emisiones por segundo de un Vaca Muerta, o cualquier proyecto extractivista, genocida, terricida. ¿Podremos saber esta información?

La relación con la hipótesis de la acumulación primigenia es que estas emisiones de CO2 son innecesarias y producidas por una carrera capitalista de la que quizás no queramos formar parte o al menos decidir qué parte queremos jugar, desde qué lugar vamos a resistirlas.

Estrategias actuales

Tercerizar

Si estamos alojando nuestros propios servidores y todo esto nos insume mucho tiempo lo más fácil es irse a Cloudflare y que se encarguen elles. El problema, como mencionamos, es la concentración de servicios de distribución web en pocos proveedores, repitiendo el modelo de “escala” hegemónico en el desarrollo de tecnología.

Existen otras opciones, como Deflect.

Estos terceros también pueden implementar las siguientes estrategias.

Bloquear o limitar

Otra opción es bloquearles totalmente para lo que hay varias formas. Una es por robots.txt (en inglés), orientada a los crawlers que siguen los estándares, informandoles que preferimos que no nos visiten.

En Sutty estamos evaluando la opción de permitir a les usuaries activar este archivo robots.txt.

Pero los crawlers más problemáticos son los que ni se identifican ni respetan nuestros pedidos, e incluso hacen todo lo posible para que no les podamos identificar. En este caso hay compas bloqueando por número de ASN (en inglés), porque que las visitas de un solo crawler pueden venir desde muchas direcciones IP, pero todas pertenecen a un mismo grupo y a un mismo dueño, identificados por el registro ASN.

Aquí nos sumamos también desde Sutty, donde estamos incorporando la identificación por ASN en nuestros registros de visitas, que nos permite agrupar origen de la visita sin registrar la direccion IP --que permitiria individualizar la dirección y potencialmente des-anonimizar a les visitantes. Como estas agrupaciones tienen dueño y ese registro es público es posible agrupar montones de visitas, quizas individuales, quizás no, por su dueño. Con esto podemos analizar los registros y saber cuáles conjuntos de visitas se producen desde una red que no es de “primera milla”, como el proveedor de Internet que pagamos en donde vivimos, sino que identifica a un centro de datos.

A este nivel podemos bloquear los que consideremos maliciosos, o limitar los que estén en duda, para que no utilicen recursos de más y por lo tanto aumenten innecesariamente nuestra emisión de carbono y el uso de nuestros recursos para generar modelos de IA.

Probar “humanidad”

La “prueba de humanidad” es un recurso donde el servidor nos pide que interactuemos con ellos de una forma que solo humanes podrían, bien demostrando destrezas cognitivas y/o motoras, o haciendo que nuestra computadora consuma más energía, demostrando que realmente quiere visitar el servidor.

La primera opción es la más molesta, ya que terceriza el costo de calcular quién es humane y quién no en todes. También problemático porque asume un modelo de humanidad que tiene las mismas capacidades cognitivas, motoras e incluso culturales y de nivel de alfabetización, es decir que son modelos en última instancia capacitistas y coloniales.

En este modelo se enmarcan los “captcha”, cuyo modelo más extractivista es el de ReCaptcha, que aprovecha esa energía humana en el entrenamiento de modelos de reconocimiento de autos, escaleras, cruces peatonales, semáforos y tal.

La segunda, la de usar más energía, es automática y no implica hacer nada salvo esperar, calculando que usar más energía en los dispositivos es apenas molesto para nosotres, pero carísimo para los centros de datos que están haciendo millones de visitas.

En esta quizás entrevemos una estrategia de corto plazo, como la de Anubis (en inglés), para ciertos sitios.

Acelerar “el colapso”

Desde el grupo de investigación en sabotaje algorítmico (en inglés ASRG, sin relación aparente con Las Ketchup) el planteo es más cataclísmico. Como no podemos evitar que nos visiten estos crawlers, lo que podemos hacer es ofensivamente “envenenar” los modelos que entrenan, proveyéndoles información falsa o sin sentido. Estas trampas, pozos de brea (tarpits), hacen que podamos engañar a los crawlers llevándoles a patrones de visitas infinitos, donde encontrarán cada vez más links que seguir y articulos sin sentido. Lo que sería medianamente confuso, engorroso o divertido por un rato para une visitante humane, se vuelve infinito para un crawler que no esté preparado para este laberinto.

Hay muchas exploraciones en este sentido, desde estrategias que requieren poca energía de nuestro lado, como darles una mezcla de palabras al azar, hasta más involucradas aunque más difíciles de detectar, que generan textos que se esperan “sin sentido” para humanes, basado en el contenido real de nuestros sitios.

El colapso acelerado es que envenenar estos modelos hace que la calidad de sus respuestas disminuya de forma significativa, tanto que cualquier humane haciéndole preguntas reciba respuestas que claramente carezcan de lógica, sentido o veracidad.

Nuestra duda es de qué colapso estaríamos hablando si estamos viendo reportes de brotes psicóticos facilitados por conversaciones con ChatGPT, conversaciones que validan los alucinaciones, las ideaciones suicidas, la generación de propaganda fascista, sumado a esto niveles generales de comprensión de texto bajísimos facilitadas por la extracción de atención.

¿O cuando las decisiones políticas sean automatizadas y produzcan efectos nocivos a largo plazo, sin importar la racionalidad del modelo consultado?

¿Cuál es el colapso de una AI entrenada para asesinar personas racializadas?

Más bien pensamos que esta aceleración asume una racionalidad global basada en el pensamiento académico occidental, aunque quizás estamos exagerando en estas preguntas. De todas formas vemos el potencial de esta estrategia en cuanto nos llama a no estar a la defensiva, de devolverles “el costo” de identificar qué es cierto y qué no, de controlar la calidad de sus modelos --pero que a su vez recaerá en trabajadores precarizades y traumades del sur global.

Zipbombs

Una zipbomb es una forma ofensiva que podría ser temporalmente desastrosa para crawlers simples, pero muy facil de resolver si su uso se vuelve extendido. La idea es aplicar la mayor compresión posible a un archivo lleno de datos repetidos, como ceros, lo que genera un archivo muy pequeño que al ser abierto utiliza todos los recursos computacionalmente disponibles (almacenamiento, memoria RAM, procesador). Por ejemplo 4.5PB de ceros puede comprimirse en 42KB (en inglés). Si 4.500.000.000.000.000 bytes pueden enviarse en 42.000 bytes, resulta muy “barato” al estilo Problema de los Tres Cuerpos de enviar a través de la Internet, pero imposible de descomprimir sin agotar futilmente cualquier recurso computacional. Sin embargo, para poder enviar una de estas zipbombs tenemos que estar bien segures de que estamos detectando un agente malicioso.

El rol de las infraestructuras autónomas

¿Qué rol tienen las infraestructuras autónomas? ¿Cómo pueden incorporar estas estrategias, al mismo tiempo que decidimos entre todas las comunidades de usuaries cómo queremos responder al entrenamiento de modelos de IA? Quizás la pluralidad de estrategias que caracteriza, la diversidad de implementaciones (que creemos) que tenemos es lo que nos defienda. ¿Podemos probar todas las estrategias? ¿Podemos pasar desapercibidas, surfear el tsunami?

Creemos que los colectivos y las comunidades de usuaries tenemos que tener la conversación sobre cómo queremos responder a esto, que no quede en el trabajo técnico y hosco del administrador de sistemas --el cisadmin–, harto de que se cuelguen les servidores.

Entre el modelo capitalista de monocultivos digitales y el modelo individual del jardín digital, tenemos que encontrar la huerta comunitaria digital, el ciberespacio de sustento y apoyo mutuo.

¿Visibilidad o invisibilidad?

Si bloqueamos o envenenamos los modelos, nos volvemos invisibles, nos salimos de “el algoritmo”. Pero si lo que nos respondan las IA va a ser la verdad, ¿no nos convendría estratégicamente ser lo más visibles que podamos? Como el meme de Grok corrigiendo la veracidad de los dichos de Musk, o las discusiones entre medios alternativos y comunitarios y plataformas de comunicación libres donde solo estamos les convencides, lo que quitemos de las IA dejará de formar parte de un corpus de posibles respuestas, del universo de posibilidades que encontraremos mientras seamos colectivamente dependientes de las Big Tech. Si lo que respondan las IA va a ser la verdad indiscutible, ¿cómo y desde dónde vamos a discutir esas verdades?

¿No será que también tendríamos que llenar la web de vínculos entre nosotres, compartiendo y profundizando discusiones, permitiendo que quien nos encuentre también encuentre otra información que estará velada o censurada por los buscadores?

Por ejemplo, en la búsqueda de ASRG para este artículo, el sitio que conocíamos estaba inaccesible y una búsqueda en Wayback Machine nos dijo que el sitio nunca fue archivado, con lo que no podíamos hacer referencia a esa experiencia.

Lo que necesitamos es una invisibilidad selectiva, aunque una que no funcione colectivamente como una forma de gatekeeping (curiosamente, esta referencia no existe en castellano).