Un congreso de la IA se llena de manuscritos escritos por IA

Por Redacción QUO | 1 diciembre 2025 | TECNOLOGÍA | 0

Una auditoría externa de un congreso de la IA ha detectado miles de revisiones con citas inventadas y comentarios vagos creados con IA

En un congreso científico se presentan habitualmente manuscritos de estudios, y se produce el arbitraje científico a través de la revisión por pares, que nació para filtrar errores y exageraciones. Antes de que un estudio científico se publique, otros científicos independientes del mismo campo tienen la ocasión de revisarlo y decidir si tiene méritos suficientes.

Durante décadas este proceso funcionó con humanos que leen, comparan y discuten los trabajos. Pero la irrupción de los grandes modelos lingüísticos de inteligencia artificial, LLM por sus siglas en inglés, ha introducido una variable nueva: hoy cualquier persona puede pedir a una IA que redacte un informe, pula el estilo o, directamente, escriba una revisión completa de su estudio. Desde hace meses, investigadores alertaban de señales de automatización en conferencias de informática y aprendizaje automático. Ahora, un caso masivo obliga a tomar medidas.

La revisión de los trabajos de IA la escribía una IA

El detonante ocurrió con las revisiones de ICLR 2026, uno de los congresos más influyentes en aprendizaje profundo, una de las técnicas de inteligencia artificial. Decenas de autores denunciaron en redes evaluaciones sospechosas, con “alucinaciones” en forma de referencias inexistentes y párrafos largos que decían poco. La empresa Pangram analizó el corpus de la conferencia y afirmó que el 21% de las revisiones eran íntegramente generadas por IA y que más de la mitad mostraban rastros de asistencia automatizada. El barrido incluyó unas 75.800 reseñas y 19.490 manuscritos, cifras que dan una idea de la escala del problema.

Los organizadores de ICLR ya habían publicado en agosto una política específica sobre LLM: se permite usarlos para tareas como mejorar la redacción, pero cualquier uso debe declararse de forma explícita y los autores y revisores siguen siendo responsables del contenido. Tras la polémica, anunciaron que emplearán herramientas automáticas para cribar textos y que los editores de área revisarán las alertas, además de pedir a los autores que señalen, de forma confidencial, reseñas de mala calidad con ejemplos concretos. La idea es combinar detección automática con supervisión humana, y actuar si hay pruebas de uso indebido.

Las reseñas generadas por IA puntúan más alto

¿Qué detectó exactamente la auditoría? Según Pangram, las reseñas generadas por IA tendían a puntuar más alto, quizá por el sesgo complaciente de los modelos, y repetían errores típicos como exigir análisis estadísticos fuera de contexto o citar trabajos irrelevantes. El equipo también examinó los manuscritos y encontró un porcentaje pequeño completamente generados por IA y otro segmento con más del 50% de texto automatizado, algo que resulta más difícil de delimitar porque la edición con IA se sitúa en un continuo entre lo humano y lo generado.

Este episodio conecta con una literatura emergente sobre cómo medir la “huella” de la IA cuando edita texto humano. Un preprint reciente, “EditLens”, propone métricas de similitud ligeras para cuantificar cuánto de un documento procede de un modelo, y las valida con anotadores humanos. La clave, explican sus autores, es que la edición con IA no es binaria, por eso hace falta un termómetro, no un interruptor. La noticia de Nature cita ese trabajo y, de hecho, añadió una corrección para aclarar cómo describía Pangram su modelo en su propio preprint.

Queda la pregunta espinosa: ¿se puede “probar” que una reseña la escribió una IA? Los detectores fallan si se entrenan con los mismos patrones que luego buscan y pueden confundir estilo con autoría. Además, los usos aceptables, como pulir gramática, se mezclan con los inaceptables, como inventar bibliografía. Por eso ICLR exige declarar usos y mantiene la responsabilidad humana, y por eso varias voces piden transparencia: marcar casillas de uso de IA, conservar borradores y permitir auditorías posteriores.

Mientras tanto, los editores afrontan un problema en el corto plazo. Si una reseña es vaga, contradictoria o contiene referencias que no existen, el autor puede documentarlo y pedir una segunda evaluación. Si el patrón se repite, conviene que las conferencias retiren a quienes no cumplen las normas y fortalezcan sus guías para revisar bien, con tiempo y sin atajos. La ciencia necesita velocidad, pero no a costa de su brújula.

REFERENCIA

EditLens: Quantifying the Extent of AI Editing in Text

Más en Quo

Se descubre por qué la ketamina actúa contra la depresión en horas mientras que los antidepresivos tardan semanas

Por Redacción QUO 4 mayo, 2026 SALUD

La ketamina, a diferencia de los antidepresivos convencionales que tardan semanas, actúa directamente sobre receptores de opioides en el sistema de recompensa del cerebro

La NASA quiere que Plutón vuelva a ser un planeta: la comunidad científica se divide

Por Darío Pescador 4 mayo, 2026 Astro

El administrador de la NASA Jared Isaacman declaró que la NASA trabaja en documentos para que la comunidad científica reconsidere el estatus de Plutón, degradado a «planeta enano» por la Unión Astronómica Internacional en 2006

¿Cuántos euros en gasto sanitario nos cuesta cada paquete que llega en furgoneta diésel?

Por MG 3 mayo, 2026 CURIOSIDADES Motor

La electrificación del reparto urbano ya no es una promesa de futuro, sino una solución tangible para reducir emisiones, mejorar la calidad del aire y rebajar costes sanitarios. Volkswagen Vehículos Comerciales lo sabe y por eso ha convertido los modelos PHEV y BEV en una de las grandes palancas de transformación de la última milla.

Un congreso de la IA se llena de manuscritos escritos por IA

La revisión de los trabajos de IA la escribía una IA

Las reseñas generadas por IA puntúan más alto

Más en Quo

Se descubre por qué la ketamina actúa contra la depresión en horas mientras que los antidepresivos tardan semanas

La NASA quiere que Plutón vuelva a ser un planeta: la comunidad científica se divide

¿Cuántos euros en gasto sanitario nos cuesta cada paquete que llega en furgoneta diésel?

Por qué hacer abdominales puede prevenir el Alzheimer

Evolución humana: ¿por qué hay más pelirrojos y menos calvos?

Cómo mejorar el rendimiento académico de los alumnos: escape rooms

40 años de Chernóbil: qué hemos aprendido y qué seguimos sin saber sobre los desastres nucleares

El mapa de la NASA para localizar agua helada (y quizá vida) en toda la Vía Láctea

Gigantes de la Ciencia

Especial Química