Una auditoría externa de un congreso de la IA ha detectado miles de revisiones con citas inventadas y comentarios vagos creados con IA
En un congreso científico se presentan habitualmente manuscritos de estudios, y se produce el arbitraje científico a través de la revisión por pares, que nació para filtrar errores y exageraciones. Antes de que un estudio científico se publique, otros científicos independientes del mismo campo tienen la ocasión de revisarlo y decidir si tiene méritos suficientes.
Durante décadas este proceso funcionó con humanos que leen, comparan y discuten los trabajos. Pero la irrupción de los grandes modelos lingüísticos de inteligencia artificial, LLM por sus siglas en inglés, ha introducido una variable nueva: hoy cualquier persona puede pedir a una IA que redacte un informe, pula el estilo o, directamente, escriba una revisión completa de su estudio. Desde hace meses, investigadores alertaban de señales de automatización en conferencias de informática y aprendizaje automático. Ahora, un caso masivo obliga a tomar medidas.
La revisión de los trabajos de IA la escribía una IA
El detonante ocurrió con las revisiones de ICLR 2026, uno de los congresos más influyentes en aprendizaje profundo, una de las técnicas de inteligencia artificial. Decenas de autores denunciaron en redes evaluaciones sospechosas, con “alucinaciones” en forma de referencias inexistentes y párrafos largos que decían poco. La empresa Pangram analizó el corpus de la conferencia y afirmó que el 21% de las revisiones eran íntegramente generadas por IA y que más de la mitad mostraban rastros de asistencia automatizada. El barrido incluyó unas 75.800 reseñas y 19.490 manuscritos, cifras que dan una idea de la escala del problema.
Los organizadores de ICLR ya habían publicado en agosto una política específica sobre LLM: se permite usarlos para tareas como mejorar la redacción, pero cualquier uso debe declararse de forma explícita y los autores y revisores siguen siendo responsables del contenido. Tras la polémica, anunciaron que emplearán herramientas automáticas para cribar textos y que los editores de área revisarán las alertas, además de pedir a los autores que señalen, de forma confidencial, reseñas de mala calidad con ejemplos concretos. La idea es combinar detección automática con supervisión humana, y actuar si hay pruebas de uso indebido.
Las reseñas generadas por IA puntúan más alto
¿Qué detectó exactamente la auditoría? Según Pangram, las reseñas generadas por IA tendían a puntuar más alto, quizá por el sesgo complaciente de los modelos, y repetían errores típicos como exigir análisis estadísticos fuera de contexto o citar trabajos irrelevantes. El equipo también examinó los manuscritos y encontró un porcentaje pequeño completamente generados por IA y otro segmento con más del 50% de texto automatizado, algo que resulta más difícil de delimitar porque la edición con IA se sitúa en un continuo entre lo humano y lo generado.
Este episodio conecta con una literatura emergente sobre cómo medir la “huella” de la IA cuando edita texto humano. Un preprint reciente, “EditLens”, propone métricas de similitud ligeras para cuantificar cuánto de un documento procede de un modelo, y las valida con anotadores humanos. La clave, explican sus autores, es que la edición con IA no es binaria, por eso hace falta un termómetro, no un interruptor. La noticia de Nature cita ese trabajo y, de hecho, añadió una corrección para aclarar cómo describía Pangram su modelo en su propio preprint.
Queda la pregunta espinosa: ¿se puede “probar” que una reseña la escribió una IA? Los detectores fallan si se entrenan con los mismos patrones que luego buscan y pueden confundir estilo con autoría. Además, los usos aceptables, como pulir gramática, se mezclan con los inaceptables, como inventar bibliografía. Por eso ICLR exige declarar usos y mantiene la responsabilidad humana, y por eso varias voces piden transparencia: marcar casillas de uso de IA, conservar borradores y permitir auditorías posteriores.
Mientras tanto, los editores afrontan un problema en el corto plazo. Si una reseña es vaga, contradictoria o contiene referencias que no existen, el autor puede documentarlo y pedir una segunda evaluación. Si el patrón se repite, conviene que las conferencias retiren a quienes no cumplen las normas y fortalezcan sus guías para revisar bien, con tiempo y sin atajos. La ciencia necesita velocidad, pero no a costa de su brújula.
REFERENCIA