Son las aplicaciones que millones de personas usan cada día para obtener respuestas a sus necesidades, pero es relativamente fácil «engañar» a ChatGPT y otros populares chatbots como Claude o Gemini y recibir información ilegal o peligrosa, advirtieron desde Israel.
Un estudio llevado a cabo por expertos de la Universidad Ben Gurion del Negev, en el sur de Israel, mostró que estos modelos de inteligencia artificial se están implementando con controles de seguridad insuficientes.
Para seguir leyendo: "Con el tiempo, la inteligencia artificial nos superará en todo", advierte una experta israelí
El resultado, afirmaron, es «alarmante», ya que la información peligrosa ahora está al alcance de casi todos. «La amenaza es real y profundamente preocupante», advirtieron los investigadores.
Chatbots modernos como ChatGPT, Gemini y otros operan con los llamados modelos de lenguaje grandes (o LLMs, por Large Language Models), sistemas de aprendizaje profundo (o deep learning) entrenados para obtener y procesar enormes cantidades de contenidos de internet.
A pesar de contar con mecanismos de seguridad integrados, como filtros de contenido malicioso y políticas de seguridad, estos sistemas retienen y pueden reproducir información ilícita con la misma facilidad.
El equipo de investigación de la universidad israelí, dirigido por el doctor Michael Fire y el profesor Lior Rokach, llevó a cabo un experimento en el que implementaron con éxito un jailbreak universal que afectó a varios modelos líderes.
(Se llama jailbreak, o escape de la prisión, a la aplicación de técnicas informáticas diseñadas para eludir las medidas de seguridad y las directrices éticas integradas en los LLMs para que ChatGPT, por ejemplo, no nos brinde información ilegal, peligrosa o perturbadora).
Respuestas «ilícitas y poco éticas»
Una vez comprometidos durante el experimento de Fire y Rokach, los modelos entregaron constantemente información ilegal o peligrosa sobre temas como robo, narcóticos, tráfico de información privilegiada y piratería informática.
«Todos los modelos que probamos produjeron respuestas ilícitas y poco éticas que demostraron una accesibilidad y un conocimiento profundos sin precedentes», explicó Fire.
«Hoy en día —enfatizó el profesor de la universidad israelí—, cualquier persona con una computadora portátil, o incluso un teléfono inteligente, puede acceder a estas herramientas«.
Los jailbreaks suelen basarse en indicaciones cuidadosamente elaboradas que engañan al chatbot para que eluda sus restricciones de seguridad, y exploran la tensión entre el objetivo principal del sistema (cumplir las instrucciones del usuario) y el objetivo secundario (evitar la generación de contenido dañino, sesgado, poco ético o ilegal).
«Las indicaciones —señaló el reporte difundido desde Beer Sheva, donde tiene su base la Universidad Ben Gurion del Negev— suelen enmarcar los escenarios de forma que el modelo priorice la utilidad sobre la seguridad«.
Rokach y Fire destacaron un fenómeno particularmente preocupante: la aparición de los llamados dark language models, modelos que carecen de garantías éticas externas o fueron subvertidos deliberadamente.
Algunos se distribuyen abiertamente a través de la dark web (internet oscura que forma parte de la internet profunda, los segmentos de la web no indexados por los motores de búsqueda) como herramientas para la ciberdelincuencia, el fraude y los ataques a la infraestructura.
Un llamado urgente a reforzar la seguridad
El estudio —cuyos resultados fueron publicados en el portal especializado arXiv— pidió que las empresas tecnológicas implementen un filtrado de datos más estricto y refuercen la protección contra indicaciones y resultados dañinos.
También que desarrollen técnicas de «desaprendizaje automático», para garantizar que los chatbots puedan olvidar permanentemente el conocimiento ilícito.
Dicha información, enfatizaron los investigadores, debe tratarse como un grave riesgo para la seguridad, similar a las armas o explosivos sin licencia, y la responsabilidad recae directamente sobre los proveedores.
Según Rokach, el peligro de engañar a ChatGPT y los modelos de LLLs «se magnifica con la llegada de agentes autónomos» de inteligencia artificial (IA), cuya capacidad para delegar tareas y actuar en ámbitos más amplios «dificulta considerablemente la creación de salvaguardas eficaces».
En algunos casos, añadió, esos agentes «pueden incluso convertirse en cómplices involuntarios de actividades delictivas».
El informe de la universidad contó que el equipo de investigación alertó a las principales empresas de IA sobre las vulnerabilidades descubiertas, pero que las respuestas fueron decepcionantes.
También le puede interesar: Es uno de los padres de la inteligencia artificial. Y está muy preocupado por el futuro
«Una importante empresa no respondió en absoluto, mientras que otras desestimaron el jailbreak como un problema menor», lamentaron desde Beer Sheva.
«La actitud predominante entre la mayoría de las empresas —completaron— es considerar estas preocupaciones como menores, especialmente en comparación con las violaciones de la privacidad o los errores de software».













