La IA se puede manipular fácilmente para ayudar a los ciberdelincuentes

El mundo de la inteligencia artificial está de moda, no paran de aparecer noticias en los medios. El problema no solo está en que el algoritmo sea capaz de inventar cosas que no son verdaderas; las llamadas “alucinaciones”. ¿Os imagináis a la inteligencia artificial (IA) siendo cómplice de ciberataques y estafas en línea? Según una reciente investigación de IBM, la posibilidad no está tan lejos de ser real.

En la investigación de IBM comprobaron que los modelos de lenguaje de gran escala (LLM), incluyendo el popular ChatGPT, pueden ser fácilmente manipulados para generar código malicioso y proporcionar consejos de seguridad cuestionables. Según Chenta Lee, arquitecto jefe de inteligencia de amenazas en IBM, solo se necesita un buen dominio del inglés y cierto conocimiento de cómo fueron entrenados estos modelos para convertirlos en cómplices de acciones malintencionadas.

Repercusiones en el Ciberespacio

A medida que estos modelos de IA se popularizan, surgen dos tendencias principales en el ámbito de la ciberseguridad. Por un lado, varias compañías han lanzado herramientas de copiloto habilitadas con IA generativa para aumentar la eficiencia de los defensores de la ciberseguridad y paliar la actual escasez de trabajadores en la industria. Por otro lado, muchos investigadores y funcionarios gubernamentales han advertido que los LLM podrían facilitar la creación de malware por parte de hackers novatos y hacer que los correos electrónicos de phishing parezcan legítimos.

Trucos para burlar las protecciones de IA

El truco, según Lee, radica en “hipnotizar” a los LLMs haciéndoles creer que están jugando un juego con reglas específicas. Al hacer esto, se pueden sortear las “barreras de seguridad” destinadas a proteger a los usuarios. Por ejemplo, IBM logró que los chatbots proporcionaran información incorrecta y generaran código malicioso simplemente al decirles que estaban en un juego en el que tenían que dar respuestas incorrectas para ganar.

Reflexiones y próximos pasos

No obstante, vale la pena mencionar que no todos los LLMs cayeron en estos escenarios de prueba y aún no está claro por qué. Los diferentes modelos de IA tienen diferentes datos de entrenamiento y reglas que rigen su comportamiento. Pero si se llegara a implementar un LLM manipulado, Lee prevé un escenario donde un bot de servicio al cliente virtual podría ser engañado para proporcionar información falsa o recopilar datos personales específicos de los usuarios.

364