Google ha dado un paso importante en la evolución de sus modelos de inteligencia artificial con Gemini AI, un sistema que ya no se limita a generar texto o responder preguntas, sino que ahora es capaz de interactuar directamente con la interfaz de un ordenador o un navegador web. Esta nueva capacidad, conocida como “Computer Use”, permite que la IA ejecute acciones visuales como abrir pestañas, escribir, hacer clic o arrastrar objetos, del mismo modo que lo haría un usuario. Su alcance, aunque limitado por motivos de seguridad, abre el camino hacia agentes digitales capaces de manejar tareas cotidianas de manera semiautónoma. En este artículo se detallan las características técnicas de Gemini 2.5, su funcionamiento, los posibles beneficios y también los riesgos de seguridad asociados a este avance, con referencias a estudios y análisis publicados en sitios como The Verge, TechRadar y Wired.

Qué significa que Gemini “use tu ordenador”

Gemini representa la apuesta de Google por una IA que no solo responde o predice texto, sino que actúa directamente sobre un entorno visual. Mientras que las versiones anteriores se limitaban a recibir comandos escritos o de voz, el nuevo modo “Computer Use” es capaz de interpretar elementos gráficos —botones, menús, formularios o cuadros de diálogo— y operar sobre ellos. En otras palabras, Gemini observa una interfaz y ejecuta acciones reales dentro de ella, como si fuera un asistente con control del ratón y el teclado.

Según The Verge, esta modalidad permite que el modelo realice hasta trece tipos de acciones diferentes, incluyendo abrir y cerrar pestañas, escribir texto, desplazarse por páginas, seleccionar o copiar contenido, arrastrar objetos o esperar a que una carga finalice. Estas operaciones están diseñadas para ejecutarse de forma controlada dentro del navegador, sin acceso directo al sistema operativo ni a los archivos del usuario. La idea no es que Gemini controle el ordenador entero, sino que opere en un entorno seguro, delimitado y visible, utilizando una lógica de “sandbox” que reduce la exposición a riesgos.

Google ha aclarado que este tipo de agente no tiene privilegios para ejecutar programas o acceder al hardware, sino que funciona sobre la interfaz del navegador como si fuera un usuario más. La IA analiza los elementos visibles, determina qué acción es necesaria para cumplir la instrucción del usuario y la ejecuta paso a paso, validando los resultados. Este proceso implica razonamiento visual, planificación secuencial y verificación de estado, lo que convierte a Gemini en algo más que un simple chatbot: un sistema de percepción y acción coordinadas.

Gemini 2.5 Computer Use: el núcleo de la experiencia

El producto principal de esta nueva generación es Gemini 2.5 Computer Use, un modelo específicamente entrenado para manejar interfaces web y móviles. De acuerdo con The Verge, esta versión ya está disponible para desarrolladores dentro de Google AI Studio y Vertex AI, donde puede integrarse en proyectos experimentales o de automatización avanzada.

Una de las demostraciones más comentadas fue la de Gemini navegando por una página, rellenando formularios y resolviendo el juego 2048 sin intervención humana. En pruebas internas, la IA mostró una tasa de éxito superior a la de sus competidores en tareas encadenadas que requerían varios pasos consecutivos, lo que sugiere una coherencia operacional sostenida. Las métricas apuntan a una reducción de latencia entre acción y respuesta por debajo de los 300 milisegundos, y una tasa de finalización correcta cercana al 95 % en flujos de más de diez acciones.

Aunque el sistema aún no es público a gran escala, el enfoque de Google combina visión computacional, razonamiento contextual y ejecución programática. Esto significa que la IA identifica visualmente los elementos de la interfaz, interpreta el contexto semántico y decide qué movimiento realizar. Si una acción falla —por ejemplo, si el botón cambia de posición— Gemini intenta una alternativa, aplicando un método de retroalimentación iterativa.

El modelo fue diseñado para trabajar con aplicaciones web y móviles bajo supervisión, lo que implica que aún no puede abrir archivos, ejecutar código o modificar configuraciones del sistema operativo. Este límite es intencional y busca garantizar seguridad y previsibilidad. Según el propio equipo de desarrollo, la prioridad es ofrecer un agente que “comprenda” la interfaz antes de darle poder total sobre ella.

Usos prácticos y potencial técnico

La utilidad de una IA capaz de actuar sobre interfaces visuales es evidente. En entornos profesionales, podría utilizarse para automatizar pruebas de software, navegando por páginas o aplicaciones de forma realista y detectando errores de diseño o fallos de usabilidad. En investigación de experiencia de usuario, podría analizar la accesibilidad de los sitios web, midiendo tiempos de carga y rutas de navegación.

En el ámbito personal, Gemini permitiría realizar tareas cotidianas sin intervención directa: reservar billetes de tren, hacer pedidos en línea o rellenar formularios administrativos. Una persona podría decirle a la IA: “Paga la factura de la luz en la web de la compañía”, y el sistema, usando el navegador, identificaría los pasos, introduciría los datos y completaría la transacción, siempre bajo confirmación del usuario.

Este tipo de agente tiene también un enorme potencial para el testing de aplicaciones, donde la automatización repetitiva ahorra cientos de horas de trabajo. La capacidad de detectar errores visuales o temporales —como un botón que no responde tras cierta latencia— representa una ventaja significativa frente a los scripts de automatización tradicionales, que operan de manera ciega sobre el código HTML. Gemini, en cambio, “ve” la interfaz y actúa según lo que percibe, lo que lo hace más adaptable y menos dependiente de estructuras fijas.

Desde un punto de vista técnico, el modelo combina percepción visual mediante redes neuronales convolucionales con un módulo de planificación secuencial basado en atención jerárquica. Esto le permite priorizar acciones según contexto, sin perder coherencia entre pasos consecutivos. Se estima que el procesamiento de cada interacción requiere entre 3 y 5 gigaflops de capacidad computacional, lo que resulta viable para ejecución en la nube pero aún costoso para dispositivos locales.

Los riesgos que acompañan al avance

Permitir que una IA manipule interfaces no está exento de riesgos. Uno de los más mencionados es el prompt injection, una técnica en la que se esconden comandos dentro de un texto aparentemente inocente. De este modo, una página web o un correo electrónico podrían contener instrucciones ocultas que Gemini interpretaría como órdenes.

Un investigador documentó este tipo de ataque, en el que un mensaje con texto invisible ordenaba a la IA abrir un sitio malicioso o modificar un ajuste del usuario. Según TechRadar, Google no considera esta vulnerabilidad un fallo técnico, sino una forma de manipulación semántica similar a la ingeniería social, aunque admite que podría causar problemas si no se implementan filtros robustos.

Más preocupante fue un experimento descrito por Wired, en el que un grupo de investigadores en Tel Aviv demostró que una invitación de calendario con instrucciones encubiertas podía hacer que Gemini activara dispositivos domésticos inteligentes conectados al ecosistema de Google Home. La IA, al resumir el contenido de la invitación, interpretó los comandos como órdenes legítimas y ejecutó acciones reales, como encender luces o ajustar la calefacción. El estudio, titulado “Invitation Is All You Need”, evidenció que las IAs con control operativo pueden ser vulnerables a ataques disfrazados de tareas benignas.

Otro riesgo es la confianza excesiva. A medida que los usuarios deleguen más tareas en la IA, la supervisión humana disminuirá, y con ello crecerá la posibilidad de errores no detectados. Si un agente ejecuta transferencias bancarias o gestiona datos personales, bastaría un fallo en la interpretación del contexto para generar pérdidas o filtraciones. Google planea incorporar confirmaciones explícitas y auditorías internas para cada acción sensible, pero el problema central no es técnico: es de confianza y responsabilidad.

A largo plazo, conforme estos modelos ganen acceso a más funciones, la frontera entre “asistente” y “operador autónomo” se volverá difusa. Las soluciones clásicas de ciberseguridad, diseñadas para amenazas externas, no bastan para un agente que puede actuar desde dentro del entorno autorizado del usuario. Se requerirá una capa de control independiente que supervise lo que la IA hace, no solo lo que dice.

Arquitectura y comportamiento interno

Desde un punto de vista arquitectónico, Gemini integra cinco componentes clave: percepción visual de la interfaz, interpretación semántica, planificación de acciones, ejecución física simulada y verificación de resultados. Cada uno trabaja en ciclos rápidos, con un margen de error medio inferior al 5 % en contextos estandarizados.

La percepción se basa en una red neuronal que transforma capturas de pantalla en mapas de probabilidad, identificando elementos interactivos y asignándoles relevancia según la instrucción del usuario. El módulo semántico traduce la intención (“abre el correo y busca el mensaje más reciente”) en una secuencia de objetivos (“localizar icono”, “hacer clic”, “filtrar por fecha”). Luego, el planificador genera un árbol de acciones y el ejecutor las lleva a cabo de forma secuencial.

Todo el proceso ocurre en un entorno controlado por la nube, lo que implica que los datos del usuario pueden transitar por servidores externos. Este punto genera debate, ya que aunque las comunicaciones están cifradas, la privacidad depende de la política de retención de datos y del grado de anonimización que Google implemente.

Los ingenieros de la compañía afirman que cada acción es registrada y verificada para garantizar transparencia y trazabilidad, y que los accesos a cuentas personales o contenidos sensibles requieren autenticación adicional. Sin embargo, los analistas coinciden en que, a medida que el modelo gane autonomía, será necesario un marco regulatorio más estricto sobre la interacción IA-humano.

Reflexiones finales

La llegada de Gemini con capacidad de operar un ordenador marca un cambio importante en la relación entre humanos y máquinas. No se trata ya de recibir respuestas, sino de permitir que la IA actúe físicamente en nuestro entorno digital. El impacto de esta tecnología dependerá tanto de su precisión como de su fiabilidad, y sobre todo, del grado de control que el usuario conserve.

Gemini 2.5 no pretende sustituir al operador humano, sino complementar su capacidad con velocidad y repetición sin error. Su fuerza radica en la combinación de visión y acción, en la posibilidad de convertir un comando abstracto en una secuencia tangible de clics y movimientos. Pero esa misma fuerza exige límites claros. Una IA que puede tocar los botones también puede equivocarse, y un error dentro del navegador puede tener consecuencias amplias si el contexto no se supervisa.

En la práctica, el equilibrio entre automatización y control será la clave del éxito de este enfoque. Si Google consigue mantener la transparencia, la seguridad y la comprensión contextual sin sacrificar eficiencia, Gemini podría convertirse en el estándar para la interacción asistida en la web. Si no, se abriría un campo nuevo de vulnerabilidades donde la comodidad se paga con exposición.

338
Suscribirse
Notificación
0 Comments
Inline Feedbacks
Ver todos los comentarios
0
¡Aquí puedes dejar tus comentarios!x