¿Qué IA debería usar como QA? ChatGPT, Claude y Gemini

Esta es la parada 2 de la ruta que armé en «No estás atrasado, estás saturado». Ya entendiste el mapa. Ahora toca la pregunta que más me llega al correo:

«¿Cuál uso? ¿ChatGPT, Claude o Gemini?»

Y casi siempre viene con un video abierto en otra pestaña: alguien comparando benchmarks, tokens por segundo, puntajes en pruebas con nombres de tres letras.

Olvídate de todo eso. No te sirve.

A ti no te pagan por saber qué modelo sacó dos puntos más en una prueba de matemática. Te pagan por encontrar lo que se va a romper antes de que llegue a producción. Esa es la única vara que importa aquí.

La pregunta correcta no es «cuál es la mejor»

La mejor IA, en abstracto, no existe. Existe la que te sirve a ti, para tu trabajo, hoy.

Y el trabajo de un QA no es escribir poesía ni resolver acertijos. Es esto:

Leer una historia de usuario y oler las ambigüedades, los huecos, los riesgos.

Convertir esa historia en casos de prueba que de verdad cubran lo que importa.

Entender, escribir y arreglar código de automatización (Playwright + TypeScript).

Trabajar sobre TU proyecto real: tus archivos, tu Jira, tus convenciones.

Y servirte aunque no programes una sola línea.

Esas son las preguntas con las que vamos a juzgar a las tres. No los benchmarks.

Antes de comparar, dos cosas honestas

Una: esto es mi punto de vista. Trabajé con las tres en serio y me quedé con una — pero no vengo a imponértela. Tu trabajo, tu equipo y tu forma de pensar pueden llevarte a otra, y está perfecto.

Dos: sé que hay muchos más modelos ahí afuera. No los meto aquí por dos razones. La primera, honesta: no los usé a fondo, y no opino de lo que no probé. La segunda, la que de verdad importa: como QA no necesitas la IA más potente del universo. Necesitas una que te funcione en tu día a día — que entienda una historia, que escriba un test, que no te deje a pie a mitad de la suite. Esa vara la cumplen estas tres.

Las tres, frente a frente

Para QA, cada una tiene un terreno donde brilla y otro donde te deja a pie. Esta es mi tabla honesta:

Para esto…	Mi elección	Por qué
Analizar una historia y cazar riesgos	Claude	Razona sobre el requisito, no se apura a responder
Generar casos rápido para explorar una idea	ChatGPT	Veloz y versátil para tirar ideas y variantes
Escribir y refactorizar tests (Playwright)	Claude	Es el más sólido cuando el código se pone largo
Leer specs o PRDs enormes de una sola vez	Gemini	Su ventana de contexto se traga documentos gigantes
Trabajar dentro de tu proyecto, con agentes	Claude	Claude Code vive en tu repo, no en una pestaña aparte
Empezar hoy mismo sin saber programar	ChatGPT	Es el más accesible y el que ya conoce todo el mundo

Ahora el detalle de cada una, con lo bueno y lo incómodo.

ChatGPT (OpenAI) — el todoterreno accesible

Es el que casi todos probaron primero, y por algo: es rápido, versátil y tiene el ecosistema más grande. Para QA funciona muy bien cuando quieres brainstorming: tirar variantes de casos, explorar escenarios, redactar un bug report en dos minutos. Los GPTs personalizados te dejan armar un asistente para una tarea repetitiva sin complicarte.

Dónde me falla: cuando el código se pone serio. Te inventa selectores que no existen con una seguridad pasmosa, y en archivos largos pierde el hilo. Para un caso suelto, perfecto. Para sostener una suite, me quedo corta.

Claude (Anthropic) — el que entiende código y contexto

Es el que uso a diario, y voy a decir por qué sin adornarlo. Razona sobre los requisitos en vez de salir disparado a responder — y eso, para analizar una historia de usuario, es oro. En código es el más confiable que probé: entiende tu framework, respeta tus convenciones, refactoriza sin romper la mitad de la suite.

Y está Claude Code: trabaja dentro de tu proyecto real, lee tus archivos, corre tareas. Ahí deja de ser «una IA en otra pestaña» y pasa a ser parte de tu flujo. De eso hablo en las paradas 3 a 8 de la ruta.

Dónde me falla: lo bueno está en los planes de pago. Y su ecosistema de plugins e imágenes es más chico que el de ChatGPT. Si lo tuyo es generar imágenes o quieres mil integraciones de un clic, no es su fuerte.

Gemini (Google) — el que se traga documentos enteros

Donde Gemini me sorprendió es en la ventana de contexto: le pegas un PRD de 60 páginas, una spec gigante, un volcado de logs, y lo procesa entero sin pestañear. Si tu trabajo arranca leyendo documentos enormes, ahí tiene una ventaja real. Y si tu empresa vive en Google Workspace, la integración con Docs y Sheets te ahorra saltos.

Dónde me falla: para el flujo QA pegado al código y a los agentes, lo siento un paso atrás de Claude. Sirve para leer y analizar; para construir y sostener automatización, no es a donde voy primero.

Con cuál me quedo

Uso Claude. Todos los días.

No porque sea «la mejor IA del mundo» —esa frase no significa nada— sino porque encaja con lo que hago: analizar requisitos, escribir tests en Playwright, y trabajar dentro de mi proyecto con Claude Code. Para ese flujo, ninguna de las otras dos me dio lo mismo.

No elijo Claude porque gane benchmarks. La elijo porque hace bien las tres cosas que más repito en mi semana: pensar el requisito, escribir el test, y vivir dentro de mi código.

Pero no te la voy a vender como perfecta: es de pago, tiene menos extras listos para usar que ChatGPT —plugins, generación de imágenes, ese tipo de cosas—, y para tareas sueltas y rápidas muchas veces abro ChatGPT sin culpa. Ninguna herramienta lo hace todo — y la que te prometa que sí, te está vendiendo algo.

Y ahora, lo que de verdad importa

Te voy a ahorrar meses de dar vueltas:

La herramienta que elijas importa menos que cuánto la conozcas. Una IA que dominas le gana a la «mejor» que apenas sabes usar.

El error más caro no es elegir la IA «equivocada». Es cambiar de herramienta cada vez que sale un video nuevo, sin llegar a dominar ninguna. Empiezas de cero una y otra vez, y nunca pasas de la superficie.

El patrón que te frena

Probar ChatGPT una semana, Claude la otra, Gemini la siguiente — y al mes no dominar ninguna. Elige una, quédate al menos un mes, y recién ahí compara con conocimiento de causa.

Elige una. La que mejor encaje con tu trabajo según la tabla de arriba. Y dale tiempo de verdad.

3 IA que probé a fondo

1 La que uso a diario

1 mes Mínimo antes de comparar en serio

Por dónde seguir

Ya tienes el mapa (parada 1) y elegiste tu herramienta (parada 2). El siguiente salto es el más importante de toda la ruta: dejar de pedirle cosas a la IA y empezar a hacer que trabaje contigo.

Esa es la parada 3: del prompt al agente. Ahí empieza la diferencia real entre pedirle cosas sueltas y tener un colaborador que ejecuta contigo.

Elige tu IA hoy. Domínala este mes. Y nos vemos en la siguiente parada.