Back

OpenAI lanza el benchmark GeneBench-Pro para mejorar la capacidad de análisis biológico de los modelos de IA

Tecnología02.Jul.2026 00:503 min read

OpenAI ha presentado el nuevo benchmark GeneBench-Pro para evaluar la capacidad real de investigación de la IA en tareas biológicas complejas como la genómica y la proteómica. A diferencia de las pruebas tradicionales, que se centran más en la memoria y en flujos de trabajo fijos, este benchmark pone mayor énfasis en el juicio, el análisis y la toma de decisiones de los modelos en entornos de datos caóticos e incompletos.

OpenAI lanza el benchmark GeneBench-Pro para mejorar la capacidad de análisis biológico de los modelos de IA

En el contexto del rápido desarrollo de la biotecnología, cómo analizar de forma eficiente y precisa datos biológicos complejos se ha convertido en un desafío importante para los investigadores. Para mejorar la capacidad práctica de análisis de la IA en este ámbito, OpenAI lanzó recientemente el nuevo benchmark GeneBench-Pro, centrado en evaluar la capacidad de investigación de los modelos en tareas como genómica y proteómica, con especial atención a su nivel de juicio y toma de decisiones frente a datos caóticos e incompletos.

Diferencias clave frente a los benchmarks tradicionales

GeneBench-Pro presenta diferencias evidentes respecto a los benchmarks tradicionales. Las pruebas tradicionales suelen centrarse más en la capacidad de memoria del modelo y en si puede completar tareas siguiendo un proceso establecido; en cambio, GeneBench-Pro pone mayor énfasis en la utilidad práctica del modelo en entornos reales de investigación científica.

En el diseño de las tareas, este benchmark introduce deliberadamente entornos de datos “ambiguos, incompletos y con interferencias”, exigiendo a los modelos realizar exploración y análisis de datos en condiciones complejas, reflejando así de forma más realista su capacidad de juicio en investigación.

OpenAI lanza el benchmark GeneBench-Pro para mejorar la capacidad de análisis biológico de los modelos de IA

Áreas cubiertas y configuración de las preguntas

GeneBench-Pro abarca varias áreas de la biología, incluidas la genómica, la biología cuantitativa y la medicina traslacional, con un total de 129 preguntas que cubren múltiples subcampos:

Genética estadística
Genética de poblaciones
Genómica funcional
Proteómica

En las pruebas concretas, cada pregunta proporciona al modelo un conjunto de datos cercano a un entorno real de investigación científica, acompañado de un breve contexto experimental y una descripción del problema. El modelo debe elegir de forma autónoma el método de análisis y ajustar dinámicamente su estrategia en función del proceso analítico, para finalmente ofrecer una conclusión.

Uso de datos sintéticos para reducir sesgos de evaluación

Para reducir los sesgos de evaluación habituales en las pruebas tradicionales de procesos largos, OpenAI utilizó datos sintéticos en el diseño de GeneBench-Pro. Esto ayuda a controlar mejor el proceso de generación de datos, de modo que los resultados de la evaluación reflejen con mayor fidelidad la verdadera capacidad de comprensión y análisis del modelo, en lugar de depender de conjeturas o atajos para obtener la respuesta.

Ejemplos abiertos y próximos planes de evaluación

Actualmente, OpenAI ya ha publicado en código abierto en la plataforma Hugging Face 10 ejemplos representativos de GeneBench-Pro, que los investigadores externos pueden probar mediante una interfaz interactiva.

Además, OpenAI también planea entregar 50 preguntas a Artificial Analysis para una evaluación independiente, con el fin de verificar aún más el rendimiento real de distintos modelos en este benchmark.