OpenAI 推出 GeneBench-Pro 基准测试，用于评估 AI 模型生物学计算能力

与以往主要关注模型记忆能力或能否遵循固定步骤完成任务的基准测试不同，GeneBench-Pro 旨在模拟真实的科研场景，要求模型处理包含噪声、不完整甚至干扰信息的数据，并在此基础上进行判断和分析以得出结论。

GeneBench-Pro 的测试范围涵盖了基因组学、定量生物学以及转化医学等多个领域。该基准测试共包含 129 道题目，这些题目被划分为 10 个主要领域和 21 个子领域，涉及统计遗传学、群体遗传学、功能基因组学和蛋白质组学等多个方向。每道题目都为模型提供了一个接近真实科研环境的数据集，同时附带简要的实验背景信息和一个与后续决策相关的目标问题。模型需要自主完成数据探索、分析方法的选择，并在整个过程中不断调整策略，最终给出答案。

为了解决传统长流程基准测试中常见的评分偏差问题，OpenAI 在设计 GeneBench-Pro 时采用了合成数据。这是因为使用历史真实数据出题时，可能存在多种有效的分析路径，导致模型即使采用了错误的方法也可能因为偶然性而获得正确答案。通过使用合成数据，OpenAI 可以完全控制底层因果结构和数据生成过程，从而更精确地评估模型是否真正理解了问题，而非仅仅走了捷径。

目前，OpenAI 已在 Hugging Face 公开了 10 道 GeneBench-Pro 的代表性示例题目，并提供交互式界面供外部研究人员进行体验。未来，OpenAI 计划开放其中 50 道题目给 Artificial Analysis 进行独立的第三方评测，以检验不同模型在这一基准测试上的实际表现。

Single post

Comments3

The Price List of ARCH Company Services