您现在的位置是：首页 > 快讯快讯

OpenAI开源HealthBench，60个国家合力开发5000段真实对话

zhoucl 2025-05-13 07:39:46 快讯已有人查阅

导读OpenAI开源了一个专门面向医疗大模型的测试评估集——HealthBench。与以往测试集不同的是，该测试集的5000段核心测试对话，全部由来自60个国家/地区的26个专业262名医生打造，极大增强了该测试集的难度、真实性以及丰富度。并且采用了多轮对话测试，而不是简单的答题或选择题模式。根据测试数据显示，大模型在医疗保健领域的表现有了显著提升。例如，从之前的GPT-3.5Turbo的16%到GPT-4o的32%，再到o3的60%，整体性能有了显著进步。尤其是小型模型的进步更为突出，GPT-4.1nano

OpenAI开源了医疗大模型测试评估集HealthBench。该测试集包含5000段核心对话，由来自60个国家和地区的262名医生设计，具备高难度、真实性和丰富性，并采用多轮对话形式。测试结果显示，大模型在医疗保健领域的表现显著提升：GPT-3.5 Turbo从16%提升至GPT-4o的32%，再到o3的60%。小型模型进步尤为明显，GPT-4.1 nano性能超越GPT-4o，且成本降低25倍。

本文标签：

很赞哦！ ()

上一篇：Truth Social否认有关将发行Meme币的谣言

下一篇：美检方建议判SEC黑客Council入狱两年