modelscope NODE • ID: #modelsco

硅碳 AI 诊疗挑战赛

本次大赛设“硅基智能体 X 碳基医学生”双赛道,基于 OpenHospital 底座,构建高度拟真的全科诊疗 Arena。这里没有标准单选题,只有 12,000 名鲜活的智能体患者与上千种错综复杂的疾病网络,覆盖多发病、罕见病及复杂共病。这是一场让 "硅基智能体"与"碳基医学生"同台竞技 的临床试炼...

Time Remaining
44 DAYS
Join Contest
1,204 Teams Competing
Source Node
modelscope
Domain
应用开发赛
Difficulty
5/10
Total Bounty
10万奖金池+证书

Description

本次大赛设“硅基智能体 X 碳基医学生”双赛道,基于 OpenHospital 底座,构建高度拟真的全科诊疗 Arena。这里没有标准单选题,只有 12,000 名鲜活的智能体患者与上千种错综复杂的疾病网络,覆盖多发病、罕见病及复杂共病。这是一场让 "硅基智能体"与"碳基医学生"同台竞技 的临床试炼——评判标准回归医疗本质:问得更准、查得更精、治得更好。

一、赛题背景大模型技术正将医疗 AI 从"医学百科全书"推向"临床决策大脑",但一个核心命题亟待回答:"考场得分高"的 AI 智能体,真的能接诊现实中的复杂病患吗?传统医疗评测多以静态文本为基础(如 MedQA、USMLE),将鲜活的临床问题降维成考题,掩盖了患者沟通博弈与复杂共病的陷阱,更缺乏对"问诊 → 开具检查 → 诊断与治疗"全链路能力的系统性评估。本次大赛基于 OpenHospital 底座,构建高度拟真的全科诊疗 Arena。这里没有标准单选题,只有 12,000 名鲜活的智能体患者与上千种错综复杂的疾病网络,覆盖多发病、罕见病及复杂共病。这是一场让 "硅基智能体"与"碳基医学生"同台竞技 的临床试炼——评判标准回归医疗本质:问得更准、查得更精、治得更好。二、赛题任务参赛选手需基于给定评测集,完成医生诊疗全链路任务,涵盖三个核心环节:环节任务描述中间输出① 问诊通过多轮自然语言对话,与患者智能体交互收集病史与症状医生对话文本② 开具检查基于问诊信息,合理开具必要检查项目检查项目名称③ 诊断与治疗综合问诊与检查结果,给出明确诊断结论与治疗方案确诊疾病名称、治疗方案文本2.1 双赛道介绍硅基赛道(搭建、调优智能体参赛)参赛对象:面向全国高校在校学生(专科、本科、硕士、博士、在职研究生等高等教育学籍在内的在校学生人群),具备智能体搭建能力的开发者,每队 1–3 人;资源包:训练服务端(包括与训练集的患者智能体对话,获取检查结果,在线评估,提供标准答案)、标准检查项目清单、标准疾病名称清单,初始医生智能体baseline;考察重点:智能体搭建、Skill 构建、Memory 管理;交付物:在魔搭创空间中部署的医生智能体。碳基赛道(在校医学生参赛)参赛对象:面向含医学相关专业的专科生、本科生、硕士及博士研究生,以个人形式参赛;资源包:可视化交互平台(包括与训练集的患者智能体对话,获取检查结果,在线评估,提供标准答案)、标准检查项目清单、标准疾病名称清单;考察重点:临床实践能力、知识储备、经验判断;交付物:在可视化交互平台上在线作答的答题记录。2.2 赛事流程赛事平台:https://www.modelscope.cn/studios/baconroot/virtual_hospital提交报名后,24h 内将通过报名预留邮箱发放 参赛账号,两赛道均在赛事平台进行两赛道均分为 训练阶段 与 评测阶段:训练阶段:模型基座统一限定为 Qwen3.5-Flash,选手可通过 API 或 Web 界面调用患者智能体,完成问诊、检查、诊断、治疗全流程;平台同步提供训练集标准答案供选手参考调优。该阶段所消耗的 token 数将计入最终加权得分,消耗越少得分越优。评测阶段:硅基赛道由选手在创空间中部署开发好的智能体,评测阶段限定用 Qwen3.5-Flash,然后提供创空间名称和Modelscope的Access Token,由系统进行自动化批量评测;碳基赛道由选手登录可视化交互平台在线作答,系统依据标准答案自动判分。2.3 提交规则赛道提交方式提交次数硅基-智能体赛道在魔搭创空间中部署的医生智能体,提交到平台+链接&截图每队最多 3 次,取最高分碳基-医学生赛道在可视化交互平台上直接在线作答+链接每人最多 3 次,取最高分2.4 跨赛道衡量机制两赛道独立排名,同时发布 跨赛道综合对比榜 供行业参考。三、赛程总览阶段时间内容报名 & 热身6 月 3 日开放报名,发布 Baseline,熟悉 Arena 平台与提交流程初赛8 月 2 日开放评测集 A 卷(公开卷),排行榜准实时更新;硅基智能体赛道 Top 20 进入复赛,碳基医学生赛道 直接决选 Top 6复赛8 月 31 日开放评测集 B 卷(隐藏卷),难度提升,覆盖更多疑难/罕见病例;B 卷成绩 Top 6 进入决赛决赛9 月初全赛程技术解决方案路演,决选最终一、二、三等奖结果公布9 月初公布最终排行榜并颁奖四、评估维度指标权重评估说明诊断准确率25%预测诊断集合与标准诊断集合的匹配度,要求预测为标准的子集检查精确率25%开具检查项目的精确率,避免过度医疗治疗方案契合度25%综合 安全性、有效性对齐度、个性化程度 三个维度评分(1–5 分),含安全性惩罚机制测试阶段 Token 消耗量得分20%评测阶段 Token 消耗,越少得分越高训练阶段 Token 消耗量得分5%训练阶段 Token 消耗,越少得分越高注:碳基赛道在测试时还会计时,分数相同时,用时越少,排名越高。五、奖金与激励硅基赛道(智能体开发队伍)奖项数量奖金(含税)额外激励🥇 一等奖1¥ 20,000获奖证书🥈 二等奖2¥ 10,000获奖证书🥉 三等奖3¥ 5,000获奖证书碳基赛道(医学生)奖项数量奖金(含税)额外激励🥇 一等奖1¥ 10,000获奖证书🥈 二等奖2¥ 7,000获奖证书🥉 三等奖3¥ 5,000获奖证书六、组织单位主办单位:魔搭社区、浙江大学、浙江工商大学合办单位:浙江大学软件学院、浙江大学医学院、浙江工商大学共同富裕统计监测与智能治理实验室、南京大学智能科学与技术学院协办单位:阿里云百炼七、资源支持7.1 赛题解读与培训形式时间内容赛题解读直播赛前启动平台说明、评分规则详解、Baseline 复现演示、答疑用户手册(见赛事平台右上角)赛前启动硅基:赛事平台使用说明+医生智能体baseline使用说明;碳基:平台使用教程赛中答疑赛程全程官方讨论区与微信答疑群碳硅基问诊表演赛赛程中直播展示双赛道交互效果7.2 Baseline 与平台资源赛事平台:诊疗交互界面、实时排行榜、历史提交记录回看硅基选手在该平台进行测试。碳基选手在该平台进行训练和测试。赛事平台:https://www.modelscope.cn/studios/baconroot/virtual_hospital提供可调优的 Baseline 在创空间中,可以复制进行改进baseline:https://www.modelscope.cn/studios/baconroot/hospital_agent_example7.3 Token 支持● 训练阶段:算力由选手自行准备训练所需算力由选手自行准备。推荐选手优先申领阿里云"云工开物"高校学生扶持计划的算力额度,作为训练资源之一。该计划由阿里云独立运营,面向全国高校在读学生开放,符合条件者可申领至多 300 元/人;具体规则与有效期以阿里云官方说明为准。申领额度用完的部分,由选手自行承担;选手也可自行选用其他合规算力资源。「云工开物」的具体申请方式 👉点此查看 领取算力券后,按以下步骤接入指定模型:进入指定模型:通过以下链接跳转到本次参赛指定模型 Qwen3.5-Flash: https://bailian.console.aliyun.com/cn-beijing#/model-market/detail/qwen3.5-flash?serviceSite=asia-pacific-china获取并填写 API Key:在百炼平台设置并获取 API Key,然后填入参赛平台。计费与抵扣说明:百炼平台采用按量付费模式,每个模型都会先提供一部分免费调用额度。免费额度用完后,将自动使用"云工开物"券抵扣后续费用。● 评测阶段:算力由赛事平台统一提供评测采用 T+1 离线评测机制,所需算力由赛事平台统一提供,选手无需自备。7.4 技术支持提供完整的技术支持体系,包括 Baseline 使用文档、常见问题 FAQ、官方答疑群等