HyperAIHyperAI

Command Palette

Search for a command to run...

FirstAidQA:面向低连接性环境的急救与应急响应合成数据集

Saiyma Sittul Muna Rezwan Islam Salvi Mushfiqur Rahman Mushfique Ajwad Abrar

Abstract

在紧急情况下,每一秒都至关重要。然而,大型语言模型(LLMs)在时间敏感、网络连接极低甚至无连接的环境中部署仍面临诸多限制。当前的模型普遍计算资源需求高,难以在一线救援人员或普通民众常用的低性能设备上运行。开发轻量化、领域专用解决方案的一大障碍,是缺乏高质量、专为急救与应急响应场景设计的数据集。为填补这一空白,我们提出 FirstAidQA——一个包含5,500组高质量问答对的合成数据集,覆盖广泛的急救与应急响应情境。该数据集基于大型语言模型 ChatGPT-4o-mini,采用基于提示(prompt-based)的上下文学习方法,结合《生命急救手册》(Vital First Aid Book, 2019)中的文本生成。我们经过文本清洗、上下文分块与过滤等预处理步骤,并辅以人工校验,确保问答对在准确性、安全性及实际应用相关性方面的可靠性。FirstAidQA 旨在支持大型语言模型(LLMs)与小型语言模型(SLMs)的指令微调(instruction-tuning)与微调(fine-tuning),从而推动构建更快速、更可靠且具备离线运行能力的应急响应系统。我们已将该数据集公开发布,以促进急救与应急响应领域中安全关键型、资源受限型人工智能应用的研究进展。数据集现已上线 Hugging Face 平台,访问地址为:https://huggingface.co/datasets/i-am-mushfiq/FirstAidQA

一句话摘要

伊斯兰科技大学的Muna等人提出FirstAidQA——一个通过ChatGPT-4o-mini基于提示的上下文学习生成并经人工验证的5,500条高质量急救问答对合成数据集,旨在解决时间敏感、低网络连接场景下离线可用系统训练轻量级大语言模型(LLM)和小型语言模型(SLM)所需的领域专用应急响应数据稀缺问题。

主要贡献

  • 识别出急救领域专用数据集的缺失是轻量级AI在低网络连接应急场景部署的关键障碍,提出FirstAidQA合成数据集:基于《关键急救手册》通过上下文学习,经严格预处理与人工验证,利用ChatGPT-4o-mini生成5,500组问答对。
  • 通过三位医疗专家对随机抽取的200组问答对进行安全性和准确性验证,评估标准包括安全完整性与相关性,并在提供评估表格中记录需谨慎处理的 flagged 示例。
  • 专为微调小型语言模型设计FirstAidQA结构,使应急响应系统具备离线能力,延续Cahlen等在离线急救系统等资源受限医疗应用中已验证有效的技术方法。

引言

作者针对低网络连接区域缺乏即时精准急救指导的痛点展开研究——此类场景中可靠互联网接入难以保障,但及时准确的急救指导关乎生命。现有方案(如基于FAQ的聊天机器人或商用语音助手)常缺失循证步骤或提供不完整指令,而现有医疗问答数据集聚焦临床记录或通用健康信息,缺乏面向公众的实操性分步急救指南。Self-Instruct等合成数据集虽证明LLM具备可扩展数据生成潜力,但缺乏急救领域特异性。作者核心贡献FirstAidQA通过合成数据生成,专为离线场景提供可靠、符合指南的急救指令,填补该高风险领域的专用资源空白。

数据集

  • 作者提出FirstAidQA合成数据集,包含5,500组聚焦急救与应急响应场景的问答对。数据通过基于提示的上下文学习,由ChatGPT-4o-mini生成,源材料严格限定于认证版*《关键急救手册》(2019年版)*。
  • 关键类别细节:
    • 总量:5,500组问答对覆盖15类紧急情况(如心肺复苏、烧伤、骨折、头部外伤、出血处理)。
    • 来源:源自*《关键急救手册》*的文本片段,经人工分段保留上下文(如伤员转运协议或烧伤处理步骤)。
    • 筛选:排除无关理论内容,仅保留适用于真实应急场景的文本用于问答生成。
    • 安全规则:提示词明确约束LLM仅基于提供上下文生成答案,并通过多样化主题采样降低偏差。
  • 该数据集支持轻量级LLM/SLM的指令微调与精细调优,适用于低网络连接环境的离线部署。作者使用完整数据集(未指定训练/验证集划分)训练需快速可靠应急指导的模型,强调实操程序知识而非临床诊断。
  • 处理流程包括:源文本上下文分块、结构化JSON格式输出生成(每批提示生成20组问答)、人工验证准确性/安全性、迭代优化确保多样性(如补充儿科/老年场景)。未采用裁剪策略,而是通过保留上下文的分块维持边缘设备部署的情境相关性。

实验

  • 三位医疗专家对随机抽取的200组问答对进行专家评估,验证清晰度、相关性、具体性与完整性、安全准确性,平均评分记录于表2
  • 表3与表4重点标注含潜在不安全指令的问答对,提示数据集使用时需谨慎处理

作者通过专家评估对200组问答对的四项标准进行评分,取三位医疗专家平均值。结果显示相关性得分最高(4.7分),安全准确性最低(3.7分),表明问题定位精准且表述清晰,但部分答案存在医学不准确或不安全内容。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供