当我们在日常生活中享受AI带来的种种便利时,例如AI助手精准识别语音、智能对话回复、高效辅助学习工作,这些背后都离不开一个强大的“智慧引擎”——高质量数据集。就像汽车需要精细调校的发动机才能平稳行驶,大模型也需要丰富的、高质量的训练数据作为“燃料”,来确保其在各种场景中精准执行任务。
近年来,随着大模型技术的快速实用化,高质量数据集的重要性日益凸显,高通量、高质量、低成本的数据获取已成为大模型能力提高的瓶颈之一。网易伏羲敏锐洞察到当前数据获取瓶颈,针对线上应用中长期、多类型众包任务真值推断算法评估需求的空缺,推出了全新的开源数据集NetEaseCrowd。
数据集开源链接:
https://github.com/fuxiAIlab/NetEaseCrowd-Dataset
论文链接:
https://arxiv.org/abs/2403.08826 该数据集通过网易伏羲有灵平台精心采集,汇聚了跨越多种任务类型、长达数月时间跨度的丰富标注数据。相比于以往数据集,NetEaseCrowd具有长时间跨度、标注时间戳、跨任务类型、规模大等特点,能够有效填补大规模、多任务类型、时序性真值推断评估空白,全面改善对真值推断算法效果的评估标准,引导研发方向更加注重时间动态性和多任务适应性。 基于NetEaseCrowd数据集,研究者们可以在更大规模和更复杂的场景中对现有的真值推断算法进行全面评估,同时,也将促进应对多种任务类型、考虑时间动态变化以及满足实时推理需求的新一代真值推断算法研发进程。