网易授权服务商:湖南领先网络科技有限公司
一键扫码支付开通邮箱
扫码支付开通邮箱
支付宝扫码支付
微信扫码支付
! 扫码支付请您添加支付款备注,输入您公司名称
申请试用体验
为了帮助您更好地了解和使用网易企业邮箱,在您申请成功后,将由专属邮箱顾问为您安排产品体验服务。
  • 产品解说
  • 产品配置
  • 产品体验
电话咨询
致电专属客服 咨询邮箱解决方案
400-0908-163
微信咨询
我是您的专属邮箱顾问
免费1V1服务 「邮件+」高效办公
扫码添加 | 为您1V1解答邮箱疑问
网易企业邮箱帮助中心

网易伏羲有灵平台驱动NetEaseCrowd数据集构建,助力大模型与用户体验进一步升级

当我们在日常生活中享受AI带来的种种便利时,例如AI助手精准识别语音、智能对话回复、高效辅助学习工作,这些背后都离不开一个强大的“智慧引擎”——高质量数据集。就像汽车需要精细调校的发动机才能平稳行驶,大模型也需要丰富的、高质量的训练数据作为“燃料”,来确保其在各种场景中精准执行任务。


近年来,随着大模型技术的快速实用化,高质量数据集的重要性日益凸显,高通量、高质量、低成本的数据获取已成为大模型能力提高的瓶颈之一。网易伏羲敏锐洞察到当前数据获取瓶颈,针对线上应用中长期、多类型众包任务真值推断算法评估需求的空缺,推出了全新的开源数据集NetEaseCrowd


  • 数据集开源链接:

https://github.com/fuxiAIlab/NetEaseCrowd-Dataset

  • 论文链接:

https://arxiv.org/abs/2403.08826


该数据集通过网易伏羲有灵平台精心采集,汇聚了跨越多种任务类型、长达数月时间跨度的丰富标注数据。相比于以往数据集,NetEaseCrowd具有长时间跨度、标注时间戳、跨任务类型、规模大等特点,能够有效填补大规模、多任务类型、时序性真值推断评估空白,全面改善对真值推断算法效果的评估标准,引导研发方向更加注重时间动态性和多任务适应性。

image.png



基于NetEaseCrowd数据集,研究者们可以在更大规模和更复杂的场景中对现有的真值推断算法进行全面评估,同时,也将促进应对多种任务类型、考虑时间动态变化以及满足实时推理需求的新一代真值推断算法研发进程。