移动端

您现在的位置:兴旺宝>通信设备网>资讯列表>高质量数据集典型案例 | 数据堂教育高质量数据集构建及应用

高质量数据集典型案例 | 数据堂教育高质量数据集构建及应用

2025年10月15日 08:47:38 人气: 18451 来源: 国家数据局
  针对教育数据“多模态对齐难、大规模标注慢、高质量评测难”等问题,研发攻关多模态语义表征对齐、高效半自动数据智能标注、多维度数据集质量评测等关键技术体系;建设教育行业分布式自动采集、标注工具及智能化生产平台;数据集构建速度提升80%,标注准确率达到97%以上,整体效率提高60%~80%,降低人工智能数据“卡脖子”风险,有效保障教育行业高质量数据集自主供给能力,显著促进教育大模型开发效率和应用落地,推动教育AI产业化发展。
 
  方案和成效
 
  一是关键技术攻关,破解标注难题。研发攻关多模态语义表征对齐技术、高效半自动数据智能标注技术、多维度数据集质量评测技术等关键技术体系,破解“多模态对齐难、大规模标注慢、高质量评测难”等难题。“音-图-文”达到亿组级的对齐能力,标注工具开发效率提高80倍,整体标注效率提高30%~40%,数据集多维度高质量评测已成体系。
 
  二是生产平台研发,全面智能标注。基于关键技术,建设教育行业多模态数据集治理及质量评测智能化平台,实现了多模态数据采集、存储、清洗、标准化、标注等流水化、智能化以及规模化治理及数据集质量多维度评测,智能化程度达80%。
 
  三是核心数据构建,加速模型研发。构建教育行业文本/图像/音频/视频多模态预训练数据集、调教数据集、评测数据集。大规模高质量多模态预训练数据集帮助企业缩短模型开发周期平均可达40%~50%,为企业节省模型研发成本20%~30%。
 
  四是提升模型能力,助力应用落地。经过评测的多模态高质量数据集,保障了极高的输入精度,大大降低因数据误差导致的模型偏差风险,提升教育模型的安全性与可靠性等性能,助力教育AI应用落地及产业化发展,已实现收入5000万元以上,未来收入规模巨大。
 
  创新点
 
  一是自动化数据集构建保障教育数据供给能力。流程化、工具化、自动化数据采集、标注平台,自动化生产能力80%以上,吞吐量达15PB/年,保障了教育数据集的自主供给能力。
 
  二是多维度评测体系确保数据集应用效果。高质量数据评测平台通过探针自测、程序评测、人工校对等多维度质量控制,数据集准确率达99%以上,显著提升教育类大模型精度,应用效果极好。
 
  三是全生态多模态数据集促进教育AI产业化。数据集覆盖小学、初中、高中、大学各阶段中英文教材、资料、讲座、培训、考题、竞赛、专利、论文、文献、期刊、杂志等,包含文-图-音-视等多模态的预训练数据集、调教数据集和评测数据集,内容全面、模态丰富、种类齐全,高效赋能教育AI产业化发展。
关键词: 教育,数据
全年征稿/资讯合作 qq:1097660699@qq.com
版权与免责声明
1、凡本网注明"来源:兴旺宝"的所有作品,版权均属于兴旺宝,转载请必须注明兴旺宝,https://www.xwboo.com。违反者本网将追究相关法律责任。
2、企业发布的公司新闻、技术文章、资料下载等内容,如涉及侵权、违规遭投诉的,一律由发布企业自行承担责任,本网有权删除内容并追溯责任。
3、本网转载并注明自其它来源的作品,目的在于传递更多信息,并不代表本网赞同其观点或证实其内容的真实性,不承担此类作品侵权行为的直接责任及连带责任。其他媒体、网站或个人从本网转载时,必须保留本网注明的作品来源,并自负版权等法律责任。
4、如涉及作品内容、版权等问题,请在作品发表之日起一周内与本网联系,否则视为放弃相关权利。