封面新闻记者 张越熙
11月 19 日下昼,行业大模子、具身智能、算力、芯片、数据合成等10 项首发后果在乌镇峰会登台路演, 其中 AI 数据合成与坐褥平台AIGD(AI Generated Data)因聚焦“数据合成”获无为眷注。“以前的AI支配需要精深稀缺且难以取得的长余数据,如自动驾驶中的顶点天气与顶点路况数据,具身智能考研所需要的复杂场景数据。在此布景下,数据合成成为枢纽。”蚂蚁数科AI科技手艺认真东谈主、蚂蚁天玑施行室主任李哲现场向记者先容。
AI 发展正濒临着高质料数据结巴的问题。连年来,伴跟着大模子手艺的快速发展,机器学习也正从“以模子为中心”转向“以数据为中心”,高质料数据不错更好地模拟客不雅寰宇,训导模子的准确性和踏实性,然则“到 2026 年,现有的用于 AI 模子考研的高质料谈话数据将糟践”,据Epoch AI Research琢磨团队展望。Gartner 示意,到 2030 年,合成数据将成为 AI 模子的主要考研数据起首;2024 年, 60% 的 AI 数据将是合成数据,被用于模拟、展望场景和镌汰风险。
记者在2024年寰宇互联网大会乌镇峰会了解到,AIGD平台是由蚂蚁数科文告的首发后果,平台可通过大范围合成互联网所不遮蔽的高质料、高价值垂直语料数据,匡助科技厂商进行 AI 模子考研。记者了解到,AIGD具备 PB 级数据坐褥才智,支执数据从生成到考研全经由自动化处治,自动化率达到 80%,这极大提高了数据处治的效力和质料。此外,平台自研15 余种数据合成器具,当今不错合成图片、视频、3D模子、多模态图文视频对、多轮对话、语音书号、心率脑电信号、结构化交游数据等多模态数据,以得志多种支配场景下的 AI 模子考研需求。
业内东谈主士精深合计,“高质料数据”是 AI 大模子深化到产业的紧要基础,莫得好的数据作念撑执,一切 AI 支配王人是空中楼阁。近日,OpenAI职工爆料说,“新模子‘莫得那么大飞跃’”,主要原因之一就是高质料数据不及所导致的。本年 9 月份, OpenAI 发布推理模子o1,带来了强化学习考研新范式,通过自博弈强化学习,将合成数据的式样考研给大模子,从而大幅增多大模子逻辑推理才智。
“数据合成”是蚂蚁数科 AIGD 平台的主邀功能之一,此外还包括数据标注、质检等才智。在数据标注方面,通过东谈主机协同进行标注,东谈主工智能算法大意自动识别和预处治大部分基础信息,预标注模子依赖东谈主工标注量镌汰了 70%以上。在数据质检方面,平台会凭证元信息支执不同粒度的数据质料统计,最猛进程清醒数据,保证合成及标注后的数据妥贴预期质料条目。李哲在乌镇峰会上示意:“咱们行将迎来 AI 行状产业的黄金年代,蚂蚁数科将会强硬在 AI ToB 畛域干涉,让 AI 深化千行百业。”
- 2024-12-2512月24日基金净值:易方达增强陈诉债券A最新净值1.376,涨0.15%
- 2024-12-2512月24日基金净值:博时锦源利率债债券A最新净值1.0552,跌0.15%
- 2024-12-2512月24日基金净值:嘉实中证500ETF最新净值2.3532,涨1.32%
- 2024-12-2512月24日基金净值:中原中证500ETF最新净值3.2306,涨1.32%
- 2024-12-25国内棉花供应宽松 纺织需求有所转弱