
数据魔方:跳出“算力内卷”走向“数据精益”
应用介绍
在全球人工智能竞争日益激烈的今天,大模型技术正迅速从通用走向垂直、从实验走向落地。然而,一个长期被行业忽视却至关重要的瓶颈正逐渐浮出水面——高质量行业数据的严重短缺。
近日,由北京智源人工智能研究院(以下简称“智源研究院”)推出的“数据魔方”平台正式上线,致力于以“按需生成高质量数据集”的能力,重新定义AI数据供应链。
“当前国内外开源通用大模型虽层出不穷,但真正落地到具体行业时,高质量、场景化的数据缺失仍是最大障碍。”智源研究院副院长林咏华在接受本报记者专访时说。
林咏华说,尽管我国目前已备案的生成式AI模型超过400个,其中绝大多数为垂直行业模型,但对比国家统计局定义的近百类细分行业,覆盖仍显不足。“数据魔方要做的是让企业‘需要什么数据,就生成什么数据’,彻底改变传统数据获取模式。”
在过去,一家希望开发篮球赛事AI分析系统的公司,往往需投入数月时间收集视频数据、进行人工标注与清洗。如今,通过数据魔方平台,同类需求得以在极短时间内获得响应——用户仅需输入任务描述,平台即可实时生成高质量、场景适配的结构化数据集。
“我们借鉴了‘数据即服务’(DaaS)理念,但更进一步。”林咏华解释道,“它不仅是一个数据池,更是一个动态生成引擎。”她介绍说,该平台基于智源此前已开源的全球规模最大的中文文本数据集之一——35TB CCI(中文语料库倡议)语料,覆盖金融、医疗等8大垂直领域,并融入多模态合成与生成技术,实现文本、图像、视频等不同类型数据的“指令式提取”。
目前,平台已率先开放视频数据处理能力。语言、图文等多模态支持也将陆续上线,目标直指“全行业覆盖”。
尽管当前AI模型在金融、医疗、教育等数据富集领域进展迅速,但更多长尾行业,如农业病虫害识别、小众体育项目分析、工艺非遗传承等,仍因数据匮乏难以推进数字化。
林咏华说,数据魔方的核心突破在于“样本级精准检索+生成式增强”。例如,网球与篮球虽同属体育大类,但在动作识别、战术分析等维度差异显著。“平台不仅可以检索出相关数据,还能通过合成数据技术‘查漏补缺’,自动生成稀缺场景样本。”
这种能力尤其适合中小企业和初创团队。他们无需组建庞大的数据工程团队,即可快速构建具备行业特性的专用模型,从而实现“数据平权”和模型开发的“弯道超车”。
尽管数据魔方在技术上取得突破,林咏华多次强调“数据来源多样性”与“版权合规”的重要性。“目前高质量中文数据资源仍非常稀缺,尤其是图书、古籍、地方语言等领域。”
她特别指出,相较于国际同行,如哈佛大学已开源高达1000万册的图书数据集,中文公版图书数据的数字化与开放程度明显滞后。“我们呼吁国家级及省级图书馆、高校、文化机构开放更多版权清晰的公版藏书数据,填补这一关键空白。”
除此之外,智源也将自身已积累的35T中文CCI数据集全面接入数据魔方,用户可通过自然语言指令灵活提取所需子集。这不仅大幅降低数据使用门槛,也为中文NLP(自然语言处理)社区提供更为丰富和可控的数据资源。
在全球算力竞争日益激烈的背景下,如何高效利用有限算力,成为所有AI从业者必须面对的课题。数据魔方试图从数据层面提供解题新思路。
“我们通过两大路径帮助企业降低算力依赖。”林咏华介绍,“一是预处理降耗——平台预先完成清洗、去重、标注,用户获取的已是‘即插即用’型数据,本地算力消耗接近于零;二是数据精炼——用1万条高质量数据取代100万条低质数据,显著降低模型微调时的算力与时间成本。”
在技术实现层面,数据魔方并非简单的数据聚合平台。其背后涉及多项底层技术的自主研发。林咏华透露,平台核心引擎,如CLIP模型、混合检索系统等,均属智源自研成果。同时,平台还与国产大模型(如阿里千问、智源Video XL等)深度整合,形成从数据生成到模型训练的全栈工具链。“我们不只提供数据,还提供配套的算法和最佳实践,帮助企业打通‘数据—模型—应用’闭环。”
尽管平台上线时间不长,数据魔方便已收到大量企业与合作请求,但林咏华清醒地认识到,单一平台的力量仍远远不够。
“我们攻克了技术难关,但真正的挑战在于打破‘数据孤岛’。”她呼吁更多拥有版权清晰数据的机构,如出版社、博物馆、科技企业、高校等,加入数据开放计划,共同构建健康、合规、可持续的中文数据生态。
数据魔方的推出,或许意味着AI行业竞争重心正在悄然转变:从拼参数、拼算力,逐渐转向拼数据质量、拼落地能力、拼生态健康度。正如林咏华所言:“AI的未来,不在于模型有多大,而在于数据有多‘活’。”