范文仲 | 激发数据要素活力,迎接AI大模型时代

2024-03-04 13:44 来源:北京国际大数据交易所
浏览量: 收藏:0 分享

     本文为北京金控集团党委书记、董事长北京国际大数据交易所董事长范文仲 在第二届北京人工智能产业创新发展大会的主题演讲

  尊敬的各位领导、各位来宾,

  大家下午好!很高兴能在第二届北京人工智能产业创新发展大会上,和大家交流探讨“激发数据要素活力,推动数据要素×人 工智能,赋能新质生产力”这个话题,在此分享一些我的思考。

  在党中央、国务院的高度重视和决策部署下,数字经济已成为我国高质量发展的新引擎。数据作为新型生产要素和重要战略性资源,将显著促进生产资料的提质升级,优化产业结构,提升全要素生产率,进而引发生产力的跃迁和经济全场域的深刻变革。数据要素因其显著的乘数效应和创新引擎作用,被认定为数字经济的核心生产要素。

  近期,国家数据局发布了《“数据要素×”三年行动计划(2024—2026年)》,擘画了发挥数据要素放大、叠加、倍增作用的“任务书”,构建了以数据为关键要素的数字经济“蓝图”,找到了数据要素推动我国高质量发展的“试验田”。2月19日,国务院国资委召开“扎实推进AI赋能产业焕新”中央企业人工智能专题推进会强调,中央企业要把发展人工智能放在全局工作中统筹谋划,深入推进产业焕新,加快布局和发展人工智能产业。数字中国战略实施已驶入快车道,而“数据要素×人工智能”又是数字中国最重要的核心主线。2023年以来,北京市相继出台了一系列政策措施为人工智能产业发展提供了坚强保障,成立北京市人工智能工作专班,正在全力支持建设全球人工智能产业新高地,促进了人工智能产业健康发展。

  当前,我国人工智能的发展需要突破两大瓶颈问题,一是数据,二是算力。这两个要素既耗费资源,又耗费资金,导致很多人认为只有大公司才能训练大模型,小公司没有可能。然而,我们以为如果能够发挥我国体制机制优势,大力推动技术和制度创新,小公司也有可能训练大模型。

  首先,从数据来看,人工智能大模型的训练越来越依赖高质量数据集的提供。数据是人工智能大模型的核心底座,中小科技企业要发展人工智能技术,往往缺乏数量足够大、合法合规、可用度高的多模态数据集。因此,我们建议:

  一是建设多模态人工智能训练公共数据集。北京国际大数据交易所作为北京统一的数据要素资源交易平台,正积极推动跨领域多模态数据集的建设,对接了涵盖科技文献、社会出版物、医疗影像、行政文书、法院判决书等各类数据资源,开放多模态语料库。2023年,北数所与北京科学院打造了全国首个科学数据专区,促成北科院与北京智源研究院达成首笔大模型训练数据集场内交易。这是北数所实现国内首笔人工智能大模型数据集进场交易。下一步,北数所将继续发挥独特的公信力作用和数据资源汇聚能力,加强与各类数据源机构的合作,为广大人工智能机构提供更多高质量的数据服务,拓展大模型数据集的数据范围,不断降低购买训练成本,打造人工智能训练集的“公共图书馆”。

  二是探索解决数据涉及的知识产权合规性问题。人工智能模型训练所用的部分数据,例如书籍、期刊、论文等,可能存在知识产权争议。建议从法律法规层面进行研究,在知识产权部门的支持下先行先试,逐步出台明确训练用数据集合规性问题的规章制度。探索建设数据风险资金补偿池,围绕多方主体参与、多方数据联合建模等内容,构建公平合理的利益分配机制,建立利益补偿金机制等。2023年,北数所与北京知识产权局、北京互联网法院形成基于数据产权保护的框架合作,建成了基于自主知识产权的新型数据知识产权登记服务平台,共同围绕数据知识产权登记、交易流通、纠纷解决、平台建设、人才培养及业务研讨等领域开展创新探索,共同推动数据产权制度的探索建立和数据安全合规流动,规范数据要素市场发展。

  三是提高训练用数据集的质量和可用度。当前,我国从事数据清洗加工、人工标识和校准的从业人员数量不多、专业性不强,虽然拥有海量数据,但标识库质量难以满足模型训练需求。建议政府规划专项资金和引导政策,对相关领域进行扶持,完善数据要素产业生态,助力人工智能发展。

  其次,从算力来看,高质量算力作为数字经济时代的基础支撑和新型生产力,赋能作用日渐凸显。当前,我国算力市场发展面临着高质量算力资源不足且分散、算力资源供需错配时有发生、算力投入远超中小企业承受范围等问题。对此,我们建议,一是大力发展聚合计算先进技术,科学组合不同类型的算力单元,实现计算密度、性能和效率的大幅提升。二是打造统一的算力交易和调度平台,智能统筹调度各类算力资源,为中小人工智能企业训练大模型提供价格低廉的普惠算力。三是加大金融财政支持,进一步降低中小企业算力和数据的使用成本,发行普惠算力卷和培育持久的数据和算力流通生态。当前,北数所紧抓人工智能运算变革的历史机遇,充分利用西部和首都周边优质算力资源,建设了算力交易专区,上线了国内首个区域统一的“算力交易”平台,致力于为全国各行业智算、超算、通用算力等各类算力产品提供算力发现、供需撮合、交易购买、补贴登记等功能于一体的综合服务,推动算力交易供给侧和需求侧双向驱动改革。

 图片

  今天,在本届北京人工智能产业创新发展大会上,在门头沟区政府与北京国际大数据交易所签署合作协议,立足门头沟区域功能定位和人工智能产业优势,共同打造“北数所门头沟数据资产服务中心”,推动数据制度、政策、标准先行先试,探索并拓展数据资产价值实现路径,开展数据资产登记、评估、交易、入表、融资服务等创新业务,推动门头沟区数字经济与实体经济融合发展,聚焦人工智能着力打造具有国际竞争力的数字产业集群,推动区域数字经济高质量发展。通过数据资产服务中心,人工智能企业和科研机构可以更加便捷地获取各类训练用数据集,营造更加具有吸引力的营商环境,吸引更多的数据企业和创新机构在门头沟区落地发展,加速形成数据产业聚集效应,构建良好的数据要素市场生态,进一步推动门头沟区数字经济的繁荣和创新发展。

  展望未来,面对数字经济广阔的发展前景和机遇,北京国际大数据交易所将继续秉持服务数字中国的战略目标,以落实国家基础制度,以建设国内领先的数据流通基础设施和国际重要的数据跨境流动枢纽为主攻方向,支持首都两区建设和高质量发展,赋能新质生产力创新,构建数字经济发展的新格局,我们愿与在座的嘉宾和与会的企业一起,锐意创新,携手前行!

  最后,祝本次大会取得圆满成功,谢谢大家!

↓↓了解更多资讯,请识别下方二维码↓↓

  1701840725(1).jpg

国脉集团

国脉集团是数据资产化先锋企业,主要提供培训、咨询和产品设计服务。为数据资源拥有者提供专业、规范、合规的全流程资产化服务,提升机构数据管理服务能力,实现数据资源价值最大化。运用最先进的培训理念方法和平台工具提供高绩效培训服务。研发“一头一体两翼”企业数据资产化咨询服务方法论,提升数据资产化战略设计、就绪度评估与咨询、入表和产品化全流程咨询服务。基于战略思维和实操需求研发“易”系列产品,并与数源方合作研发系列数据产品。

主要课程

主要课程包括数据资产入表、数据经纪人、公共数据运营和政府CDO、数据精品等精品课程。

数据产品

主要产品:数据易投、数据易贷、数据易保、数据易售。

标签:

责任编辑:chenshanliang
在线客服