引言:
“自2020年‘西溪论数’到2024年云谷‘论数’,会议核心内容围绕数据要素一脉相承,聚焦数据产业发展、制度和场景,理清问题、探索实践、分享成果,助力区域数据产业生态构建。每日互动作为数据要素产业生态的共建者,一直身处数据要素安全流转及产业落地探索前沿,为数据要素市场健康发展献计献策。”
2024年3月22日-23日,每日互动成功举办云谷“论数”2024数据要素×产业推进大会,会议邀请产学研及主管部门聚焦数据要素流通、数据价值挖掘、数据要素场景落地等热点话题,展开深入探讨。近期,每日互动创始人、CEO方毅接受爱分析专访,从会议的历史背景,每日互动对数据安全流转的价值主张、每日互动的业务布局和进展以及对未来产业发展的思考等多个角度进行了分享。
方毅认为,云谷“论数”与“西溪论数”等一脉相承,承载着每日互动对数据要素产业的探索与思考。每日互动坚持“让数好用,把数用好”的理念和“分场景论证、封场景使用”的主张,希望推动数据要素产业更合规也更开放。
在业务布局上,除深耕品牌营销、智慧交通等多个领域外,每日互动也在扩展新的业务场景,对公共医疗、新能源领域开启探索。大模型已经成为数据要素产业落地的关键技术,也是每日互动的发力点之一,每日互动在云谷“论数”大会上一举推出营销数盘、OneID解决方案、惠企政策智配大模型、数智交通大模型4个产品。
方毅指出,在公共数据的深加工上,民企将带来市场活力。对于数据采集、流转到应用的全链路,企业要秉持“严把采集入口、划清流转边界、守正应用场景”三个原则,保障数据安全流转。
方毅
浙江大学竺可桢学院特优毕业生。第二十四届“中国青年五四奖章”获得者,第十届“中国青年创业奖”得主,国家“万人计划”科技创业领军人才。
现任中国科协全国委员会委员、全国青联常委、中国青年企业家协会副会长、全国信息安全标准化技术委员会委员、浙江省青联副主席、浙江省工商联(省商会)副会长、杭州市政协委员等职。所创立的每日互动于2019年成功登陆创业板(股票代码:300766),成为国内率先在A股上市的数据智能企业。
01
每日互动引领数据要素产业实践探索前沿
爱分析:近日,每日互动主办的云谷“论数”大会圆满结束,请介绍本次会议的背景和价值?方毅:每日互动成立于2010年,是开发者服务领域的早期进入者,也是大数据行业全链条的参与者和数据安全的倡导维护者。2020年《中共中央 国务院关于构建更加完善的要素市场化配置体制机制的意见》正式将数据确立为生产要素,数据要素价值凸显,数字经济构建加速。作为数据要素赛道的领跑企业,每日互动自2020年起,围绕“数据要素”这一话题连年举办或参与论数活动,到今年云谷“论数”已经是第五届。2020年,每日互动在杭州西溪举办首届“西溪论数”数据智能高峰论坛(简称“西溪论数”),在论坛特有的“D20闭门会议”中,多位行业主管、专家及业界代表经讨论,得出当时国内数据安全使用急需“红线清”,明确行业法律法规和行业规范,并联合多方发布了首份数据智能行业宣言《西溪数据宣言》,以推动产业的创新发展和生态构建。2021年,国家《个人信息保护法》、《数据安全法》相继出台,每日互动举办第二次“西溪论数”,业界经过探讨得出结论,在专项法律法规的约束下,大数据产业的发展方向更加明确,但在具体的业务场景中如何将法律的精神落地,在保障行业合法依规的前提下实现更加快速的发展,需要“场景明”。2022年,围绕数据要素话题的探讨持续深化。在数据要素流通大背景下,专家建议在剔除个人信息、商业秘密、国家安全等数据之后再来谈数据应用,但从数据价值挖掘的角度,个人数据、商业秘密和国家安全才是真正需要面对的三个难点,需理清这三点的使用场景。同年5月,每日互动参与建设的中国(温州)数安港开园。数安港作为数据要素产业的前沿尝试,旨在解决 “红线不清”、“场景不明”等问题。对此,数安港搭建起政企学研联动、公检法司介入的数据全生命周期管理服务生态系统,由数据资源法庭对数据应用场景进行论证,为数据合规交易范式提供确定性。同期,每日互动参与协办“九个一”工程之一的“瓯江论数 数安中国”大会(简称“瓯江论数”),会上聚焦数据安全形势、公共数据共享利用、跨境数据流动等热点进行探讨。2023年,“瓯江论数”会议围绕数据智能安全与价值、数据要素市场化发展、大数据创新应用等话题进行分享和探讨。在分论坛上,每日互动以“安全是前提,发展是主题”为主题分享了在数据智能领域的思考、应用和实践经验。2024年,随着每日互动总部搬入杭州云谷板块,公司就势发起云谷“论数”。这次会议以“让数好用 把数用好”为主题,对数据二十条及近期数据政策进行了更深入、更具实操性的讨论。可以看出,自2020年“西溪论数”到2024年云谷“论数”,会议核心内容围绕数据要素一脉相承,聚焦数据产业发展、制度和场景,理清问题、探索实践、分享成果,助力区域数据产业生态构建。每日互动作为数据要素产业生态的共建者,一直身处数据要素安全流转及产业落地探索前沿,为数据要素市场健康发展献计献策。爱分析:如何理解“让数好用,把数用好”这一会议主题?方毅:数据安全是前提,数据运用是目的。“让数好用,把数用好”指向数据运用。让数好用指的是使数据具有低门槛、便利的特点,让数据易于使用,同时也有数据能用、不能越界使用的意思。无论是在业务场景还是在模型训练中,都需要对数据进行加工、清洗,形成高质量甚至脱敏数据来保证数据能被便捷、安全使用。这其中要区分两个场景,一个是企业内部的数据流转,可以通过数据中台来实现让数好用,另一个是企业之间的数据流转场景需要大数据联合计算中心这样的数据基础设施来保证数据不出域,借助向量化等数据中间件对数据进行加密或脱敏,同时又能最大程度发挥数据的价值。对于企业之间的数据流转,行业需要建立完善的框架体系,在此基础上,数据流转的企业双方可以设置密钥以实现数据不动,价值动。当然,形成这样的机制还有很长的路要走,但未来绝大部分主体之间以向量化的形式进行数据流转,很可能是未来企业间实现数据流转的答案。每日互动具备让数好用的能力。一方面,每日互动开发的数据中台——"DiOS数据智能操作系统",提供数据挖掘、萃取和治理能力,帮助企业提升数据质量、将数据资源打造成数据资产;另一方面,每日互动研发的向量化技术,通过机器学习、深度学习模型,能将个体数据完全脱敏后用于大模型训练,保护数据安全。国家数据局成立后,刘烈宏局长在相关论述当中提出了:“让数据供得出、流得动、用得好。”把数用好,有两个层面含义,一方面是指数据的应用价值“好”,数据的使用效率、使用效果非常好;另一方面也希望数据的使用性质是“好”的,能利国利民,造福于社会。爱分析:会议中,每日互动提出数据要分级分类,更要分场景封场景。其中分场景和封场景分别指向什么问题?方毅:首先要理解数据的特殊性,如果要把数据物化来比喻,我把数据要素比作核燃料,因为数据具有巨大能量,同时也蕴藏着可怕的危险。针对其特殊性,我认为数据的分级分类是基础工作,但仅有分级分类是不够的,低敏感的数据如果被不当使用或是被高能力公司使用的时候,就会变成高敏感数据,这是一个动态的、相互转化的过程。如何判断数据使用性质的好坏,我主张要分场景论证。只有说明数据来源、举出使用场景、理清数据流转过程,才能判断事情的性质,离开场景谈合规都是耍流氓。如精准营销,既能用于精准反诈也能用于诈骗营销,数据因使用场景的不同在合法与非法、利民与害民之间相互转化。那在使用核燃料过程中,如何防止出现核泄漏?就需要封闭场景使用。数据只有在场景中得到良好保护的情况下,才能成为核能一样稳定持久的清洁能源。所以我认为数据的使用一定要分场景论证、封场景使用。方毅:每日互动主张数据不流动,数据价值流动,像核燃料一样,不流转或可控范围内有限流转,但核电要在电网上畅快跑起来。在落地过程中,我认为要用机制来保障分场景论证,同时用专制保障数据封闭场景使用,必须人防和技防相结合,确保数据只在封闭场景中使用,没有被转移。其中机制指通过公检法司对数据应用场景进行论证,这在数安港已经率先尝试。其一,针对高敏感小数据计算场景,采用联邦计算、匿踪查询等安全计算方式,典型应用案例是跨区域医院罕见病例在联邦计算技术下实现数据互联互通;其二,针对一大一小数据计算场景,可采用安全岛/数据沙箱技术,在大数据架构中为小数据建立隔离环境,并对数据沙箱实现有效监管,从而实现小数据与大数据的互联互通。其三,针对海量数据频繁计算场景,可采用“中立国”模式。每日互动首倡的浙江省大数据联合计算平台(简称“数算平台”)即采用“中立国”模式。数算平台能为多方大数据公司提供原始数据匿名计算,计算过程采用无磁盘计算技术,内存计算,算后即删,确保数据不落盘,实现“数据可用不可拥”。
爱分析:在数据要素产业落地方面,未来2-3年每日互动有什么规划?方毅:从产业落地来看,第一个大赛道是营销场景,这也是每日互动的基本功,我们会持续做深做细。第二个赛道是交通领域,这个领域的空间非常大,以杭州为例,如果能通过智慧交通减少20%的碳排放,折算成碳汇交易额都能达到上亿元,这是很可观的一个市场,并且能显著减轻公众通勤压力,改善出行体验。我本人也是智慧交通的忠实粉丝,所以每日互动将在这一赛道上深扎。未来我们将持续探索的还有公共医疗、新能源两个领域。爱分析:大模型将是数据要素产业落地的重要工具,请介绍每日互动在大模型方面的发力。方毅:我对每日互动在大模型应用方面的技术实现和价值做一个简单介绍。交通场景中,数智交通大模型在不大量增设硬件感知设计的基础上,建立1000亿级的交通数据集,充分应用 Transformer 模型、自然语言处理(NL2Script)、SUMO 仿真建模、Al Agent 等前沿技术,并形成数据感知、方案生成、仿真预测、下发执行、效果监测的“五步法”闭环,从而助力城市实现全域绿波覆盖,让红绿灯由“三红一绿”,变为“三绿一红”。营销场景中,营销数盘引入数据编织技术,对1万个品牌生成几十个描述性词汇,同时每日互动用人群包生成人群标签,两者之间用“共生即关联”理念进行连接,生成2500万条连接线,最后压缩成大语言模型;同时该大模型应用还能打通品牌的公私域信息,高效完成公转私引流沉淀,最终提升购买转化。营销数盘能对品牌自动生成中国各地人群与该品牌的适配度,供品牌进行精准营销。通过使用该工具,品牌无需使用CDP、CRM工具,即能达到使用CDP+CRM的效果。政务场景中,每日互动推出惠企政策智配大模型,采用RAG(检索增强生成)技术,提升大模型回答的准确性和合规性。一方面,平台能帮助企业精准、快捷、全面地匹配政策,通过智能化的政策解读精简提炼政策条款,提高企业对政策的理解和应用能力;另一方面,平台还能够帮助政府机构更好地向企业传达政策信息,提高政策遵从度和落地效率。03
爱分析:未来,公共数据将迎来更广泛的开放授权,民营企业能在其中扮演什么角色?方毅:我认为,公共数据运营授权是第一道线,之后公共数据的深加工过程应该鼓励民营企业大规模参与。在这里,数据要素就很类似土地要素,土地归国家所有,但土地的房地产开发、商业等过程允许民营企业参与,能发挥民营企业的机制和活力。同时,我也很坚持除了对数据分级分类外,也要对数商企业进行分级分类分场景,鼓励企业对专精特新垂直领域进行深挖,但同时也要对企业资质进行审核,要求使用公共数据的企业对国家和民族有使命感和责任感。这一方面建议企业侧要设置首席数据官,企业要懂法律、懂数据的危害性、懂网络安全,避免发生数据泄露。另一方面,政府侧也应尽快落实监管责任,建议政府分场景、分行业设立数据交易所。同时,类似网络安全中的等保体系,数据安全也需要等保体系,政府需要成立权威机构对企业的数据保护等级进行测评、考核和认定。爱分析:如何看待资产入表政策为数据产业带来的新机会?方毅:在我看来,数据资产入表能推动企业加速数据基础建设。原本企业做数字化是纯投入,但如果按照成本计价法则记作数据资产入表,企业能通过贷款进行数字化建设,并在未来用数据产生的收益偿还贷款,形成正向循环。爱分析:对于数据要素流通中面临的数据安全与合规边界、数据确权定价等问题,您认为数据要素产业如何应对?数据合规比较典型的问题是如何确定个人数据的合规边界,这一点可以参考清华大学法学院申卫星教授教授在《数字权利体系再造:迈向隐私、信息与数据的差序格局》中的观点,文章区分了隐私、个人信息和个人数据三者之间的关系,并强调隐私关乎人格权,个人信息权兼具人格利益和财产利益,个人数据权应归为财产权。对于数据安全,我在2019年提的观点“严把采集入口、划清流转边界、守正应用场景”。严把采集入口,数据采集要得到合规授权,不能产生原罪。划清流转边界,要求数据不能流出域外,要在封闭域中使用。守正应用场景,只要数据是在特定场景中使用,能够利国利民,且不伤及个体,我认为就应该大力鼓励。确权是一个世界性难题。关于定价,我建议在保证数据不流转的前提下通过数据场景增值分润,而不是成本定价。这是因为数据具有非独占性,使用数据的过程实际上是“数据租用”的概念,所以只要保证数据不流转,就能多场景租用。但如何保证数据租用时不被流转是个难题,这一点可以参考电影版权的保护实践。我们知道,观影模式经历了从租售光碟到进影院观看的转变,这一转变确保电影光碟不被随意流转。对于数据交易,复旦大学的黄丽华教授提出一种更先进的方式,即基于大模型进行数据交易,数据集和算力捆绑,流转走的是训练好的数据,原数据并不离开大模型。这种形式更符合电影院一次性消费的模式,也能保护数据不被随意流转。04
数据是一把双刃剑,在发掘其强劲生产力的同时,也要规避其被误用、滥用带来的危害。尽管数据的这一特殊性为数据要素市场发展带来巨大挑战,无论是主管部门还是数据要素市场各方主体都在积极探索,为建立市场规范秩序贡献力量。每日互动是众多参与者中的一个典型缩影。无论是“让数好用、把数用好”的理念,还是数据安全流转中“分场景、封场景”的实操性主张,抑或是对数据要素行业合规边界、确权定价等待解决问题的深入思考,每日互动展现出的社会担当和敢为人先的探索精神,让我们看到数据要素市场的强劲生命力的同时,也对数据要素市场的未来发展充满期待。展望未来,数据正作为新质生产力的生产要素,融合人工智能、大数据、区块链等先进技术,为我国经济发展带来倍增效应,数据要素行业将迎来广阔发展前景。注:点击左下角“阅读原文”,可了解更多信息。