度小满轩辕:金融行业的大模型实战派

原创 脑极体 2024-03-11 20:22


金融行业被广泛认为是AI大模型技术落地的前哨站,也是“人工智能+”行动的焦点所在。面向金融场景广泛、多样化的大模型需求,度小满轩辕系列全新发布了12款金融大模型。其中包括6B、13B、70B参数的基座模型、对话模型、int4/int8量化模型,并且实现了完全开源,供广大开发者下载使用。


总体来看,12款金融大模型包括3种参数2023年5月,度小满开源了国内首个千亿级中文金融大模型“XuanYuan-176B”。2023年9月,“XuanYuan-70B”大模型在C-Eval和CMMLU两大权威榜单上位列所有开源模型榜首。本次度小满“轩辕”模型矩阵再次升级,十亿-百亿-千亿参数全覆盖,实现多场景任务适配。


而从效果上看,度小满轩辕达成了18大维度金融实战能力遥遥领先,多场景6B模型与72B模型表现相当;通用能力同样达到开源模型TOP水平看齐GPT-4,并且采用了独创的数据处理流水线,生产更丰富、更安全、更符合中文场景的数据。通过首次将人类偏好对齐引入金融垂域大模型训练,相关模型实现了安全性显著提升、有用性突破瓶颈、金融任务表现明显增强 。


让我们来走进度小满轩辕,透视金融领域的大模型变革。



度小满「轩辕」大模型

全参数矩阵


(度小满轩辕大模型发布时间轴)


度小满轩辕系列已经有17款开源大模型,适配广泛场景任务,满足不同开发者需要。


(度小满轩辕大模型矩阵)


模型矩阵的设计考虑了不同的应用场景和性能要求:70B及以上的模型专门针对需要深度分析、复杂指令执行以及全方位Agent调用的场景,而6B、13B的模型则更加适用于对响应速度有高要求、面向小规模场景和单任务的应用,它们也同样能够处理计算、编程、创作等一系列通用需求。特别地,最小化的XuanYuan-6B-4-bit量化Chat模型以其低推理部署成本,进一步降低了大模型的应用门槛。



模型效果

18大维度金融实战能力遥遥领先


01金融能力


将轩辕系列大模型在金融自动评测集FinanceIQ测试集上进行测试,FinanceIQ涵盖了注册会计师(CPA)、税务师、经济师、银行从业资格、基金从业资格、证券从业资格、期货从业资格、保险从业资格(CICE)、理财规划师等十大权威金融领域考试。结果如下表,XuanYuan-70B-V2在该项评测任务上拥有超过GPT-4的水平,在知识层面展示出金融领域专家的水平。


同时,为了考察轩辕大模型在金融实际任务上的能力,轩辕团队还特别组织了金融专家为对话大模型进行人工评测。任务的设计均是从金融行业实际应用场景出发,去判断轩辕是否在各项金融任务上具备“实战能力”。


(人工金融评测集任务构成)


最终结果显示,轩辕大模型各个参数上均具有“以小搏大”的实力,达到自己2倍甚至5倍参数量的模型水平。在各项金融评测任务上,XuanYuan-6B表现超越市面最新13B中文开源模型(左图),XuanYuan-13B表现超越市面最新72B中文开源模型(中图),XuanYuan-72B-V2表现可以媲美GPT4(右图),并且在金融法规、金融产品信息等中文场景上超越。


(轩辕拥有远超同参数水平的金融能力)


02通用能力


将轩辕大模型在MMLU、CEVAL、CMMLU、GSM8K、HumanEval等中外主流评测集上进行评测,观察大模型在知识、逻辑、代码等通用能力上的表现。同时加入类似参数矩阵的LLaMA2系列进行比较,结果显示轩辕不同参数大模型在各项榜单成绩上均有优异表现,在CMMLU、C-Eval等多个中文评测榜单上,更是有超越GPT-4的水准


进一步分析发现,经过专门优化以增强考试能力的XuanYuan-6B和XuanYuan-13B模型,在C-Eval和CMMLU这两个中文考试评测指标上有了显著提升。然而,需要注意的是,“高分”并不意味着“高能力”。评测集成绩可通过优化模型考试能力来提升,不直接等同于模型在实际应用中的优势。因此,尽管小参数模型在某些评测中表现出色,这并不意味着它们的各方面真实能力均超越了同系列大参数模型。


(轩辕大模型在各个评测集上的分数)



「轩辕」技术解析

对齐技术突破能力瓶颈

面向公众开放自动化训练框架


度小满轩辕大模型团队在过去一年,对大模型训练的各个环节积累了丰富的经验。这包括建立了一套完整的数据处理流水线、采用更适配领域模型的高效训练方法等,以及本次突破性的利用人类偏好对齐技术,极大地提升了6B、13B、70B模型的对话能力,显著增强了模型的场景适应性。


轩辕系列大模型使用DeepSpeed分布式训练框架,引入动态评估与调整机制以优化训练过程。在微调阶段,轩辕特别的采用了Self-QA策略来收集指令微调数据。该方法能够在没有人工标注的情况下生成大量高质量的问答数据,为模型提供有监督的训练样本,有效提升模型的学习效率和质量。


(轩辕大模型Self-QA数据构造方法)


针对金融领域的特定需求,轩辕大模型还开发了一种混合微调训练框架,旨在通过融合通用与特定领域数据来增强模型性能及适应性。这种混合微调方法不仅显著提高了模型在特定任务的表现,也增强了其整体的泛化能力和适应性,为金融领域任务的性能提升开辟了新途径。


度小满创新地在金融领域大模型中引入了人类偏好对齐技术,开创了领域内强化对齐训练的先河。通常,领域大模型仅在微调阶段引入特定领域数据,但这种方法在实际应用中常常显示出局限性。金融行业的复杂性要求模型能够更深入地理解并适应行业特定的需求,而强化对齐训练有助于突破仅依靠微调所能达到的性能瓶颈。


轩辕团队精心构建了涵盖通用性、安全性和金融特性的Prompt数据集,并组织了专业的标注团队对成对的回答进行偏好标注。接下来,团队通过一系列实践、分析和改进,成功完成了奖励模型(Reward Model)和后续的强化(采用近端策略优化算法)训练。下图以XuanYuan-6B为例展示了模型在通用性和金融能力的综合评估结果。从图中可以看出,在两个领域,经过人类偏好对齐后,模型的能力都有了极大的提升,证明了强化对齐训练的有效性。


(RLHF-model vs SFT-model)


(通用能力:RLHF-model vs SFT-model)


(金融能力:RLHF-model vs SFT-model)


度小满轩辕大模型团队一向贯彻开源开放的原则。为了让广大开发者能够更容易的上手使用大模型,使用真实数据和真实代码作为示例,详细介绍了训练模型的每个关键步骤。现在相关代码已经上传开源社区,供广大用户实操体验。



金融行业需要怎样的大模型?


金融领域对大模型的要求远超过基本的“判断”与“生成”能力,更加强调在“分析”与“决策”过程中的高级能力,这些能力是触及金融企业核心利益的关键。大模型的价值体现在其能否在核心业务场景中发挥实际作用,如通过综合分析用户信息以支持风险评估、客户画像绘制、精准营销策略,或通过企业数据分析支持财务审查、智能投顾和行业研究。


金融大模型的最终目标是提高企业ROI。这意味着,高效的金融大模型应当能够在实际应用中,如客服场景,通过提升对话处理、指令遵循和意图理解能力,不仅短期内提高客服效率,长期还可能实现机器人客服的全面替代,重塑客户服务流程,推动金融服务向更高智能化水平迈进。



结束语

关于度小满「轩辕」大模型


度小满轩辕大模型系列具有以下特色:


· 多尺寸开源,开发者友好。


· 拥抱开源,免费下载使用。


· 版本快速迭代,社区持续更新。


· 持续面向金融行业伙伴交流共建。


在今年的政府工作报告中,提出了“大力发展科技金融、绿色金融、普惠金融、养老金融、数字金融”。在这样的宏观背景下,AI大模型落地金融场景,为行业带来全新的智能化发展机遇,是金融行业本身的发展意愿,也是“新质生产力”的客观要求。


作为“实战派”的度小满轩辕,已经应用在金融领域的各个业务场景,并且初见成效。未来,度小满轩辕会成为金融行业的一个支点,为更多智能化探索打开大门。


欲知“轩辕”大模型详情,可移步Github官网。


脑极体 从技术协同到产业革命,从智能密钥到已知尽头
评论
  • 故障现象一辆2017款东风风神AX7车,搭载DFMA14T发动机,累计行驶里程约为13.7万km。该车冷起动后怠速运转正常,热机后怠速运转不稳,组合仪表上的发动机转速表指针上下轻微抖动。 故障诊断 用故障检测仪检测,发动机控制单元中无故障代码存储;读取发动机数据流,发现进气歧管绝对压力波动明显,有时能达到69 kPa,明显偏高,推断可能的原因有:进气系统漏气;进气歧管绝对压力传感器信号失真;发动机机械故障。首先从节气门处打烟雾,没有发现进气管周围有漏气的地方;接着拔下进气管上的两个真空
    虹科Pico汽车示波器 2025-01-08 16:51 69浏览
  • 「他明明跟我同梯进来,为什么就是升得比我快?」许多人都有这样的疑问:明明就战绩也不比隔壁同事差,升迁之路却比别人苦。其实,之间的差异就在于「领导力」。並非必须当管理者才需要「领导力」,而是散发领导力特质的人,才更容易被晓明。许多领导力和特质,都可以通过努力和学习获得,因此就算不是天生的领导者,也能成为一个具备领导魅力的人,进而被老板看见,向你伸出升迁的橘子枝。领导力是什么?领导力是一种能力或特质,甚至可以说是一种「影响力」。好的领导者通常具备影响和鼓励他人的能力,并导引他们朝着共同的目标和愿景前
    优思学院 2025-01-08 14:54 61浏览
  • 村田是目前全球量产硅电容的领先企业,其在2016年收购了法国IPDiA头部硅电容器公司,并于2023年6月宣布投资约100亿日元将硅电容产能提升两倍。以下内容主要来自村田官网信息整理,村田高密度硅电容器采用半导体MOS工艺开发,并使用3D结构来大幅增加电极表面,因此在给定的占位面积内增加了静电容量。村田的硅技术以嵌入非结晶基板的单片结构为基础(单层MIM和多层MIM—MIM是指金属 / 绝缘体/ 金属) 村田硅电容采用先进3D拓扑结构在100um内,使开发的有效静电容量面积相当于80个
    知白 2025-01-07 15:02 141浏览
  • 根据环洋市场咨询(Global Info Research)项目团队最新调研,预计2030年全球无人机锂电池产值达到2457百万美元,2024-2030年期间年复合增长率CAGR为9.6%。 无人机锂电池是无人机动力系统中存储并释放能量的部分。无人机使用的动力电池,大多数是锂聚合物电池,相较其他电池,锂聚合物电池具有较高的能量密度,较长寿命,同时也具有良好的放电特性和安全性。 全球无人机锂电池核心厂商有宁德新能源科技、欣旺达、鹏辉能源、深圳格瑞普和EaglePicher等,前五大厂商占有全球
    GIRtina 2025-01-07 11:02 119浏览
  • 本文介绍编译Android13 ROOT权限固件的方法,触觉智能RK3562开发板演示,搭载4核A53处理器,主频高达2.0GHz;内置独立1Tops算力NPU,可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示与控制等行业。关闭selinux修改此文件("+"号为修改内容)device/rockchip/common/BoardConfig.mkBOARD_BOOT_HEADER_VERSION ?= 2BOARD_MKBOOTIMG_ARGS :=BOARD_PREBUILT_DTB
    Industio_触觉智能 2025-01-08 00:06 92浏览
  • By Toradex 秦海1). 简介嵌入式平台设备基于Yocto Linux 在开发后期量产前期,为了安全以及提高启动速度等考虑,希望将 ARM 处理器平台的 Debug Console 输出关闭,本文就基于 NXP i.MX8MP ARM 处理器平台来演示相关流程。 本文所示例的平台来自于 Toradex Verdin i.MX8MP 嵌入式平台。  2. 准备a). Verdin i.MX8MP ARM核心版配合Dahlia载板并
    hai.qin_651820742 2025-01-07 14:52 106浏览
  • 大模型的赋能是指利用大型机器学习模型(如深度学习模型)来增强或改进各种应用和服务。这种技术在许多领域都显示出了巨大的潜力,包括但不限于以下几个方面: 1. 企业服务:大模型可以用于构建智能客服系统、知识库问答系统等,提升企业的服务质量和运营效率。 2. 教育服务:在教育领域,大模型被应用于个性化学习、智能辅导、作业批改等,帮助教师减轻工作负担,提高教学质量。 3. 工业智能化:大模型有助于解决工业领域的复杂性和不确定性问题,尽管在认知能力方面尚未完全具备专家级的复杂决策能力。 4. 消费
    丙丁先生 2025-01-07 09:25 116浏览
  • 在智能家居领域中,Wi-Fi、蓝牙、Zigbee、Thread与Z-Wave等无线通信协议是构建短距物联局域网的关键手段,它们常在实际应用中交叉运用,以满足智能家居生态系统多样化的功能需求。然而,这些协议之间并未遵循统一的互通标准,缺乏直接的互操作性,在进行组网时需要引入额外的网关作为“翻译桥梁”,极大地增加了系统的复杂性。 同时,Apple HomeKit、SamSung SmartThings、Amazon Alexa、Google Home等主流智能家居平台为了提升市占率与消费者
    华普微HOPERF 2025-01-06 17:23 202浏览
  •  在全球能源结构加速向清洁、可再生方向转型的今天,风力发电作为一种绿色能源,已成为各国新能源发展的重要组成部分。然而,风力发电系统在复杂的环境中长时间运行,对系统的安全性、稳定性和抗干扰能力提出了极高要求。光耦(光电耦合器)作为一种电气隔离与信号传输器件,凭借其优秀的隔离保护性能和信号传输能力,已成为风力发电系统中不可或缺的关键组件。 风力发电系统对隔离与控制的需求风力发电系统中,包括发电机、变流器、变压器和控制系统等多个部分,通常工作在高压、大功率的环境中。光耦在这里扮演了
    晶台光耦 2025-01-08 16:03 58浏览
  • 每日可见的315MHz和433MHz遥控模块,你能分清楚吗?众所周知,一套遥控设备主要由发射部分和接收部分组成,发射器可以将控制者的控制按键经过编码,调制到射频信号上面,然后经天线发射出无线信号。而接收器是将天线接收到的无线信号进行解码,从而得到与控制按键相对应的信号,然后再去控制相应的设备工作。当前,常见的遥控设备主要分为红外遥控与无线电遥控两大类,其主要区别为所采用的载波频率及其应用场景不一致。红外遥控设备所采用的射频信号频率一般为38kHz,通常应用在电视、投影仪等设备中;而无线电遥控设备
    华普微HOPERF 2025-01-06 15:29 164浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦