从顶级赛事殿堂飞向人间烟火:度小满的NLP技术突破能给小微企业带来什么?

脑极体 2021-03-16 00:00


一家企业的技术实力究竟怎么样,国际顶级赛事的比拼,绝对是一块试金石。


最近,在微软举办的MS MARCO 比赛中的文档排序Document Ranking(文档排序)任务中,来自度小满金融科技的AI-NLP团队就刷新了记录,超越三星、微软、谷歌、斯坦福、清华大学等一众参赛者,荣登榜首(截至2021年3月12日)。



2018年,度小满金融才开始独立运营,并组建了技术团队。两年多的时间,一家金融科技公司究竟是如何一步步实现了国际顶级赛事的能力飞跃?对于一家商业公司来说,学术领域的突破又意味着什么,是否能转化为真实的产业价值,改变普通人的金融生活?


这些都是“第一名”的光环背后,更值得我们关注的东西。



过去的成绩:

技术基因决定故事走向


看到这个新闻,大家的第一反应可能是“是微软飘了还是谷歌提不动刀了”,这个比赛究竟是干嘛的?


简单说一下MS MARCO挑战赛。它是自然语言处理NLP领域的权威比赛,基于微软构建的大规模英文阅读理解数据集MARCO(Microsoft Machine Reading Comprehension),需要参赛者为用户输入的问题找寻到最贴切、最需要的答案,并对答案进行排序。


以这次度小满技术团队刷新纪录的文档排序Document Ranking(文档排序)任务为例,就至少面临以下几个挑战:


首先,MARCO数据集采用的是来自搜索引擎 BING 的用户真实搜索行为和点击日志,最大程度地模拟和还原了用户使用搜索引擎的真实场景,因此数据标注并不完全,这会直接影响模型的性能表现;



其次,MARCO数据集规模非常大,包含数百万个问题和对应的近千万篇文档,而每一个问题都会提供多篇来自搜索结果的网页文档,相当于要在一堆文档中判断出哪一个是用户真正想要的,这需要机器对多篇文档进行综合理解才能判断出答案。


此外,MS MARCO挑战赛由于权威性高、应用价值大,吸引非常多的工业界巨头和学术机构来参与,竞争十分激烈。要赢过来自海外谷歌、韩国三星AI研究院、斯坦福大学,国内的清华大学等等的其他队伍,难度更是直线上升。


而度小满NLP团队提交的模型,不仅以0.416的eval分数大幅领先其他团队,还在第一名的位置维持了一个多月的时间,这不得不让人好奇,他们到底是怎么做到的?


经过访谈我们得知,度小满NLP团队首次提出了DML文本排序算法,通过自主研发的自适应预训练语言模型对query(用户搜索的真实问题)和document文本进行深度理解,利用了数十万数据来训练模型,经过召回、重排等多个阶段,给出最终排序。


完成突破的过程毫无疑问是充满艰苦的。度小满的技术人员透露,参赛队伍每天几乎都工作10-15个小时,中间做了非常多的创新和尝试,不断优化和改进算法。可话又说回来,技术创新最终比拼的还是“脑力”。度小满金融2018年才开始独立运营,两年内就能积累起挑战国际AI巨头的实力吗?



原来,度小满在成立初始,就抱着将NLP等科技引入金融业务当中的理想,建立起了一支AI团队。其中一部分人来自百度,众所周知,百度是中国NLP领域的一面技术旗帜,曾获得过包括国家科技进步奖在内的诸多权威奖项,这种技术基因也为度小满所沿袭。而另一方面,度小满也以十分严格的标准吸纳技术人才,建构起了一支实力强劲的技术队伍。


团队建起来了,安心支持自家的核心业务就好,为什么非得去国际赛场上“找虐”呢?


一方面,金融领域需要各种语言、语义相关的NLP技术和新方法来提升业务能力,来对风控模型、用户画像等进行升级,用更先进的算法来提升项目,也是度小满从成立之初就追求的。而国际顶级赛事,自然成了不容错过的绝佳“练兵场”。


桃李不言,下自成蹊。度小满在NLP领域的突破,看似奇异,背后却有着绵长的技术信仰、强烈的业务诉求支撑其前行。



现实的困境:

NLP如何为小微企业插上翅膀


所有过往,皆为序章。


比起度小满为什么要参加国际比赛,可能更让人难以理解的是,刷新纪录对你我普通人来说有什么意义?这种疑问,恰恰说明科技赋能产业的改造潜力远比我们想象中更深。


诗人塞缪尔·约翰逊曾说,语言是科学的唯一工具。事实上,今天度小满NLP领域所追寻的突破,也是在为金融科技和普通人之间搭建起一座桥梁。


度小满所提交的模型,其所具备的强有力的文本理解和匹配能力,可以轻松应用于金融、征信等多个领域中,赋能给中小企业者。



我们知道,中小企业融资难是个重要而复杂的问题。在现实中小微企业融资有着几座难以逾越的高山:


1.融资成本高:由于小微企业的经营规模小,风险系数高,一般还没有抵押物,许多金融机构不愿意放贷,或是设定更高的利息水平;


2.风控难度大:数据碎片化,缺乏长期信用评级,无法完整地了解小微企业的整体情况,判断其偿债能力,往往难以获得银行和资本市场的信任;


3.周转场景多,现金流压力大,而传统融资渠道审核慢、放款慢,着急情况下很容易被黑灰产或不良小贷机构欺骗。


在近几年的政府的工作报告中,多次提及要“帮助小微企业降低综合融资成本”。而通过公开数据我们发现,度小满针对小微企业主的年化贷款利率仅有3.65%。而全国银行业新发放普惠性小微贷款的利率平均达到5.93%(2020年数据)。2020年,度小满累积为小微企业主提供了3000亿元的无抵押信用贷款,人均放款额同比增加35%。


更低的利率,不低的额度,度小满凭什么这么敢?技术,就是所有不确定性中最大的确定性。


度小满在MS MARCO比赛中所运用到的数据挖掘、阅读理解等NLP技术,就已经在度小满的小微风控模型中投入了实际应用,通过对企业公章、征信报告等非结构化信息进行深度挖掘和理解,为风控模型提供了更丰富的特征和数据维度,从而可以更高效精准地识别风险因素,提升小微企业的融资效率,帮助其抵御黑产侵害。



而在小微企业融资场景中,同样存在很多这样的信息,比如有的用户并没有提供相关信息或行为,系统就需要对这些没有标注的样本,准确地判断出其风险等级。


推动AI、NLP技术走向产业侧,或许是提升小微企业融资效率、降低融资成本的解决方案中,最重要的议题之一。


就拿度小满来说,首先,借助NLP技术跨越信任的高山。对非结构化数据的挖掘,能够从经营行为、营业范围、财务年报等等更多维度的信息中加深对用户的洞察,准确判断出对方的资质,解决传统风控模型样本不足、评级不准的问题,为资本市场与小微企业之间建立信任;


其次,利用AI智能化地识别出更多风险指标。传统风控模型需要人根据业务需要和经验,确定哪些特征是有帮助的,而度小满借助AI可以让机器自动去学习相关特征,可以将数据得到充分利用,效率更高,征信结果更准确。



最后,通过技术协同来提升金融服务的可靠性与安全性。AI、NLP领域的技术能力并没有让度小满忽视传统金融工具的价值,事实上,在让智能系统给出判断的同时,度小满也会结合一些业内成熟应用的统计方法作为参考,对小微企业的偿债能力和风险系数进行综合评估。


在度小满的努力中,自然语言的奥秘被拆解,化成千行百业的智能化升级契机,小微企业可以在复杂变幻的商业环境中更快速地获得支持、寻觅新机。这或许可以回答很多人的疑问:为什么企业要跟学术机构一起在顶级赛事上同台竞技?


答案就在于,每一次技术领域的点滴突破,都有可能改变一些行业的既有规则,化不可能为可能,助力更多小微企业飞向更光明的未来。



未来的企望:

科技与产业的更多握手可能


可以看到,想要在资本市场和小微企业之间建构起信任桥梁,既需要技术积累,又要有对实体经济、小微企业业态的真实洞察与服务理念,这恰好也是度小满一直以来努力的方向。


除了前面提到的风控等场景之外,其实在小微企业的金融需求中,还存在许多痛点。比如需要反复前往网点当面证明自己的资质、等待人工审核等等,在这些环节中,度小满也从用户角度结合技术想了很多解决防范。


比如利用OCR技术将对方提供的电子化票据进行识别处理,在线上就能审核,实现申请秒批,有效缓解小微企业的资金压力。


借助AI预测,度小满也会在贷后运用机器人流程自动化(RPA)还款提醒,降低后期的运维成本,也让小微企业主避免因逾期还款而带来的负面影响。


对于合作伙伴来说,借助度小满的技术能力,可以对更多潜在优质客户进行准确识别,带来业务上的良性增长。


也可以说,度小满目前所扮演的,既是风险的守门员,也是增长的主推手,这是极为稀缺的产业角色。



从技术特征上推演,NLP技术的潜力能够落地的场景和需求还有很多。具体要如何激发出技术的能量,这个问题就交给度小满去操心吧。对于小微企业主来说,只需要安心经营未来,不必为资金贷款终日忧心,这就是平凡至美的人间烟火味。


技术的根系越深远,越能历久弥长地将价值输送到每一个产业细枝末节当中,直至浸润每一个人的心田。


脑极体 从技术协同到产业革命,从智能密钥到已知尽头
评论
  • 1月7日-10日,2025年国际消费电子产品展览会(CES 2025)盛大举行,广和通发布Fibocom AI Stack,赋智千行百业端侧应用。Fibocom AI Stack提供集高性能模组、AI工具链、高性能推理引擎、海量模型、支持与服务一体化的端侧AI解决方案,帮助智能设备快速实现AI能力商用。为适应不同端侧场景的应用,AI Stack具备海量端侧AI模型及行业端侧模型,基于不同等级算力的芯片平台或模组,Fibocom AI Stack可将TensorFlow、PyTorch、ONNX、
    物吾悟小通 2025-01-08 18:17 74浏览
  • 根据环洋市场咨询(Global Info Research)项目团队最新调研,预计2030年全球中空长航时无人机产值达到9009百万美元,2024-2030年期间年复合增长率CAGR为8.0%。 环洋市场咨询机构出版了的【全球中空长航时无人机行业总体规模、主要厂商及IPO上市调研报告,2025-2031】研究全球中空长航时无人机总体规模,包括产量、产值、消费量、主要生产地区、主要生产商及市场份额,同时分析中空长航时无人机市场主要驱动因素、阻碍因素、市场机遇、挑战、新产品发布等。报告从中空长航时
    GIRtina 2025-01-09 10:35 83浏览
  • HDMI 2.2 规格将至,开启视听新境界2025年1月6日,HDMI Forum, Inc. 宣布即将发布HDMI规范2.2版本。新HDMI规范为规模庞大的 HDMI 生态系统带来更多选择,为创建、分发和体验理想的终端用户效果提供更先进的解决方案。新技术为电视、电影和游戏工作室等内容制作商在当前和未来提供更高质量的选择,同时实现多种分发平台。96Gbps的更高带宽和新一代 HDMI 固定比率速率传输(Fixed Rate Link)技术为各种设备应用提供更优质的音频和视频。终端用户显示器能以最
    百佳泰测试实验室 2025-01-09 17:33 96浏览
  • 光伏逆变器是一种高效的能量转换设备,它能够将光伏太阳能板(PV)产生的不稳定的直流电压转换成与市电频率同步的交流电。这种转换后的电能不仅可以回馈至商用输电网络,还能供独立电网系统使用。光伏逆变器在商业光伏储能电站和家庭独立储能系统等应用领域中得到了广泛的应用。光耦合器,以其高速信号传输、出色的共模抑制比以及单向信号传输和光电隔离的特性,在光伏逆变器中扮演着至关重要的角色。它确保了系统的安全隔离、干扰的有效隔离以及通信信号的精准传输。光耦合器的使用不仅提高了系统的稳定性和安全性,而且由于其低功耗的
    晶台光耦 2025-01-09 09:58 68浏览
  • 在过去十年中,自动驾驶和高级驾驶辅助系统(AD/ADAS)软件与硬件的快速发展对多传感器数据采集的设计需求提出了更高的要求。然而,目前仍缺乏能够高质量集成多传感器数据采集的解决方案。康谋ADTF正是应运而生,它提供了一个广受认可和广泛引用的软件框架,包含模块化的标准化应用程序和工具,旨在为ADAS功能的开发提供一站式体验。一、ADTF的关键之处!无论是奥迪、大众、宝马还是梅赛德斯-奔驰:他们都依赖我们不断发展的ADTF来开发智能驾驶辅助解决方案,直至实现自动驾驶的目标。从新功能的最初构思到批量生
    康谋 2025-01-09 10:04 84浏览
  •  在全球能源结构加速向清洁、可再生方向转型的今天,风力发电作为一种绿色能源,已成为各国新能源发展的重要组成部分。然而,风力发电系统在复杂的环境中长时间运行,对系统的安全性、稳定性和抗干扰能力提出了极高要求。光耦(光电耦合器)作为一种电气隔离与信号传输器件,凭借其优秀的隔离保护性能和信号传输能力,已成为风力发电系统中不可或缺的关键组件。 风力发电系统对隔离与控制的需求风力发电系统中,包括发电机、变流器、变压器和控制系统等多个部分,通常工作在高压、大功率的环境中。光耦在这里扮演了
    晶台光耦 2025-01-08 16:03 88浏览
  • 职场是人生的重要战场,既是谋生之地,也是实现个人价值的平台。然而,有些思维方式却会悄无声息地拖住你的后腿,让你原地踏步甚至退步。今天,我们就来聊聊职场中最忌讳的五种思维方式,看看自己有没有中招。1. 固步自封的思维在职场中,最可怕的事情莫过于自满于现状,拒绝学习和改变。世界在不断变化,行业的趋势、技术的革新都在要求我们与时俱进。如果你总觉得自己的方法最优,或者害怕尝试新事物,那就很容易被淘汰。与其等待机会找上门,不如主动出击,保持学习和探索的心态。加入优思学院,可以帮助你快速提升自己,与行业前沿
    优思学院 2025-01-09 15:48 82浏览
  • 本文介绍编译Android13 ROOT权限固件的方法,触觉智能RK3562开发板演示,搭载4核A53处理器,主频高达2.0GHz;内置独立1Tops算力NPU,可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示与控制等行业。关闭selinux修改此文件("+"号为修改内容)device/rockchip/common/BoardConfig.mkBOARD_BOOT_HEADER_VERSION ?= 2BOARD_MKBOOTIMG_ARGS :=BOARD_PREBUILT_DTB
    Industio_触觉智能 2025-01-08 00:06 113浏览
  • 村田是目前全球量产硅电容的领先企业,其在2016年收购了法国IPDiA头部硅电容器公司,并于2023年6月宣布投资约100亿日元将硅电容产能提升两倍。以下内容主要来自村田官网信息整理,村田高密度硅电容器采用半导体MOS工艺开发,并使用3D结构来大幅增加电极表面,因此在给定的占位面积内增加了静电容量。村田的硅技术以嵌入非结晶基板的单片结构为基础(单层MIM和多层MIM—MIM是指金属 / 绝缘体/ 金属) 村田硅电容采用先进3D拓扑结构在100um内,使开发的有效静电容量面积相当于80个
    知白 2025-01-07 15:02 165浏览
  • 在当前人工智能(AI)与物联网(IoT)的快速发展趋势下,各行各业的数字转型与自动化进程正以惊人的速度持续进行。如今企业在设计与营运技术系统时所面临的挑战不仅是技术本身,更包含硬件设施、第三方软件及配件等复杂的外部因素。然而这些系统往往讲究更精密的设计与高稳定性,哪怕是任何一个小小的问题,都可能对整体业务运作造成严重影响。 POS应用环境与客户需求以本次分享的客户个案为例,该客户是一家全球领先的信息技术服务与数字解决方案提供商,遭遇到一个由他们所开发的POS机(Point of Sal
    百佳泰测试实验室 2025-01-09 17:35 88浏览
  • 一个真正的质量工程师(QE)必须将一件产品设计的“意图”与系统的可制造性、可服务性以及资源在现实中实现设计和产品的能力结合起来。所以,可以说,这确实是一种工程学科。我们常开玩笑说,质量工程师是工程领域里的「侦探」、「警察」或「律师」,守护神是"墨菲”,信奉的哲学就是「墨菲定律」。(注:墨菲定律是一种启发性原则,常被表述为:任何可能出错的事情最终都会出错。)做质量工程师的,有时会不受欢迎,也会被忽视,甚至可能遭遇主动或被动的阻碍,而一旦出了问题,责任往往就落在质量工程师的头上。虽然质量工程师并不负
    优思学院 2025-01-09 11:48 102浏览
  • 「他明明跟我同梯进来,为什么就是升得比我快?」许多人都有这样的疑问:明明就战绩也不比隔壁同事差,升迁之路却比别人苦。其实,之间的差异就在于「领导力」。並非必须当管理者才需要「领导力」,而是散发领导力特质的人,才更容易被晓明。许多领导力和特质,都可以通过努力和学习获得,因此就算不是天生的领导者,也能成为一个具备领导魅力的人,进而被老板看见,向你伸出升迁的橘子枝。领导力是什么?领导力是一种能力或特质,甚至可以说是一种「影响力」。好的领导者通常具备影响和鼓励他人的能力,并导引他们朝着共同的目标和愿景前
    优思学院 2025-01-08 14:54 96浏览
  • By Toradex 秦海1). 简介嵌入式平台设备基于Yocto Linux 在开发后期量产前期,为了安全以及提高启动速度等考虑,希望将 ARM 处理器平台的 Debug Console 输出关闭,本文就基于 NXP i.MX8MP ARM 处理器平台来演示相关流程。 本文所示例的平台来自于 Toradex Verdin i.MX8MP 嵌入式平台。  2. 准备a). Verdin i.MX8MP ARM核心版配合Dahlia载板并
    hai.qin_651820742 2025-01-07 14:52 126浏览
  • 故障现象一辆2017款东风风神AX7车,搭载DFMA14T发动机,累计行驶里程约为13.7万km。该车冷起动后怠速运转正常,热机后怠速运转不稳,组合仪表上的发动机转速表指针上下轻微抖动。 故障诊断 用故障检测仪检测,发动机控制单元中无故障代码存储;读取发动机数据流,发现进气歧管绝对压力波动明显,有时能达到69 kPa,明显偏高,推断可能的原因有:进气系统漏气;进气歧管绝对压力传感器信号失真;发动机机械故障。首先从节气门处打烟雾,没有发现进气管周围有漏气的地方;接着拔下进气管上的两个真空
    虹科Pico汽车示波器 2025-01-08 16:51 112浏览
  • 在智能网联汽车中,各种通信技术如2G/3G/4G/5G、GNSS(全球导航卫星系统)、V2X(车联网通信)等在行业内被广泛使用。这些技术让汽车能够实现紧急呼叫、在线娱乐、导航等多种功能。EMC测试就是为了确保在复杂电磁环境下,汽车的通信系统仍然可以正常工作,保护驾乘者的安全。参考《QCT-基于LTE-V2X直连通信的车载信息交互系统技术要求及试验方法-1》标准10.5电磁兼容试验方法,下面将会从整车功能层面为大家解读V2X整车电磁兼容试验的过程。测试过程揭秘1. 设备准备为了进行电磁兼容试验,技
    北汇信息 2025-01-09 11:24 92浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦