两分钟“熟读”《国史大纲》,大模型的下一个爆点是“书童”?

原创 Alter聊科技 2024-08-13 15:28

100万长文本赋予了开发者更大的创造空间,同时在生成、推理、QA等能力上不再被制约,注定会吸引越来越多的开发者参与进来,进一步将想象力转化为生产力。

撰文张贺飞
编辑沈菲菲

年初大模型行业上演“长文本”大战时,我们就萌生过做一个“读书助理”的想法。测试了市面上主流的大模型后,发现普遍存在两个不足:

一种是可以处理的文本长度不够,即使有些大模型将文本长度提升到了20万字,像《红楼梦》这样近百万字的名著,还是需要多次才能“读”完。

另一种是语言理解和生成能力不足,经常出现“幻觉”。“长文本”的特点不仅仅是长,还涉及到复杂的逻辑和文本语义,需要更连贯、相关的响应。

直到前两天,一位做AIGC的朋友向我们同步了一个新消息:“智谱AI开放平台默默上线了为处理超长文本和记忆型任务设计的GLM-4-Long,支持1M上下文。”100万上下文长度到底意味着什么呢?我们找来了另外两个大模型,用120回版本的《红楼梦》(大约有73万个汉字)进行了简单对比:
月之暗面128K的大模型,每次可以处理6.4万个汉字,需要12次才能读完;

Claude 200K的大模型,每次可以处理10万个汉字,需要8次才能读完;

GLM-4-Long实测可以处理150-200万字,一次就能读完一本《红楼梦》。
不过,文本长度只是一个入门能力,能否扮演起“读书助理”的角色,必须要确保能够从大量文本中准确检索信息,特别是当某些关键信息被置于文档的深处时,以及出色的推理和内容生成能力。

于是我们对GLM-4-Long进行了深度测试。(体验地址:智谱AI开放平台bigmodel.cn)

01.
两分钟“熟读”钱穆先生的《国史大纲》

大约是5年前,我们购买了钱穆先生的《国史大纲》,商务印书馆的繁体竖排版。因为是用大学教科书体例写成,学术味儿比较浓,再加上钱穆先生精炼的文笔风格,至今都没有完整读完。

GLM-4-Long能否胜任“书童”的角色呢?

我们调用了GLM-4-Long的API接口,读取了50多万字的电子版《国史大纲》,然后针对性地问了三个问题:

第一个问题:请总结这篇文档中每个部分的主要内容

原书目录中只罗列了每个章节的标题,希望通过这个问题验证大模型是否处理了文档的全部信息,对内容的理解和总结生成能力。


从输出的结果来看,不仅准确整理出了每个章节的核心内容,还按照现在比较主流的纪年方式,将全书内容拆分为上古文化、春秋战国、秦汉、魏晋南北朝、隋唐五代、两宋、元明、清代等8个部分,内容准确度超过99%,仅仅是“两宋之部”在小标题上被列举了两次(可以通过模型微调进行优化)。

第二个问题:“秦汉国力与对外形势”在文档哪个部分?

这是一个迷惑性比较强的问题,因为第七章和第八章都讲了相关背景,但钱穆先生放在了第十一章进行重点介绍。



GLM-4-Long并未掉进预设的“陷阱”,准确指出了问题所在的章节和标题。这也是长文本处理的一个典型痛点,在长达几十万字的内容中,作者可能在多个地方描述相似的几件事,最为考验大模型的语义理解和内容检索能力,并非是对文本的机械处理,意味着需要更强的抽象和内容归纳能力。

第三个问题:北宋的建国和汉唐时期有什么不同?

搜索引擎上没有直接相关的答案,但钱穆先生在书中给出了系统阐述,用于验证GLM-4-Long能否理解书中的细节信息。



这次的答案再次让我们惊艳,分别从建国方式、统治方式、对外政策、经济、文化、社会、政治制度等角度综述了钱穆先生的观点。特别是在“对外政策”上,准确回答了“汉唐时期积极对外扩张,北宋采取保守的防御策略”,并且简单提及了政策变化背后的原因,即五代十国时期战争频繁,导致国力消耗严重。

相关的测试问题不再一一赘述,直接给出我们的答案:GLM-4-Long对文档全局信息的处理、长文本理解和生成、多轮对话等能力均超出预期,整个体验有一种和钱穆先生跨时空对话的“错觉”。

另一个不应该被忽略的信息在于,一本50多万字的书籍,GLM-4-Long仅用了两分钟左右的时间进行处理。如果想要用大模型处理一些没有时间研读的长文本,GLM-4-Long某种程度上可以说是最佳帮手。

02.
用多个文档训练出一位“知识博主”

很多人在日常工作和生活中接触的文档,并非是动辄近百万字的巨著,而是几万字、最多十几万字的文档和资料。在这样比较大众化的需求下,像GLM-4-Long这样1M长文本能力的大模型,有何特殊价值?

前面用《红楼梦》做了对比,其实还有另一种对比方式:
月之暗面128K的大模型,每次可以处理6.4万个汉字,相当于读1本《活着》;

Claude 200K的大模型,每次可以处理10万个汉字,相当于一次读《活着》和《在细雨中呐喊》两本书;

GLM-4-Long的1M上下文,可以一次读余华老师的多本书,比如《活着》《在细雨中呐喊》《河边的错误》《第七天》……
由此萌生的一个想法是:是不是可以让大模型一次读多本相关的专业书籍,快速训练出一个专业的知识博主?

首先想到的一个场景就是饮食,生活中经常碰到吃什么可以减肥、6月龄宝宝能不能吃蛋黄、高血压病人的饮食需要注意什么等问题,每次都需要搜索或者问AI,又担心内容是不是准确。

我们让GLM-4-Long一次性读取了《中国居民膳食指南》《中国食物成分表》《中国饮食文化》《中国居民膳食营养素参考摄入量》等多个文档,然后用日常生活中的常见问题进行了针对性提问:

8月龄儿童日常饮食应该注意什么?



可以看到,GLM-4-Long输出的答案非常全面,除了要补充蛋白质、维生素和矿物质,还给出了一些贴心的建议:食物应该细腻易消化,避免大块或硬的食物,以防噎食;建议先引入蔬菜泥,然后是水果泥,接着是强化铁的米粉或米糊;如果家族中有过敏史,应避免引入可能导致过敏的食物……

50岁的高血压病人有什么饮食建议?



答案依然比较全面,包括应将食盐摄入量控制在每天6克以下、每天摄入300-500克新鲜蔬菜和200-350克新鲜水果、每日摄入25-30克膳食纤维、避免过多摄入精制糖和白面食、建议通过食物摄入足够的钾和钙、避免过多摄入蛋白质、限制饮酒等等,并提供了具体的食物建议。

以上只是我们简单尝试的一个场景,可以联想到的应用场景还有很多。

比如一次性通读余华老师的所有小说,然后“变身”余华老师进行对话;一次性读多篇相关的论文,帮助提升论文阅读的效率;一次性读取上百份简历,然后根据需求筛选出最合适的候选人;以及找到一家企业多个季度的财报进行横向对比,从更宏大、信息更丰富的视角进行财报分析......

我们列举的“想法”仅仅是抛砖引玉,相信智谱AI在大模型能力上打破天花板后,会有越来越多开发者参与其中,挖掘藏在应用层的机会,带来各种有趣、有生产力的体验。

03.
“卷”长文本过渡到“卷”综合能力

有别于年初单纯卷文本长度的比拼,智谱AI在GLM-4-Long的宣传和营销上不可谓不低调,却折射出了大模型市场的一个隐性共识:不再为了传播某个能力硬凹需求,而是开始卷大模型的综合能力。

个中原因并不难解释。

长文本在本质上是一种智力能力。如果将大模型比作是一台“电脑”的话,“更长的上下文”可以看作是更大的内存,能够提高多任务处理能力、提升运行大型软件的流畅度、带来更好的游戏体验等等。内存的大小,可能在某种程度上影响消费者的购买决策,却不是优先级最高的购买因素。

同样的道理,仅仅是在文本长度上领先,并不足以让大模型吸引所有的注意力,不会是一条稳定的护城河。

与之相对应的,大模型的“长文本热”就像是昙花一现,开发者们没有趋之若鹜,资本市场不断传出批判的声音:“感觉是各家公司在为抢入头部阵营做成绩,本质上还是为了秀肌肉,衡量长文本的价值,要等到更明确的落地场景和对应的商业模式出现,否则市场再热闹也是没有用的。”



时间过去半年后,GLM-4-Long让外界看到了大模型新的演变方向:除了记住多长的上下文,还在比拼语言理解和生成能力、长文本推理和QA能力,不再是做长木桶的一块板,而是把把所有木板做长。

比起我们“浅尝辄止”的测试,对大模型行业新方向感到兴奋的,恰恰是那群做AIGC的创业者。正如那位朋友所说的:“大模型可以满足100万字的上下文,并且可以很好地、准确地执行复杂指令,预示着巨大的想象空间。希望智谱AI开放平台可以早日推出GLM-4-Long的正式版,我们已经有了多个智能体相关的想法。”

自从ChatGPT走红后,整个大模型行业风谲云诡。然而一个看起来有些畸形的现象是:资本大多将钱投个了大模型企业,做应用创新的创业者鲜有机会,即便不少人都在呼吁创业者应该卷应用,而非卷模型。

回头再来看这样的现象,需要批判的不是资本的“势力”,而是开发者们的无奈。直接的例子就是长文本,半年前的火爆只是技术上的,由于存在能力上的短板,未能在应用层延续热度和爆点。借着上面的比喻,一台电脑的内存很大,可CPU、GPU、屏幕等依然是短板,开发者很难做出体验优秀的应用。

当大模型的竞争走向综合能力的较量,100万长文本赋予了开发者更大的创造空间,同时在生成、推理、QA等能力上不再被制约,注定会吸引越来越多的开发者参与进来,进一步将想象力转化为生产力,创造出一个又一个“出圈”的现象级应用,加速大模型在应用赛道上的繁荣。

04.
结语

“2024年是AGI落地元年“。

这样的预言正在被进一步验证。不仅仅是大模型综合能力的进阶,还在于技术和应用在方向上的统一:逐渐从博眼球式的拉新,转向“脱虚向实”, 不断回归用户体验,沉淀出解决实际问题的能力。

往期推荐


01

智谱AI再放“大招”,30秒将任意文字生成视频

02

详解电商三巨头的运营成本:商家的压力到底来自哪?



主理人 | 张贺飞(Alter)


前媒体人、公关,现专职科技自媒体


钛媒体、36kr、创业邦、福布斯中国等专栏作者


转载、商务、开白以及读者交流,请联系个人微信「imhefei」

Alter聊科技 探究产业兴衰,专注商业解读。
评论
  • “金字招牌”的户外叙事。2024年的夏天似乎异常炙热,体育迷们的心跳也随之澎湃,全球瞩目的体育盛宴——巴黎奥运会在此刻上映。在这个充满荣耀与梦想的夏天,我们见证了无数激动人心的瞬间:男子4X100米混合泳接力决赛中,潘展乐的最后一棒,气壮山河,中国队的历史性夺冠,让整个泳池沸腾;射击10米气步枪混合团体决赛,黄雨婷和盛李豪的精准射击,为中国队射落首金,展现了年轻一代的力量;乒乓球男单四分之一比赛中,樊振东的惊天逆转令人难以忘怀,凭借坚韧不拔的意志和卓越的技术,成功挺进半决赛,并最终夺冠……在这一
    艾迈斯欧司朗 2024-12-25 19:30 76浏览
  • 今年AI技术的话题不断,随着相关应用服务的陆续推出,AI的趋势已经是一个明确的趋势及方向,这也连带使得AI服务器的出货量开始加速成长。AI服务器因为有着极高的运算效能,伴随而来的即是大量的热能产生,因此散热效能便成为一个格外重要的议题。其实不只AI服务器有着散热的问题,随着Intel及AMD 的CPU规格也不断地在提升,非AI应用的服务器的散热问题也是不容小觑的潜在问题。即便如此,由于目前的液冷技术仍有许多待克服的地方,例如像是建置成本昂贵,机壳、轨道、水路、数据中心等项目都得重新设计来过,维修
    百佳泰测试实验室 2024-12-26 16:33 73浏览
  • 引言  LIN(Local Interconnect Network)是一种针对汽车电子系统应用的串行通信协议,主要用于汽车电子控制单元(ECU)之间的通信。LIN总线的特点是成本低、速率低、通信距离短、连接节点少,主要用于对带块要求低、实时性要求不高的控制任务,例如车门控制、天窗控制、座椅控制、车内照明等功能。LIN总线采用的是主从式架构,由主节点基于调度表调度网络中的通信。  LIN总线的错误类型  尽管LIN协议设计简单,具有低带
    北汇信息 2024-12-25 14:18 69浏览
  • IP 语音(VoIP)网络依赖于 SIP(会话启动协议)和 RTP(实时传输协议)等实时通信协议,因此必须保持高可用性和低延迟。一旦出现问题,就必须迅速查明并解决,以防止服务中断。一个常见的问题是不兼容问题,目前有 100 多份与 SIP 相关的征求意见稿(RFC),其中有大量 “应该”(SHOULD)而非 “必须”(MUST)的声明。这通常会导致用户无法拨出或拨入电话。本文将介绍一种使用 IOTA 的故障排除方法,IOTA 是一种实时流量捕获和分析工具,可简化复杂 VoIP 网络问题的根本原因
    艾体宝IT 2024-12-24 14:37 50浏览
  • 本文介绍瑞芯微RK3588主板/开发板Android12系统下,APK签名文件生成方法。触觉智能EVB3588开发板演示,搭载了瑞芯微RK3588芯片,该开发板是核心板加底板设计,音视频接口、通信接口等各类接口一应俱全,可帮助企业提高产品开发效率,缩短上市时间,降低成本和设计风险。工具准备下载Keytool-ImportKeyPair工具在源码:build/target/product/security/系统初始签名文件目录中,将以下三个文件拷贝出来:platform.pem;platform.
    Industio_触觉智能 2024-12-26 09:19 108浏览
  • 在PCB设计中,Stub(也称为短桩线或残桩线)对信号传输有以下几个主要影响:1.容性效应导致的阻抗偏低:Stub会导致容性效应,使得阻抗偏低,影响信道的阻抗一致性。Stub越长,阻抗降低得越多。这是因为传输线瞬态阻抗计算公式为:Z = \ sqrt { \ frac { L } { C } }Stub就像并联在传输线上的小电容,Stub越长,电容量越大,阻抗也就越低。2.信号反射:当信号在传输线与Stub的交界处遇到阻抗不匹配时,会产生信号反射。这会导致信号的失真和能量的反向传播,增加了噪声和
    为昕科技 2024-12-24 18:10 32浏览
  • 在谐振器(无源晶振)S&A250B测试软件中,DLD1到DLD7主要用于分析晶体在不同驱动功率下的阻抗变化。此外,还有其他DLD参数用于反映晶振的磁滞现象,以及其频率和功率特性。这些参数可以帮助工程师全面了解KOAN晶振在不同功率条件下的动态特性,从而优化其应用和性能。磁滞现象晶振的磁滞现象(Hysteresis)是指在驱动功率变化时,晶体的阻抗或频率无法立即恢复至初始状态,而表现出滞后效应。1. DLDH: Hysteresis Ratio (MaxR/MinR)在不同驱动
    koan-xtal 2024-12-26 12:41 88浏览
  • 概述 Intel 要求用户为其10代FPGA器件使用特定的上电和掉电顺序,这就要求用户在进行FPGA硬件设计的时候必须选择恰当的FPGA供电方案,并合理控制完整的供电上电顺序。经过在Cyclone 10 GX测试板上实际验证,统一上电确实会导致FPGA无法正常工作,具体表现为JTAG接口无法探测或识别到目标器件。上电顺序要求 Cyclone 10 GX,Arria 10以及Stratix 10系列器件所有的电源轨被划分成了三个组合,三组电源轨要求依次上电,如图1所示,为三组电源轨上电顺序示意图。
    coyoo 2024-12-25 14:13 64浏览
  • RK3506是瑞芯微Rockchip在2024年第四季度全新推出的Arm嵌入式芯片平台,三核Cortex-A7+单核Cortex-M0多核异构设计,CPU频率达1.5Ghz, M0 MCU为200Mhz。RK3506平台各型号芯片该怎么选,看这篇文章就够了。RK3506各型号RK3506有3个型号,分别是RK3506G2、RK3506B、RK3506J,配置参数如图: 配置差异解析总的来说,RK3506各型号间的差异主要体现在内存、工作温度和封装上‌:内存差异‌:RK3506G2‌集成
    Industio_触觉智能 2024-12-25 10:27 44浏览
  • 据IDTechEx最新预计,到2034年,全球汽车舱内传感(In-Cabin Sensing,ICS)市场将超过85亿美元。若按照增长幅度来看,包含驾驶员监控系统(DMS)、乘员监控系统(OMS)、手势控制和生命体征监测等高级功能在内的舱内传感市场预计2020年到2034年将增长11倍。感光百科:ICS中的光源选择01、政策推动带来的“硬”增长作为其中的增长主力,舱内监控系统应用(包含DMS和OMS等)被推动增长的首要因素正是法规。据统计,中国、欧盟、美国、韩国、印度等主要汽车国家或地区已推出相
    艾迈斯欧司朗 2024-12-25 19:56 73浏览
  • 全球照明技术创新领航者艾迈斯欧司朗,于2024年广州国际照明展览会同期,举办【智慧之光】· 艾迈斯欧司朗-照明应用研讨会,以持续的技术创新,推动光+概念的全面落地。现场还演示了多款领先照明技术,且由资深工程师倾情解读,另有行业大咖深度洞察分享,助你开启“光的无限可能”探索之旅!精彩大咖分享引领未来照明无限遐想艾迈斯欧司朗精心准备了照明领域专业大咖的深度分享,无论是照明领域的资深从业者,还是对照明科技充满好奇的探索者,在这里,您都将大有所获。在艾迈斯欧司朗照明全球产品市场VP Geral
    艾迈斯欧司朗 2024-12-25 20:05 62浏览
  • 本文介绍瑞芯微开发板/主板Android系统APK签名文件使用方法,触觉智能EVB3588开发板演示,搭载了瑞芯微RK3588芯片,各类接口一应俱全,帮助企业提高产品开发效率,缩短上市时间,降低成本和设计风险。系统签名文件生成APK系统签名文件,具体可参考此文章方法RK3588主板/开发板Android12系统APK签名文件生成方法,干货满满使用方法第一步,修改APK工程文件app/src/build.gradle,并添加以下内容: android {     na
    Industio_触觉智能 2024-12-26 09:20 76浏览
  • 新能源汽车市场潮起潮落,只有潮水退去,才能看清谁在裸泳。十年前,一批新能源汽车新势力带着创新的理念和先进的技术,如雨后春笋般涌入中国汽车市场,掀起一场新旧势力的角逐。经历市场的激烈洗礼与投资泡沫的挤压,蔚来、理想、小鹏等新势力车企脱颖而出,刷爆网络。不曾想,今年新势力车企杀出一匹“超级黑马”,爬上新势力车企销量榜前三,将蔚来、小鹏等昔日强者甩在了身后,它就是零跑汽车。公开数据显示,11月份,零跑汽车实现新车交付量约4.02万辆,同比增长117%,单月销量首次突破4万辆;小鹏汽车当月共交付新车约3
    刘旷 2024-12-26 10:53 118浏览
  • 当下,智能手机市场正呈现出明显的高端化趋势,更多消费者愿意为高端设备买单,这也推动了智能手机均价的提升。作为中国科技品牌出海的代表,传音控股凭借在折叠屏手机、AI技术、多肤色影像技术等方面的优势,在全球高端手机市场上展现出强大的竞争力。智能手机高端化趋势明显,传音打造AI技术优势12月初,全球市场调研机构Counterpoint发布报告称,2024年三季度,全球智能手机市场出货量达3.07亿部,同比增长2%,连续四个季度保持增长。全球智能手机收入同比增长10%,平均售价增长7%,均创下历史新高。
    电子资讯报 2024-12-24 16:57 41浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦