AI大模型在退烧,但巨头已经卷疯了

原创 Chaos新观察 2023-08-25 09:01


    Chaos新观察  No.17  

大模型不是万能解药。



文 | 曹乙

报道 | Chaos新观察

ID | GoChaos

封面来源 | Unsplash



“不管什么赛道,只要大厂一做,你就知道要开始卷了”——这句行业内的戏言如今正在大模型身上应验。


自今年3月ChatGPT爆火之后,国内起了一股“备战”大模型之风,各大厂纷纷重金押注:all in AI多年的百度推出“文心一言”誓与ChatGPT一战,华为“盘古”席卷行业,阿里“通义千问”落地办公领域……大模型的火热程度,似乎为唱衰许久“大厂流量见顶”的阴霾照进了一丝光明。


与此同时,全球大模型独角兽企业“疯狂吸金”,短短半年内,由前OpenAI领导人创立的人工智能企业Anthropic就连获三轮大额融资,总额超8.5亿美元。这进一步刺激了国内大模型创业,截至今年5月,中国公开发布的AI大模型数量就已近百个,单独统计带有 AIGC 标签的公司,2023 年上半年融资交易 58.9 亿元,事件数量 42 起,均远超往年



但进入下半年,行业开始逐渐降温。盈利点不清晰,许多创业项目还停留在概念验证阶段,初创企业融资越来越难:一部分投资人举棋不定,一部分投资人干脆放弃看大模型项目,转向芯片。


马太效应正在加剧,创业公司突围艰难。对于初创企业来说,“落地”成了重中之中。谁能推出重磅应用,或能率先杀出重围



大厂的“必争之地”


大模型到底是一种什么技术?


大模型,即大语言模型,是指使用大量文本数据训练的深度学习模型,可以生成自然语言文本或理解语言文本的含义。简单来说,大模型能够模拟人类学习语言的过程,以类似人类的方式理解和生成文本,是通向人工智能的重要途径。


在ChatGPT爆火之前,人们对于AI的现实印象还停留在Siri和天猫精灵,那时人们戏称其为“人工智障”,意在吐槽这一时期的AI“不够智能”。谁也没有想到短短几年时间,AI就从“听懂指令”进化到“执行指令”,甚至能够基于指令自我学习,创作文案、脚本、绘图。


2016年,AlphaGo战胜世界围棋冠军李世石,曾引发人们对AI发展的短暂恐慌。但很快,消费互联网的爆发占据了人们的注意力,AlphaGo等机器人被认为只能用于像下棋这样的益智游戏;7年后,在经历了消费降级、人口红利消失等危机后,ChatGPT的横空出世,让人们嗅到了一丝来自未来的挑战。有的大厂积极调转车头押注AI,有的大厂则是默默耕耘,一朝闻名


打响第一枪的是百度“文心一言”——这是百度在2021年12月推出的百度·文心(ERNIE 3.0 Titan)迭代而来的细分模型,百度创始人李彦宏称将用其重构百度所有的应用。6年前,百度开启“all in AI”战略转型人工智能,现在看来是一个十分具有前瞻性的战略。


百度文心一言发布会


作为国内首屈一指的搜索应用,百度拥有庞大而丰富的中文语料库,天然具有研发AI大模型所需要的深度学习基因:2019年百度与国外同期搭建了学习型的文心大模型,而后2022年上线了基于文心大模型的AI绘图文心一格,2023年3月推出生成式AI产品文心一言......这也难怪产品一经发布,就被网友们用于和ChatGPT比较。


随后,4月11日,阿里云推出通义千问大语言模型,迎战文心一言。阿里董事会主席兼CEO张勇宣布,阿里所有产品将接入大模型全面升级。


阿里云的强大算力和巨量数据正是研发大模型优势所在,而通义千问也不负众望地实现了众多功能:多轮对话、文案创作、逻辑推理、多模态理解、多语言支持等功能,融入了多模态的知识理解,能够续写小说,编写邮件等。日前通义千问已尝试向办公领域落地,接入办公软件钉钉,开始帮打工人“搬砖”——做ppt、表格、设计海报、撰写文案。


紧接着,4月24日,科大讯飞星火认知大模型官网正式上线。作为AI语音龙头,讯飞星火认知大模型围绕“知识问答、代码编程、数理推算、创意联想、语言翻译”等场景布局,并尝试与教育垂直场景的深度融合


同样在探索垂直场景的,还有京东在7月13日发布的灵犀大模型:与京东赋能产业的核心战略相同,灵犀大模型融合了70%通用数据与30%数智供应链原生数据,深入零售、物流、金融、健康、政务等知识密集型、任务型产业场景,解决真实产业问题。


与以上几家正在探索落地的大厂不同,华为的盘古大模型似乎已经找到了“落点”:7月18日,华为联合山东能源集团举行发布会,宣布华为盘古大模型在矿山领域实现首次商用,为大模型的落地应用提供了良好的范本。实际上,盘古大模型就启动研发,华为云CEO张平安表示,希望用盘古大模型帮助各行各业,例如金融、政务、矿山、气象等行业,利用盘古大模型在产品研发、生产供应链、市场营销以及数字运作领域为其赋能——这与华为的B端策略一脉相承。


在这场“百模大战”中,字节和腾讯两家巨头却显得尤为低调。字节系的火山引擎6月28日发布大模型服务平台“火山方舟”,面向企业提供模型精调、评测、推理等全方位的平台服务,集成多个大模型,供客户直接对比——大搭戏台,聚众所长,正是字节风格;而腾讯的混元大模型,于8月3号宣布进入内测阶段,主要应用于腾讯广告、3D虚拟场景自动生成、对话式智能助手等。



从消费互联网时代脱颖而出的美团则选择“烧钱”模式——前有狂砸20.65亿元收购大模型创业公司光年之外,后又花费数亿投资智谱AI,比起自研大模型耗费的大量人力、物力、算力和高要求的技术基础,和创业公司合作,既可以节省时间和精力,又避免与巨头正面竞争


不难发现,大模型的研发具有共性:即,背后需要“巨量数据、巨量算法、巨量算力”支撑,同时还需要“巨量”人力、时间、财力的投入——这与消费互联网时代“服务器+程序员队伍+产品经理”搭起一个应用不同,打造一个大模型对任何企业而言都不是一件容易的事情。可以预见,未来大模型基本会成为大平台和科技公司的专属领地。


那么,耗费了巨额成本的大模型,能够肩负起大厂“第二增长曲线”重任吗?



大模型有了,应用在哪里?


接下来要回答第二个问题,大模型究竟有什么用?


炙手可热的同时,大模型也备受质疑:今年3月,超过千名产业界和学术界的大佬们发布联名公告:呼吁全球所有实验室暂停比更强的AI模型研发,暂停时间至少为6个月。在此期间,人工智能领域的专家和行业参与者应该共同制定一套安全协议,并对技术发展进行严格的审查和监督。其中就包括了特斯拉 CEO 埃隆·马斯克、以及苹果联合创始人Steve Wozniak。


而人们在尝试过ChatGPT之后也发现,它所创作或呈现出来的答案并不理想,尤其是对中文语言的识别差强人意。6月份,ChatGPT网站在全球的桌面和移动端流量比5月减少9.7%,独立访客减少5.7%。


与此同时,使用AI所产生的伦理问题也被警惕起来。日前,黑莓公司(BlackBerry)发布了一项最新研究称,目前全球有75%的组织,正考虑禁止在工作场所使用ChatGPT和其他生成式 AI 应用;61%正在部署或考虑ChatGPT禁令的公司表示,禁用ChatGPT的措施将是长期或永久性的。其中被谈论得最多的依旧是AI数据泄漏和隐私安全问题


在国内,利用生成式AI诈骗的案例也层出不穷。曾有新闻爆出有受害者被AI诈骗430万,AI换脸、AI拟声的引起的侵权问题更是如雨后春笋。前段时间朋友圈刷屏的“妙鸭相机”也因为隐私霸王条款和不支持退款的问题被上海市消协点名批评。


回到一开始的问题,大模型究竟有什么用?


如果说C端使用者对AI的需求仍停留在消费互联网时代的社交、对话、聊天,那么B端才是大模型落地、“变现”的关键支点。毕竟,“百模大战”耗费的巨大成本无法支撑C端“注意力经济”的玩法,只有走入垂直产业应用,才能真正让AI服务人类。


目前国内行业大模型发展模式主要有两种,一种是“自有通用大模型+外部行业数据”,另一种是“自有或其他开源大模型+自有行业数据”


“自有通用大模型+外部行业数据”主要是自有通用大模型的企业以“1+N”模式拓展多个行业大模型,比如百度基于“文心”拓展了金融、医疗、传媒等行业大模型,又如华为基于盘古大模型拓展了矿山领域。这种模式的优势在于,可以利用通用大模型的强大语言能力,快速适应不同行业的需求,同时也可以借助外部数据源,增强行业相关性和准确性。

“自有或其他开源大模型+自有行业数据”一般是由行业公司结合自身领域数据训练,比如一站式AI视频技术服务商百家云,基于自身视频SaaS/PaaS业务和产品数据,推出业内首款适用于企业市场部内容生产场景的GPT大模型引擎“市场易”,通过文案生成、内容发布、传播分析、舆情监测、知识库、体验中心六大功能板块,重构企业市场营销及推广工作机制。这种模式的优势在于充分利用自有数据的质量和数量级,打造出更专业、更精准的行业大模型,同时也可以借鉴其他开源大模型的技术和经验,提升训练效率和效果。


业内人士分析,相对而言,垂类大模型在细分领域在解决数据安全隐患、缺乏行业深度等问题方面更具优势。以AI制药行业对大模型的需求为例,由于药物研发对高精度实验数据的获取成本较高,且公开数据库中有大量无标注数据,因此大模型在模型建构上的要求会更高。既要利用好大量无标注数据,又要利用好少量高精度数据,这样的需要对于通用大模型而言无疑是一种“灾难”。


通用大模型研发所需要的高额成本令不少企业“望洋兴叹”,而垂类大模型则有机会填补这一空白:当前需要探索的不仅仅是让大模型如何“海纳百川”、如何“更加聪明”,更应该考量如何降低垂类大模型在训练时间、调试成本、部署成本方面的成本,让大模型赋能百行千业、走进千家万户。


关于通用还是行业大模型路径更好,有业内人士指出,当下被鼓吹的行业大模型始终存在着被替代的风险。有业内人士表示,10年前,在语音识别技术上,也曾诞生过诸多聚焦在通话、行车、办公等不同场景的专用模型,但随着通用模型技术的成熟,专用模型也随之退场。从更长远角度看,通用大模型才真正代表着一个平台级或颠覆性的大机会


在场景落地方面,据不完全统计,至2023年5月,Bloomberg资讯中共有58个AI应用落地案例,主要集中在传媒、游戏、机器人、办公、医药等领域。例如Discord、Snap、BuzzFeed等厂商通过OpenAI开发自身AI产品,Meta公司5月发布的AI Sandbox大模型,可以为广告生成不同的文字,以迎合不同消费者的需求,目前国内企业也推出了应用。


说到底,各企业的大模型产品各有侧重、内核相似,但各家的竞争力如何?这取决于客户



创业公司能追上大厂吗?


用户在选择大模型产品时,会重点考察哪些方面?


主要从云、基础设施、服务等角度来看。


大模型离不开云厂商。国内迭代最快的大模型公司,如百度、阿里都有自己的云业务。

大模型创业的生态分为四层——芯片层、框架层、模型层、应用层。其中芯片层+框架层是基础设施,企业的进入门槛最高;模型层对算力、算法、数据、人才的要求非常高;应用层是基于前两类大模型,调用API开发应用。所有的玩家都要在这四大层级里站位,纵向覆盖的层级越多,竞争壁垒越深厚。

企业客户在选择大模型时,不能只看中技术实力,是否懂行,能否保证交付,运维有没有长期保障,同等重要。


大模型框架图


创业公司与大厂的竞争主要来自数据、算法、算力几个维度。


有业内人士认为,OpenAI并没有在“科学”层面领先大家太多。模型效果更好的原因恐怕还是来源于“工艺”,追随者能够赶上的希望很大,毕竟数字世界的迭代速度远超现实物理世界。


关键竞争点是数据质量和工程化能力,算法则可以逐步追平,创业公司或可以靠这些核心能力与大厂一战。


8月3日,阿里大模型通义千问Qwen-7B日前宣布正式开源,阿里云成为中国首个宣布大模型开源的大型互联网科技公司。


对于正在探索大模型的中小企业和初创企业来说,Qwen-7B的出现无疑降低了他们的技术和应用门槛——开源大模型可以简化模型训练和部署的过程,让用户不必从头训练模型,只需下载预训练好的模型并进行微调,就能快速构建高质量的模型。初创公司有望通过深耕细分领域拿到关键分。


但围绕算力的抢夺、成本的持续增高,会成为各家企业的共同痛点。


国内云计算相关专家认为,做好AI大模型的算力最低门槛是1万枚英伟达A100芯片。TrendForce研究则显示,以A100的算力为基础,GPT-3.5大模型需要高达2万枚GPU,未来商业化后可能需要超过3万枚。


A100愈发抢手,市面的价格开始水涨船高,从官方的1万美元一枚,约合人民币7万,涨到8、9万,甚至10万一枚。代理商透露,英伟达A100芯片价格从去年12月开始上涨,5个月累计涨幅达到37.5%。


有媒体报道,国内云厂商主要采用的是英伟达的中低端性能产品,拥有超过1万枚GPU的企业不超过5家,其中,拥有1万枚英伟达A100芯片的最多只有一家。


OpenAl则指出,AI大模型要持续取得突破,所需要消耗的计算资源每3一4个月就要翻一倍。业内指出,OpenAI每一次的训练成本高达6000万美元,每隔三四个月就需要训练一次,迭代一次则需要四五次训练。以此计算,每迭代一次技术基座可能需要2亿到3亿美元


作为大模型的主要入局者,国内互联网大厂拥有天然的数据优势,在算力资源上早有布局,业内人士表示,自2022年9月,美国禁止向国内客户售卖英伟达A100、H100和AMD的MI250人工智能芯片后,国内大厂就开始大举囤芯片。


在高额消耗面前,大厂的资金资源优势凸显,对于初创企业来说,只有推出“杀手锏”应用才能在这轮AI竞赛中获得下一轮的入场券。对于大厂来说,早切入应用场景,也能早回血



百家云发布的适用于企业市场部内容生产场景的大模型引擎「市场易」,就瞄准了企业市场宣传和舆情监测需求,做到“易写、易管、易看、易听”,并能精准捕捉竞品来自各种渠道的舆情信息和竞品营销方向信息,并对内容的传播进行量化评估,为企业制定战略提供有力支持。8月底,百家云宣布,基于公司多年服务线上化场景的经验,将在现有技术积淀上,进一步帮助企业客户构建场景化AIGC应用,打造面向大模型垂直应用场景的一站式AIGC 场景化赋能中台“百问大模型”。据介绍,百问支持私有化部署,可在企业内部完整、独立使用,服务更稳定。


业内人士表示,目前市场中的大模型产品大多是围绕大语言模型。但是未来,大模型一定会走向多模态,形成具备图像、视频、语音、语义综合感知能力的智能体。例如,AI大模型能接入机器人,提升机器人的语言能力、视觉能力、运动控制能力,还有虚拟仿真能力。


Meta公司在今年7月发布了开源可商用大模型LLaMA2,包含了70亿、130亿和700亿参数3个版本。人们越来越发现,比之大模型本身,它背后日渐发展并快速迭代的生态更有价值。随着大模型开源,未来,会有更多行业、更多企业加入这场浪潮,金融、医疗、传媒、互联网等知识密集型行业的一些固有工作模式或将被改变,届时,互联网世界将迎来一次大变革。


与这些积极的声音不同的是,一些学者认为,大型语言模型善于从数据中识别和提取因果关系,但缺乏自己主动推理新的因果场景的能力。它们具备通过观察进行因果归纳的能力,但不具备因果演绎的能力。


AI 可能无法真正“学习”,而只能提炼信息或经验。AI 不是形成一个全面的世界模型,而是创建了一个概要。从这一点看,大模型可能并不是最终解。


如果我们想让AI能够真正通向“智能”,而不是作为一个“信息集成器”,并且像AlphaGo那样昙花一现的话,那么在积极探索商业落地场景的同时,不妨也想一想,我们真正需要AI做什么。





*参考资料:

1.《大厂的大模型之战:八仙过海,各显神通》,独角兽挖掘机

2.《ChatGPT,将遭全球 75%的企业“封杀”?》,CSDN

3.《国产大模型已无公司可投》,量子位

4.《国内外大模型产业如何发展?》,通信世界

5.《通用大模型创业潮,首战即将终结》,36氪


*免责声明:

1、本文内容为Chaos新观察原创,内容及观点仅供参考,不构成任何投资建议;文中所引用信息均来自市场公开资料,我司对所引信息的准确性和完整性不作任何保证。

2、本文未经许可,不得翻版、复制、刊登、发表或引用。如需转载,请联系我们。


人形机器人

下一个千亿赛道

中国SaaS企业

8月入寒冬

室温超导

一场人造的全球狂欢?

复刻iPhone神话

Apple Vision Pro胜算几成

👆上方关注

下方“分享、点赞、在看”👇

评论
  • RDDI-DAP错误通常与调试接口相关,特别是在使用CMSIS-DAP协议进行嵌入式系统开发时。以下是一些可能的原因和解决方法: 1. 硬件连接问题:     检查调试器(如ST-Link)与目标板之间的连接是否牢固。     确保所有必要的引脚都已正确连接,没有松动或短路。 2. 电源问题:     确保目标板和调试器都有足够的电源供应。     检查电源电压是否符合目标板的规格要求。 3. 固件问题: &n
    丙丁先生 2024-12-01 17:37 100浏览
  • 作为优秀工程师的你,已身经百战、阅板无数!请先醒醒,新的项目来了,这是一个既要、又要、还要的产品需求,ARM核心板中一个处理器怎么能实现这么丰富的外围接口?踌躇之际,你偶阅此文。于是,“潘多拉”的魔盒打开了!没错,USB资源就是你打开新世界得钥匙,它能做哪些扩展呢?1.1  USB扩网口通用ARM处理器大多带两路网口,如果项目中有多路网路接口的需求,一般会选择在主板外部加交换机/路由器。当然,出于成本考虑,也可以将Switch芯片集成到ARM核心板或底板上,如KSZ9897、
    万象奥科 2024-12-03 10:24 68浏览
  • 当前,智能汽车产业迎来重大变局,随着人工智能、5G、大数据等新一代信息技术的迅猛发展,智能网联汽车正呈现强劲发展势头。11月26日,在2024紫光展锐全球合作伙伴大会汽车电子生态论坛上,紫光展锐与上汽海外出行联合发布搭载紫光展锐A7870的上汽海外MG量产车型,并发布A7710系列UWB数字钥匙解决方案平台,可应用于数字钥匙、活体检测、脚踢雷达、自动泊车等多种智能汽车场景。 联合发布量产车型,推动汽车智能化出海紫光展锐与上汽海外出行达成战略合作,联合发布搭载紫光展锐A7870的量产车型
    紫光展锐 2024-12-03 11:38 101浏览
  • TOF多区传感器: ND06   ND06是一款微型多区高集成度ToF测距传感器,其支持24个区域(6 x 4)同步测距,测距范围远达5m,具有测距范围广、精度高、测距稳定等特点。适用于投影仪的无感自动对焦和梯形校正、AIoT、手势识别、智能面板和智能灯具等多种场景。                 如果用ND06进行手势识别,只需要经过三个步骤: 第一步&
    esad0 2024-12-04 11:20 50浏览
  • 光伏逆变器是一种高效的能量转换设备,它能够将光伏太阳能板(PV)产生的不稳定的直流电压转换成与市电频率同步的交流电。这种转换后的电能不仅可以回馈至商用输电网络,还能供独立电网系统使用。光伏逆变器在商业光伏储能电站和家庭独立储能系统等应用领域中得到了广泛的应用。光耦合器,以其高速信号传输、出色的共模抑制比以及单向信号传输和光电隔离的特性,在光伏逆变器中扮演着至关重要的角色。它确保了系统的安全隔离、干扰的有效隔离以及通信信号的精准传输。光耦合器的使用不仅提高了系统的稳定性和安全性,而且由于其低功耗的
    晶台光耦 2024-12-02 10:40 120浏览
  • 最近几年,新能源汽车愈发受到消费者的青睐,其销量也是一路走高。据中汽协公布的数据显示,2024年10月,新能源汽车产销分别完成146.3万辆和143万辆,同比分别增长48%和49.6%。而结合各家新能源车企所公布的销量数据来看,比亚迪再度夺得了销冠宝座,其10月新能源汽车销量达到了502657辆,同比增长66.53%。众所周知,比亚迪是新能源汽车领域的重要参与者,其一举一动向来为外界所关注。日前,比亚迪汽车旗下品牌方程豹汽车推出了新车方程豹豹8,该款车型一上市就迅速吸引了消费者的目光,成为SUV
    刘旷 2024-12-02 09:32 119浏览
  • 11-29学习笔记11-29学习笔记习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习笔记&记录学习习笔记&记学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&学习学习笔记&记录学习学习笔记&记录学习学习笔记&记
    youyeye 2024-12-02 23:58 71浏览
  •         温度传感器的精度受哪些因素影响,要先看所用的温度传感器输出哪种信号,不同信号输出的温度传感器影响精度的因素也不同。        现在常用的温度传感器输出信号有以下几种:电阻信号、电流信号、电压信号、数字信号等。以输出电阻信号的温度传感器为例,还细分为正温度系数温度传感器和负温度系数温度传感器,常用的铂电阻PT100/1000温度传感器就是正温度系数,就是说随着温度的升高,输出的电阻值会增大。对于输出
    锦正茂科技 2024-12-03 11:50 106浏览
  • 概述 说明(三)探讨的是比较器一般带有滞回(Hysteresis)功能,为了解决输入信号转换速率不够的问题。前文还提到,即便使能滞回(Hysteresis)功能,还是无法解决SiPM读出测试系统需要解决的问题。本文在说明(三)的基础上,继续探讨为SiPM读出测试系统寻求合适的模拟脉冲检出方案。前四代SiPM使用的高速比较器指标缺陷 由于前端模拟信号属于典型的指数脉冲,所以下降沿转换速率(Slew Rate)过慢,导致比较器检出出现不必要的问题。尽管比较器可以使能滞回(Hysteresis)模块功
    coyoo 2024-12-03 12:20 108浏览
  • 戴上XR眼镜去“追龙”是种什么体验?2024年11月30日,由上海自然博物馆(上海科技馆分馆)与三湘印象联合出品、三湘印象旗下观印象艺术发展有限公司(下简称“观印象”)承制的《又见恐龙》XR嘉年华在上海自然博物馆重磅开幕。该体验项目将于12月1日正式对公众开放,持续至2025年3月30日。双向奔赴,恐龙IP撞上元宇宙不久前,上海市经济和信息化委员会等部门联合印发了《上海市超高清视听产业发展行动方案》,特别提到“支持博物馆、主题乐园等场所推动超高清视听技术应用,丰富线下文旅消费体验”。作为上海自然
    电子与消费 2024-11-30 22:03 98浏览
  • 遇到部分串口工具不支持1500000波特率,这时候就需要进行修改,本文以触觉智能RK3562开发板修改系统波特率为115200为例,介绍瑞芯微方案主板Linux修改系统串口波特率教程。温馨提示:瑞芯微方案主板/开发板串口波特率只支持115200或1500000。修改Loader打印波特率查看对应芯片的MINIALL.ini确定要修改的bin文件#查看对应芯片的MINIALL.ini cat rkbin/RKBOOT/RK3562MINIALL.ini修改uart baudrate参数修改以下目
    Industio_触觉智能 2024-12-03 11:28 84浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦