4月23日,商汤科技在上海临港AIDC举办技术交流日活动上发布了日日新SenseNova 5.0大模型体系,并声称其性能对标GPT-4 Turbo,成功吸引了市场的广泛关注和积极响应,导致其股价涨停。
商汤科技董事长兼CEO徐立 图源:商汤科技
据悉,最新的6000亿参数大模型(日日新5.0),在知识、数学、推理和代码能力方面大幅提升,综合性能全面对标GPT-4Turbo。
图源:商汤科技
从训练数据量来看,日日新5.0基于超过10TB的tokens进行训练,这一点与GPT-4 Turbo的数据量相当。同时,在多模态能力方面,日日新5.0也进行了显著升级,可以推断其在自然语言处理、图片生成等方面有所增强。
此外,日日新5.0采用了混合专家架构,并且在推理时的上下文窗口可以有效扩展到200K左右,这与GPT-4 Turbo的128k上下文窗口相比,显示了其在处理长文本方面的优势。这种架构和上下文窗口的设计使得日日新5.0在处理复杂查询和长篇幅内容时更为高效。
在性能方面,商汤科技宣称日日新5.0的综合能力全面对标GPT-4 Turbo,并且在主流客观评测上达到或超越GPT-4 Turbo。
在人工智能发展的最基本法则——尺度定律(Scaling Law)的准则下,商汤持续寻求最有数据配比并建立数据质量评价体系,推动自身大模型研发的同时,也为行业伙伴提供大模型训练、微调、部署和各类生成式AI的能力及服务。
商汤科技董事长兼CEO徐立表示:“商汤在尺度定律的指导下,会持续探索大模型能力的KRE三层架构(知识-推理-执行),不断突破大模型能力边界。”
当天,商汤科技还推出了行业首个云、端、边全栈大模型产品矩阵。端侧大语言模型可在中端平台实现18.3字/s的平均生成速度,旗舰平台可达78.3字/s。扩散模型端侧推理速度小于1.5秒,支持输出1200万像素及以上的高清图片,支持在端上快速进行等比扩图、自由扩图、旋转扩图等图像编辑功能。对此,徐立在技术交流日上表示:“端侧是行业应用铺开的关键。”
同时,商汤科技还推出企业级大模型一体机,可同时支持企业级千亿模型加速和知识检索硬件加速,实现本地化部署。相比行业同类产品,推理成本节约80%,CPU工作负载50%。
此外,商汤科技发布了基于昇腾原生的行业大模型,共同打造面向金融、医疗、政务、代码等大模型产业生态。
值得一提的是,徐立还现场展示了商汤科技的文生视频能力,并表示会在很短时间发布文生视频平台。
4月24日,商汤科技股价盘中大幅拉升,盘中涨超30%。
根据商汤科技年报资料,公司生成式AI的客户包含三大运营商、招商银行、海通证券等机构,京东、小米、阅文等头部互联网公司,以及清华大学、上海交大等学术机构。此外,根据商汤科技旗下官方公众号发布的信息,日日新大模型已经应用于小米SU7汽车之中,用于助力小爱同学在车载语音场景中的应用。