本文来源:物联传媒
本文作者:露西
上周,OpenAI发布文生视频大模型Sora,贡献了新年第一个科技圈热点。
Sora可以根据用户提供的文本创建连贯、逼真的视频,且时长能做到60s,远超行业平均4s的文生视频长度。
Sora的其他能力还包括多机位、多角度、互动性、持久性,不成熟之处则体现在无法理解因果关系、空间细节不够、难以准确模拟复杂场景等。
结合2022年底大语言模型ChatGPT发布及后续的迭代动作,其实我们能发现包括大语言模型、文生视频模型在内的大模型行业还处在发展早期,但发展速度却要比过去其他行业更快。
似乎稍不注意,就可能有行业被颠覆,就可能错过时代转折机遇。
于是,一大批与AI大模型相关的科技上市公司,正在被投资者询问对Sora的看法与是否布局。
海康威视称公司视觉大模型主要用在智能物联行业,可用于对现实拍到的视频进行人工智能分析,起到智能识别并推动完成业务闭环的作用。而Sora是生成式的,与公司偏向“感知智能”的产品方向不太一致。(来源澎湃新闻)
大华股份拥有视觉大模型“星汉”,正在优先试点城市治理、电力两大行业。但“星汉”是解析式视觉大模型,能够判断视频里发生了什么,而Sora是生成式的,可见这两者方向也存在区别。(来源澎湃新闻)
投资者提问:看到公司发布的智能扫拖宝RS20 Pro在工作过程中还能自动识别和抓拍宠物,自动进行聚合、剪辑和配乐,每日生成爱宠时光Vlog推送,非常喜欢这个功能。近期,OpenAI发布了首个文生视频模型Sora,可以生成特定视频,希望RS20 Pro也可以开发互动订制特定类型宠物视频的功能以提高广大用户使用体验,比如说宠物进食时,睡觉时或活动时,不知能否实现?
董秘回复:Sora在媒体内容生成上带来了新的可能性。公司坚持自主技术创新,保持对AI等核心技术的投入力度,会持续关注此类技术创新与公司产品和服务结合的可能性。
云从科技称公司拥有的从容大模型已实现利用diffusion、GAN等生成式技术围绕人物图像、人物视频数据进行建模,通过文本和音频实现对图像和视频内容进行生成、控制、编辑。公司正在积极布局文生图像、视频等跨模态领域,并认为Sora大模型不仅在技术层面提升了AI的理解与生成能力,更在商业模式上开辟新的探索空间,未来有可能诞生更多跨领域的应用解决方案,比如高效的内容创作工具、精准的决策支持系统或全新的用户交互界面。
科大讯飞正在全力加大对星火认知大模型的研发投入,其技术也已在学习、办公、医疗、工业等领域有商业落地。根据2023年半年报,星火认知大模型的7大核心能力为:多风格多任务长文本生成能力、多层次跨语种语言理解能力、泛领域开放式知识问答能力、情境式思维链逻辑推理能力、多题型可解析数学能力、多功能多语言代码能力、多模态输入和表达能力。
其中多模态指的是以认知智能大模型为核心,将语音、图像、视频等其他模型对齐到统一语义空间中,结合插件工具实现多模态协同涌现。目前星火大模型可实现虚拟人合成、图文理解、文图生成、多模态交互等多模态的输入输出,据透露也已拥有相对基础的文生视频功能。
星火大模型的目标,是实现通用模型对标ChatGPT,且实现中文超越、英文相当。
物联网场景里有内容产生的地方,就可以用上大模型。
从产品角度看,无论是ChatGPT还是Sora,它们都是变革性的、软件形态的生产效率工具。
只不过有些行业优先更适合使用这类工具,比如ChatGPT对新闻报道、客户咨询服务等行业产生影响,Sora则大概率在广告、短视频、影视、游戏等行业引爆变革。
物联网行业是否也需要这些大模型产品?
在过去物联传媒记者对中科创达物联网事业群副总裁杨新辉先生的采访中,对相似的问题进行了回答,即今天的大模型浪潮主要还是在AIGC大的范畴里,是基于人工智能做内容产生。物联网场景里有内容产生的地方,比如说跟人有反复交互的产品类型,不管是语言还是图像形式,大模型就会有突出的应用价值。
当然回到文章开头,我们认为大模型行业仍处在早期阶段,从技术到产品、从产品到市场还有一段过程,计划将大模型产品广泛落地到物联网细分行业可能也需要时间。
并且即便每次新闻事件发生时行业都十分热闹,但大模型的门槛其实很高,壁垒集中在数据、算力和算法三大方面,本质上也是长期的工作。
~END~