【光电智造】目前有哪些比较成功的人工智能应用?

今日光电 2023-11-22 18:00
今日光电
     有人说,20世纪是电的世纪,21世纪是光的世纪;知光解电,再小的个体都可以被赋能。追光逐电,光赢未来...欢迎来到今日光电!


----与智者为伍 为创新赋能----


人工智能其实应用已经相比起以前不知道翻了多少倍。



但实际上的底层技术的更新换代并没有那么快。

         

比如现在最火热的ChatGPT,其本质上就是一个复杂的transformer模型。以transformer为基础的模型有很多,但是能做到这么简单可以大规模应用的到目前为止并不多。


纵观AI的发展史,从1950年左右图灵测试理论的建立,到alpha go的诞生,其实也不过才60多年而已,比起大多数的学科,都只能算是个小年轻。


         

而AI在历史上大多数火在少部分的群体,比如科研人员,他们之间会比拼谁的模型识别准确率更高;比如有限的几个大公司,微软,谷歌,deepmind,谁又刷新了某个人工智能的榜单。


但是绝大多数的群体,也就是只能在电视或者新闻山看人工智能的普通人,其实一直以来并没有机会去接触到人工智能这个东西。


而在最近一年以来,情况发生改变了,那就是以Transformer为基础的大模型语言模型ChatGPT和以Diffusion为基础的扩散模型Midjourney/StableDiffusion,改变了只有大公司和专业人士才能接触和使用的人工智能技术的使用门槛。


现在各种人工智能对话机器人和AI绘图工具层出不穷,使用门槛低到只需要有一个手机就可以用AI来进行文字创作和图片创作。


         

如果我们要列举人工智能应用的话,可能杂七杂八的会有成千上万种,但实际上很多应用都是在做非常类似的功能,比如各种AI写作软件,它们本质上都是接收文字输入,然后再输出文字。

         

其实如果我们按照输入给人工智能应用数据类型的不同来划分的话,大致可以分为四种。

文本:也就是各种文字,中文,英文,数字等等都算是文本输入。

图像:各种图片,比如人像,动物,家具,汽车都算是这一种。

语音:音乐,录音等等音频格式的文件。

视频:广义上的各种动态视频的文件等。

         

         

每种格式的人工智能应用都有很多,但实际上每个领域只有非常有限的几个应用可以杀出重围,从而获得绝大多数的关注。

         

我也就只介绍单个领域中功能最强的几个。

         

AI写作工具  

         

写作是最基本上,也是最常用的工具,一般来说可以用它来构思文章,润色,翻译等等一切可以想到的文字创作,基本上都可以用到它。

         

1. ChatGPT-3.5

免费访问: 对所有注册用户免费,让更多人能够接触和利用。

代码解释器: 可以生成表格和可视化图,让任何人都能成为初级数据分析师。

易用性: 上传文件并让模型工作,非常方便和直观。

局限性: 有文本输入的大小限制。


2. GP4

性能优势: 被公认为目前性能最强的大模型。

广泛共识: 在学术界和工业界都得到了广泛认可。


3. Claude2

文本输入能力: 主打量大管饱,一次性可以输入75000个字。

音频分析: 可以直接分析长达6小时的音频文件。

多样化应用: 可用于开发各种有趣的项目,如《周易机器人》。


4. Bard

少量使用: 相对较少人使用,但具有特殊功能。

直接读网页: 可以直接读取网页内容,如知乎的维基百科。

Colab集成: 代码可以直接在Colab中运行,方便进行实验和开发。

多样化输出: 可以编辑成邮件形式等多样化的输出。

         

这四个模型都有各自的特色和优势,满足不同的需求和用途。我其实这四个都会用到,比如回邮件,很多时候礼貌且专业的回复一封邮件其实是并不简单,而ChatGPT之类工具的存在,就可以非常方便的做一些以前需要工作经验才能做好的事情。

         

比如下面这个例子,就可以把一件专业的事情变成一道填空题,你只需要替换掉一些关键部分就可以。

         

这就是大模型的威力,而不同的大模型的优势不同,所以并不用一味的依赖某一个大模型。比如说你需要快速整理一本书的时候,就可以用Claude 2,它可以一次性的接受10万个字符,这一点儿ChatGPT是比不过的。

          

         

AI绘画工具  

         

这类型工具非常的实用,基本上可以让任意一个普通人都可以拥有实现自己梦境的能力。

         

你只需要输入一段文字来描述你想要的图像,这两个工具都可以在很短的时间内生成出来。

         

可以是二次元风格的。

         

         

也可以是赛博朋克风格的。

         

中国传统风格的。

         

甚至是一些不太可能发生的事情。

         

这些都是可以通过简单的描述生成的。

         

而Midjourney和StableDiffusion就是AI绘图的佼佼者,他们俩各有千秋。

         

         

定制图片的方式  

Stable Diffusion: 提供更多调整图片的选择,例如,大小、跟随提示的程度、生成数量、种子值和采样等。

Midjourney: 选择较少,只能调整宽高比、种子和是否提前停止。


学习难度   

Stable Diffusion: 安装麻烦,还要找到合适的模型来获得想要的风格。

Midjourney: 在Discord上使用,相对容易学。


生成好看图片的难度  

Midjourney: 生成精美艺术图像容易,不用费太多力气。

Stable Diffusion: 要更努力地创建好的提示,尝试产生相同质量的图像。


模型的种类  

Stable Diffusion: 超过1000个可下载的风格,每个都可以进一步调整。

Midjourney: 选择有限,只有几种特殊模型,可以添加参数来“样式化”图像。


编辑图片的能力  

Stable Diffusion: 可以多样化地编辑图片,包括重做部分图片或延伸。

Midjourney: 不能编辑图像。


图片的风格  

Midjourney: 默认生成逼真插图风格,v5可生成逼真照片。

Stable Diffusion: 可生成逼真照片、抽象艺术等多种风格。


控制构图和姿势  

Stable Diffusion: 通过多种方式控制,如图像到图像、深度到图像等。

Midjourney: 只能通过图像提示来控制。


制作自己的模型  

Stable Diffusion: 可以自己训练模型。

Midjourney: 无法做到。


选择哪个?  

这个问题其实复杂也不复杂,如果有条件肯定是两个都选,但是如果只能选择一种的话,就得比较一下自己到底适合哪个。

         

选Midjourney:想快速生成美图;没时间学习模型;喜欢它的风格;需要即插即用解决方案;不介意付费。

选Stable Diffusion如果:想要免费方案;希望本地运行;喜欢折腾设置和新工具;需要编辑功能;更喜欢开源,并希望有更多对图像的控制权。

         

AI视频工具   

这类型的工具我用的不是很多,第一是因为视频做起来的难度很高,花费的时间和精力也是文字的好多倍,其次现在的AI视频生成工具的效果不是很理想,毕竟处理视频所需要的算力和算法复杂度都比图像高了很多。

         

而这部分我觉得有两个类别,第一个是通过拼接图片做成的视频;第二个是纯文本生成视频。

         

前者的代表就是剪映这样的软件,你给他一段文字,它自动的匹配对应的图片,再给你自动配音和配乐,虽然效果很一般,但是确实是可以看的视频。

         

         

后者的产品不算多,并且效果真的只能算是一般,还有很大的发展空间。

         

比如有以下这些软件,基本上都不免费,就算是免费也只能生成很短的视频,或者需要加上各种水印。

         

产品名

适用于

支持平台

免费方案

描述

Descript

通过编辑剧本编辑视频

Windows, Mac (部分功能可用Web)

是,提供1小时转录和1个无水印的720p视频


Wondershare Filmora

使用AI工具润色视频

Windows, Mac, iOS, Android

是,有水印


Runway

用生成式AI实验

Web

是,提供125个视频积分(用于AI功能)、3个项目和720p导出


Peech

内容营销团队

Web (推荐Chrome)

是,1个用户,每月2个视频,5分钟上传限制,有水印


Synthesia

使用数字化虚拟形象

Web


Fliki

社交媒体视频

Web

是,每月最多5分钟,720p水印视频


Visla

将剧本转化为视频

Web

是,最多50分钟的视频,3小时的转录和10GB存储空间


Opus Clip

将长篇视频改编为短视频

Web

是,每月60分钟,有限的功能访问和水印







         

         

大多的生成视频都是一个固定的人物模型+根据语句变化的嘴形,可以用,但是不太能尽人如意。

         

所以对于AI视频工具一块来说,现在并不能当成生产力工具。

         

AI音频工具  

         

这类型工具主要分为两类:文字转语音和语音转文字,语音转语音的也有,但是数量不算多。

         

文字转语音的应用很多都内嵌在视频编辑软件里面,比如说剪映,就可以很方便的将文字转换成语音,同时还有很多类型的音色可以选,比如最近很火的猴哥音色。

         

         

         

而语音转文字的应用也有很多,比如最常见的就是微信,可以很轻松的将你的话转换成文字。

         

         

再高级一点儿就是直接将中文转换成英文文本,这种应用相信大家也从各种渠道看见过。其实就是先从语音转成文字,然后文字再做翻译。

         

         

AI应用有很多,但是究其根本,不过就是接收输入然后输出内容,输入和输出可以有各种搭配。但是要记住,选择工具要选择最适合自己的,而不是最好的。


来源:机械视觉沙龙


申明:感谢原创作者的辛勤付出。本号转载的文章均会在文中注明,若遇到版权问题请联系我们处理。


 

----与智者为伍 为创新赋能----


【说明】欢迎企业和个人洽谈合作,投稿发文。欢迎联系我们
诚招运营合伙人 ,对新媒体感兴趣,对光电产业和行业感兴趣。非常有意者通过以下方式联我们!条件待遇面谈
投稿丨合作丨咨询

联系邮箱:uestcwxd@126.com

QQ:493826566


评论 (0)
  • 文/Leon编辑/cc孙聪颖‍2025年1月至今,AI领域最出圈的除了DeepSeek,就是号称首个“通用AI Agent”(智能体)的Manus了,其邀请码一度被炒到8万元。很快,通用Agent就成为互联网大厂、AI独角兽们的新方向,迅速地“卷”了起来。国外市场,Open AI、Claude、微软等迅速推出Agent产品或构建平台,国内企业也在4月迅速跟进。4月,字节跳动、阿里巴巴、百度纷纷入局通用Agent市场,主打复杂的多任务、工作流功能,并对个人用户免费。腾讯则迅速更新腾讯元器的API接
    华尔街科技眼 2025-05-12 22:29 165浏览
  •   军事仿真推演系统平台核心解析   北京华盛恒辉军事仿真推演系统平台以计算机仿真技术为基石,在功能、架构、应用及效能上展现显著优势,成为提升军事作战与决策能力的核心工具。   应用案例   目前,已有多个仿真推演系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润仿真推演系统。这些成功案例为仿真推演系统的推广和应用提供了有力支持。   一、全流程功能体系   精准推演控制:覆盖推演启动至结束全流程。   智能想定管理:集成作战信息配置、兵力部署功能。   数据模型整合
    华盛恒辉l58ll334744 2025-05-14 17:11 85浏览
  •   舰艇电磁兼容分析与整改系统平台解析   北京华盛恒辉舰艇电磁兼容分析与整改系统平台是保障海军装备作战效能的关键技术,旨在确保舰艇电子设备在复杂电磁环境中协同运行。本文从架构、技术、流程、价值及趋势五个维度展开解析。   应用案例   目前,已有多个舰艇电磁兼容分析与整改系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润舰艇电磁兼容分析与整改系统。这些成功案例为舰艇电磁兼容分析与整改系统的推广和应用提供了有力支持。   一、系统架构:模块化智能体系   电磁环境建模:基
    华盛恒辉l58ll334744 2025-05-14 11:22 90浏览
  •   军事领域仿真推演系统的战略价值与发展前瞻   北京华盛恒辉仿真推演系统通过技术创新与应用拓展,已成为作战效能提升的核心支撑。以下从战略应用与未来趋势展开解析:   应用案例   目前,已有多个仿真推演系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润仿真推演系统。这些成功案例为仿真推演系统的推广和应用提供了有力支持。   一、核心战略应用   1. 作战理论创新引擎   依托低成本仿真平台,军事人员可高效验证新型作战概念。   2. 装备全周期优化   覆盖武器
    华盛恒辉l58ll334744 2025-05-14 16:41 102浏览
  • 在当下的商业版图中,胖东来宛如一颗璀璨的明星,散发着独特的光芒。它以卓越的服务、优质的商品以及独特的企业文化,赢得了消费者的广泛赞誉和业界的高度关注。然而,近期胖东来与自媒体博主之间的一场激烈对战,却如同一面镜子,映照出了这家企业在光环背后的真实与挣扎,也引发了我们对于商业本质、企业发展以及舆论生态的深入思考。​冲突爆发:舆论场中的硝烟弥漫​2025年4月,抖音玉石博主“柴怼怼”(粉丝约28万)突然发难,发布多条视频直指河南零售巨头胖东来。他言辞犀利,指控胖东来在玉石销售方面存在暴利行为,声称其
    疯人评 2025-05-14 13:49 83浏览
  • 感谢面包板论坛组织的本次测评活动,本次测评的对象是STM32WL Nucleo-64板 (NUCLEO-WL55JC) ,该测试板专为LoRa™应用原型构建,基于STM32WL系列sub-GHz无线微控制器。其性能、功耗及特性组合经过精心挑选,支持通过Arduino® Uno V3连接,并利用ST morpho接头扩展STM32WL Nucleo功能,便于访问多种专用屏蔽。STM32WL Nucleo-64板集成STLINK-V3E调试器与编程器,无需额外探测器。该板配备全面的STM
    无言的朝圣 2025-05-13 09:47 199浏览
  •   电磁数据展示系统平台解析   北京华盛恒辉电磁数据展示系统平台是实现电磁数据高效展示、分析与管理的综合性软件体系,以下从核心功能、技术特性、应用场景及发展趋势展开解读:   应用案例   目前,已有多个电磁数据展示系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润电磁数据展示系统。这些成功案例为电磁数据展示系统的推广和应用提供了有力支持。   一、核心功能模块   数据采集与预处理   智能分析处理   集成频谱分析、时频变换等信号处理算法,自动提取时域频域特征;
    华盛恒辉l58ll334744 2025-05-13 10:20 386浏览
  • 一、蓝牙射频电路设计的核心价值在智能穿戴、智能家居等物联网设备中,射频性能直接决定通信质量与用户体验。WT2605C等蓝牙语音芯片的射频电路设计,需在紧凑的PCB空间内实现低损耗信号传输与强抗干扰能力。射频走线每0.1dB的损耗优化可使通信距离提升3-5米,而阻抗失配可能导致30%以上的能效损失。二、射频走线设计规范1. 阻抗控制黄金法则50Ω标准阻抗实现:采用4层板时,顶层走线宽度0.3mm(FR4材质,介电常数4.3)双面板需通过SI9000软件计算,典型线宽1.2mm(1.6mm板厚)阻抗
    广州唯创电子 2025-05-13 09:00 33浏览
  • 在当下竞争激烈的 AI 赛道,企业高层的变动往往牵一发而动全身,零一万物近来就深陷这样的动荡漩涡。近日,零一万物联合创始人、技术副总裁戴宗宏离职创业的消息不胫而走。这位在大模型基础设施领域造诣颇深的专家,此前在华为云、阿里达摩院积累了深厚经验,在零一万物时更是带领团队短期内完成了千卡 GPU 集群等关键设施搭建,其离去无疑是重大损失。而这并非个例,自 2024 年下半年以来,李先刚、黄文灏、潘欣、曹大鹏等一众联创和早期核心成员纷纷出走。
    用户1742991715177 2025-05-13 21:24 153浏览
  •   电磁数据管理系统深度解析   北京华盛恒辉电磁数据管理系统作为专业的数据处理平台,旨在提升电磁数据的处理效率、安全性与可靠性。以下从功能架构、核心特性、应用场景及技术实现展开分析:   应用案例   目前,已有多个电磁数据管理系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润电磁数据管理系统。这些成功案例为电磁数据管理系统的推广和应用提供了有力支持。   一、核心功能模块   数据采集与接入:实时接收天线、频谱仪等设备数据,兼容多协议接口,确保数据采集的全面性与实时性
    华盛恒辉l58ll334744 2025-05-13 10:59 300浏览
  • 在全球能源结构转型加速推进与政策驱动的双重作用下,油气输送、智慧水务及化学化工等流体计量场景正面临效率革命与智能化升级的迫切需求。传统机械式流量计虽在工业初期有效支撑了基础计量需求,但其机械磨损、精度衰减与运维困难等固有缺陷已难以适应现代工业对精准化、智能化与可持续发展的多维诉求。在此背景下,超声波流量计则凭借着高精度探测、可实时监测、无侵入式安装、无阻流部件、易于维护与绿色环保等优势实现了突破性发展,成为当代高精度流体计量体系中不可或缺的重要一环。该技术不仅是撬动能源利用效率提升、支撑智慧管网
    华普微HOPERF 2025-05-14 11:49 58浏览
  • 一、量子自旋态光学操控1、‌拓扑量子态探测‌磁光克尔效应通过检测拓扑磁结构(如磁斯格明子)的磁光响应,实现对量子材料中非平庸拓扑自旋序的非侵入式表征。例如,二维量子磁体中的“拓扑克尔效应”可通过偏振光旋转角变化揭示斯格明子阵列的动态演化,为拓扑量子比特的稳定性评估提供关键手段。2、‌量子态调控界面‌非厄米磁光耦合系统(如法布里-珀罗腔)通过耗散调控增强克尔灵敏度,可用于奇异点附近的量子自旋态高精度操控,为超导量子比特与光子系统的耦合提供新思路。二、光子量子计算架构优化1、‌光子内存计算器件‌基于
    锦正茂科技 2025-05-13 09:57 57浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦