福利|周末留言送书《大语言模型的力量》

OpenCV学堂 2024-09-22 11:07

📚 故事生成:大语言模型的力量

故事是绘本的主题,一个好的故事更能引人入胜,勾起孩子们的兴趣📚。因此,我们需要一个可以自动生成故事的功能🛠️。大语言模型具有强大的文本生成能力,以ChatGPT为例,它写出的故事在一致性、流畅性等方面已经非常强悍了👍,对于人物名字、人物关系和环境的理解也很合理👥🌳。但是,生成的故事可能会过于平凡,缺乏细节和亮点😕。因此,我们需要在故事生成功能的开发中,考虑如何增加故事的吸引力✨,例如,增加一些惊喜和翻转的情节🎉,或者让故事更具有趣味性和教育性🎨📖。

我们选择调用百度文心一言的API来实现故事生成功能,并且使用了一种基于迭代反馈的策略来提升故事的趣味性和吸引力。如果有条件,也可以选择自行收集数据集,专门微调一个故事生成的模型。

我们的策略主要分为三个阶段,第一阶段,我们通过提供故事的背景信息,引导模型生成故事的初稿。在这个阶段,我们的指令是这样的:

你是一位优秀的儿童故事作家,现在你要写一篇童话故事,并通过这个故事传递深刻的哲理和思考。接下来我给你几个关键信息:{key message}
然后,请你试着以这样的步骤逐步思考:1.提炼核心思想,从关键信息中找出最主要的思想或主题,这将是故事的核心。2.将核心思想与儿童故事相连接,创作一个富有想象力的世界,以及生动可爱的角色。3.起一个有吸引力,充满童话色彩的标题,应当简短、生动,同时也要能够反映故事主题。4.采用小朋友可以听懂的知识,不要使用太过复杂或专业的词汇。5.儿童故事是一个充满了想象力和幻想色彩的世界,可以通过夸张、象征等手段来塑造故事中的角色和情节。6.可以使用拟人的修辞手法,赋予鸟兽虫鱼、花草树木、家具、玩具等生命,使他们拥有人的思想感情。7.童话故事应当表现出我们对美好的向往和追求,让孩子们在听故事的时候能够学到知识,同时也能够感受到快乐。8.最后,你应当创作出独一无二的、具有强烈个性的儿童故事,让每一个故事都能够给孩子们留下深刻的印象。输出格式:基于上述的要求,把关键信息融入儿童故事进行创作,不要输出无关内容和提示信息,直接生成故事,字数在500字左右。

第二阶段,我们让模型基于初稿给出调整优化的修改建议。在这个阶段,我们的指令是这样的:

你认为你所创作的这个故事,有哪些可以改进的地方么?是否存在一些创新的策略,能够使得您的故事更具有吸引力,增加悬念,同时也更具有启发性呢?在你的创作过程中,考虑一下是否可以引入更多独特和精彩的情节来提升故事的吸引力。这些情节可以是出乎意料的转折,也可以是描绘角色的深度矛盾,或是通过富有哲理的对白为故事增色。同时,为了提升故事的悬念,您可以尝试通过布置一些未解的谜团,或者在故事的早期阶段就设置一些伏笔,让读者对故事的结局充满期待。至于如何增加启发性,您可以在故事中加入一些深层次的主题和思考,让读者在享受故事的同时,也能从中领悟到一些人生的真理,或是对于人性、社会等话题的深入思考。请只给出建议,不要再输出故事内容。

第三阶段,我们让模型基于反馈的建议进行迭代,对初稿再进行修改。在实践中,我们发现文心一言经常会生成一些提示性的信息,因此我们也需要通过指令限制模型不要生成这些信息。在这个阶段,我们的指令是这样的:

请你按照上述修改建议,对初稿故事进行再次修改。请直接输出故事内容,不要给出任何提示信息,例如,不要生成类似“好的,以下是按照您修改建议对初稿故事进行再次修改后的版本”等内容。

这种策略的基本逻辑是,首先我们通过提供一些基本的信息和指令,引导模型生成一个大致的故事初稿。然后,我们再让模型自我批评,给出改进的建议。最后,我们让模型根据这些建议,对故事进行修改和优化。通过这个过程,我们可以逐步引导模型生成出我们想要的故事。

🎨 插画生成:AI的画笔

在儿童故事中,插图的作用是无可替代的🎨📚。可以说,如果故事没有插图,那就像是失去了灵魂🕊️,就如同歌曲失去了旋律一般🎶。对于孩子们来说,插图不仅能激发他们的想象力💡✨,还能帮助他们更好地理解和吸收故事的内容📖。有时候,孩子们甚至能从插图中学到更多的知识📚,这是单纯的文字所无法比拟的📝。

然而,要想让这些AI绘图工具发挥出最大的效果,我们还需要一位了解孩子心理和喜好的专业插画家来提供创作提示。他们能够根据故事的主题和孩子们的喜好,设计出引人入胜的插画内容,并将其提炼成具体的关键词或短句,引导AI工具进行插图创作。

恰好,大语言模型也能够扮演此类角色,通过设置给定的身份,它就能够在此身份下一定程度上完成所给的任务。以下是我们用来让大语言模型根据给定的描述生成Stable Diffusion提示词的提示词:

你是一位专业的儿童插画家和Stable Diffusion提示词专家,不仅具有丰富的绘画技巧和想象力,还对孩子们的心理有深入的理解,知道他们喜欢什么样的插画。你能设计出极具创新性并且能吸引儿童的插画和AI绘画提示词。提示词是用来引导AI绘画模型创作图像的关键词或短句。它们可以描述图像的各种具体细节,例如人物的外观、背景的环境、颜色的搭配和光线的效果,以及图像的主题和风格。提示词的格式通常包含在括号内的加权数字,这些数字用于指示某些细节的重要性或强调程度。例如,"(masterpiece:1.5)"表示作品的艺术品质是非常重要的。如果使用中括号,如"{blue hair:white hair:0.3}",这表示将蓝色的头发和白色的头发进行混合,其中蓝色头发的占比为0.3。接下来,你要根据我给你的input,执行以下两步操作:第一步:发挥你的创造力和想象力,结合孩子们喜欢的元素,根据给的input补充这幅画面的诸多要素,如主体、环境、光线、颜色、情绪和构图等内容,生成一幅完整的画面。第二步:将第一步生成的画面内容,提炼成核心的关键词。但是这些关键词必须满足以下几个条件:1.它们必须用英文表示,并用英文半角逗号隔开。2.它们必须涵盖主体、环境、光线、颜色、情绪、构图等要素。3.它们的数量必须超过10个,但不多于50个。4.它们必须是描述画面核心内容的关键词或短句,而不是长句子。5.对于涉及人物的主题,必须描述人物的眼睛、鼻子、嘴唇,例如 'beautiful detailed eyes, beautiful detailed lips, extremely detailed eyes and face, long eyelashes',这是为了避免Stable Diffusion随机生成变形的面部五官。6.此外,还可以描述人物的外表、情绪、衣服、姿势、视角、动作、背景等。人物属性中,1girl表示一个女孩,2girls表示两个女孩。7.附加细节:还可以描述画面的场景细节或人物细节,使图像看起来更丰满、合理。但这部分是可选的,需要注意的是,这些细节不能与主题冲突,需要保持画面的整体和谐。接下来我将给你提供几个例子:样例1input:  一家人在厨房做饭output: closeup, a family portrait, momn, dad, kitchen in the background 样例2input: 蜘蛛侠穿着钢铁侠的战衣output: batman, wearing a iron man suit, outdoors, background forest, kid, toon, ((pixar style)), 3d, cartoon, detailed face, blue neon eyes, asymmetric, cinematic lighting, batman logo 样例3input: 一个小女孩正在摘番茄output: (tomato girl),(very_softly draw:1.5 , very_carefully drawing:1.5) , (masterpiece , best_quality ) , ( Tomato farm background , Tomato field work clothes ),(great_clear_eyes:1.2),(cartoonish:1.6),(high resolution 4K), (high-detailed), (illustration:1.3), dramatic angle,cinematic shot, (picture_level hyper),happy_smile样例4input: 两个小孩划船在海里冒险output: (best quality, masterpiece),2boys, boat, ocean, caustics, wave pointing, happy pirate hat, eyepatch, shark, flintlock, (best quality, masterpiece),仿照以上例子,并不局限于我给你的单词,接下来我再给你一个例子,请你给出一套详细的提示词。直接开始给出提示词即可,不需要有任何其它自然语言描述,也不要有任何中文前缀。input: {input}output:

例如,当我们输入童话故事小红帽中的一段话“从前有个可爱的小姑娘,谁见了都喜欢,但最喜欢她的是她的奶奶,简直是她要什么就给她什么。一次,奶奶送给小姑娘一顶用丝绒做的小红帽,戴在她的头上正好合适。从此,姑娘再也不愿意戴任何别的帽子,于是大家便叫她"小红帽"。”,文心一言给我们生成的提示词是“cute girl, everyone loves her, favorite is her grandma, gives her anything she wants. Once, grandma gives her a red velvet hat, fits perfectly. From then on, girl refuses to wear any other hat, so everyone calls her "Red Hat Girl".”,然后我们其输入到Stable Diffusion中,结合KIDS ILLUSTRATION的LoRA模型,就可以生成下图效果。

🔊 语音交互:孩子的语言,AI的心

作为一款面向儿童制作绘本的应用,需要精心设计用户交互🎨📚。由于客户群体的孩子们大部分处于学前阶段,甚至幼儿园阶段🎂,普遍还没有掌握拼音打字的能力🔠,而付出更多时间和精力去学习拼音打字显然不是我们这款应用该做的事🖥️,因此语音交互对于儿童来说是一个更好的选择🎙️。毕竟,相比于拼音和识字,说话是儿童最先掌握的交互技能🗣️,也是他们与外界交流的主要方式🌍,因此语音交互能够覆盖更低年龄段的儿童👶。语音交互既可以让儿童免去打字的困扰⌨️,也可以让他们能够更加轻松地与应用进行交互,使得阅读和学习的过程变得更加愉快和有趣😊📖。

在语音识别方面,我们采用的是Whisper模型。Whisper是由OpenAI训练并开源的通用语音识别模型,基于Transformer的编码器-解码器结构,在68万小时标注的音频数据上进行了训练,表现出强大的泛化能力,并且是一个多任务模型,可以进行多语言语音识别、语音翻译和语言识别。

import librosa  # librosa库用于音频处理import torch as thfrom zhconv import convert  # zhconv库用于进行简繁转换from transformers import pipelinefrom transformers import WhisperTokenizer  # 用于音频数据的分词from transformers import WhisperFeatureExtractor  # 用于提取音频特征from transformers import WhisperForConditionalGeneration  # Whisper模型的生成器
# 从预训练模型加载Whisper模型,特征提取器和分词器model = WhisperForConditionalGeneration.from_pretrained("openai/whisper-small")feature_extractor = WhisperFeatureExtractor.from_pretrained("openai/whisper-small")tokenizer = WhisperTokenizer.from_pretrained("openai/whisper-small", language="Chinese", task="transcribe")device = "cuda:0" if th.cuda.is_available() else "cpu" # 检查CUDA设备是否可用pipe = pipeline( "automatic-speech-recognition", # 设置为自动语音识别任务 model=model, feature_extractor=feature_extractor, tokenizer=tokenizer, chunk_length_s=30, # 设置音频分块的长度为30秒 device=device, # 设置设备)# 加载音频文件,并将其输入到处理管道speech, _ = librosa.load("asr_test_audio.mp3") # 使用librosa加载音频文件prediction = pipe(speech)["text"] # 使用处理管道进行预测,并取出预测结果中的文本部分print(convert(prediction, "zh-cn")) # 使用zhconv进行简繁转换,并打印结果

在语音合成方面,我们采用的是Sambert-Hifigan模型。Sambert是由阿里达摩院语音实验室设计、训练并开源的TTS模型,基于Parallel结构进行了改良,以预训练BERT语言模型为编码器,解码器使用了PNCA自回归结构,降低了带宽的要求,支持CPU实时合成。

from modelscope.outputs import OutputKeysfrom modelscope.pipelines import pipelinefrom modelscope.utils.constant import Tasks
text = "早上好,今天天气真不错!"model_id = "damo/speech_sambert-hifigan_tts_zhitian_emo_zh-cn_16k"sambert_hifigan_tts = pipeline(task=Tasks.text_to_speech, model=model_id)
output = sambert_hifigan_tts(input=text)wav = output[OutputKeys.OUTPUT_WAV]with open("test_sambert-hifigan_tts.wav", "wb") as f:f.write(wav)

以上,我们探索了AI绘本生成的全过程,还深入理解了背后的技术实现,将它们组合在一起,就可以实现一个端到端的绘本生成流程。🤖🧒

🔮 展望未来:AIGC应用将孩子们的创意无限扩展

接下来,我们其实可以将“漫画家”部署成一个WEB服务,再开发一个前端的网页、APP或小程序,这样就可以24h提供服务了。可以参考下面这张系统架构图

底层分为数据层和模型层,在数据层中,结构化数据存储在MySQL数据库,而非结构化数据例如图像和音频等存储在对象存储服务Minio中,在模型层中,我们需要部署三个模型,分别是通过Stable Diffusion Web UI部分的文生图服务、通过CTranslate2部署的Whisper语音识别服务和通过FastAPI部署的Sambert-HiFiGAN语音合成服务。往上一层是后端服务层,业务逻辑主要通过Django框架以及各种插件实现,功能模块分为用户管理、模型管理、任务队列、绘本管理、后台管理和外部服务。服务层还包括了几个中间件,例如用Redis搭建的缓存、用Nginx搭建的HTTP服务器和Django集成的各种安全校验。再往上一层是通信层,有Django默认的单向HTTP/HTTPS通信协议和用Django Channels现的双向通信协议。最上层是用户层,包括在网页用Vue编写的WEB端、在微信用Uni-APP开发的小程序以及打包的Android安装包。

如何搭建那么一套 AIGC Web 系统呢,更多内容请参考《多模态大模型:算法、应用与微调》一书。

内容简介


    这本书从基础到高级,详细解释了多模态大模型的技术原理,并通过丰富的项目案例展示了实际部署和模型优化的实践过程。不论您是希望应用最新AI大模型的技术人员,还是是对人工智能技术充满好奇的技术爱好者,本书都将为你提供实用的理论指导和深入的系统实践。


福利时间


在本文下方留言,至下周一(9月25日晚22:00)

点赞最高的第1到4名,可获赠书一本


免费图书等你来取!

快快留言+点赞+转发, 你就有会免费获取本书!

OpenCV学堂 专注计算机视觉开发技术分享,技术框架使用,包括OpenCV,Tensorflow,Pytorch教程与案例,相关算法详解,最新CV方向论文,硬核代码干货与代码案例详解!作者在CV工程化方面深度耕耘15年,感谢您的关注!
评论
  • 振动样品磁强计是一种用于测量材料磁性的精密仪器,广泛应用于科研、工业检测等领域。然而,其测量准确度会受到多种因素的影响,下面我们将逐一分析这些因素。一、温度因素温度是影响振动样品磁强计测量准确度的重要因素之一。随着温度的变化,材料的磁性也会发生变化,从而影响测量结果的准确性。因此,在进行磁性测量时,应确保恒温环境,以减少温度波动对测量结果的影响。二、样品制备样品的制备过程同样会影响振动样品磁强计的测量准确度。样品的形状、尺寸和表面处理等因素都会对测量结果产生影响。为了确保测量准确度,应严格按照规
    锦正茂科技 2025-02-28 14:05 134浏览
  • 1,微软下载免费Visual Studio Code2,安装C/C++插件,如果无法直接点击下载, 可以选择手动install from VSIX:ms-vscode.cpptools-1.23.6@win32-x64.vsix3,安装C/C++编译器MniGW (MinGW在 Windows 环境下提供类似于 Unix/Linux 环境下的开发工具,使开发者能够轻松地在 Windows 上编写和编译 C、C++ 等程序.)4,C/C++插件扩展设置中添加Include Path 5,
    黎查 2025-02-28 14:39 141浏览
  • 应用趋势与客户需求,AI PC的未来展望随着人工智能(AI)技术的日益成熟,AI PC(人工智能个人电脑)逐渐成为消费者和企业工作中的重要工具。这类产品集成了最新的AI处理器,如NPU、CPU和GPU,并具备许多智能化功能,为用户带来更高效且直观的操作体验。AI PC的目标是提升工作和日常生活的效率,通过深度学习与自然语言处理等技术,实现更流畅的多任务处理、实时翻译、语音助手、图像生成等功能,满足现代用户对生产力和娱乐的双重需求。随着各行各业对数字转型需求的增长,AI PC也开始在各个领域中显示
    百佳泰测试实验室 2025-02-27 14:08 255浏览
  • Matter 协议,原名 CHIP(Connected Home over IP),是由苹果、谷歌、亚马逊和三星等科技巨头联合ZigBee联盟(现连接标准联盟CSA)共同推出的一套基于IP协议的智能家居连接标准,旨在打破智能家居设备之间的 “语言障碍”,实现真正的互联互通。然而,目标与现实之间总有落差,前期阶段的Matter 协议由于设备支持类型有限、设备生态协同滞后以及设备通信协议割裂等原因,并未能彻底消除智能家居中的“设备孤岛”现象,但随着2025年的到来,这些现象都将得到完美的解决。近期,
    华普微HOPERF 2025-02-27 10:32 214浏览
  •         近日,广电计量在聚焦离子束(FIB)领域编写的专业著作《聚焦离子束:失效分析》正式出版,填补了国内聚焦离子束领域实践性专业书籍的空白,为该领域的技术发展与知识传播提供了重要助力。         随着芯片技术不断发展,芯片的集成度越来越高,结构也日益复杂。这使得传统的失效分析方法面临巨大挑战。FIB技术的出现,为芯片失效分析带来了新的解决方案。它能够在纳米尺度上对芯片进行精确加工和分析。当芯
    广电计量 2025-02-28 09:15 116浏览
  • 一、VSM的基本原理震动样品磁强计(Vibrating Sample Magnetometer,简称VSM)是一种灵敏且高效的磁性测量仪器。其基本工作原理是利用震动样品在探测线圈中引起的变化磁场来产生感应电压,这个感应电压与样品的磁矩成正比。因此,通过测量这个感应电压,我们就能够精确地确定样品的磁矩。在VSM中,被测量的样品通常被固定在一个震动头上,并以一定的频率和振幅震动。这种震动在探测线圈中引起了变化的磁通量,从而产生了一个交流电信号。这个信号的幅度和样品的磁矩有着直接的关系。因此,通过仔细
    锦正茂科技 2025-02-28 13:30 100浏览
  • 构建巨量的驾驶场景时,测试ADAS和AD系统面临着巨大挑战,如传统的实验设计(Design of Experiments, DoE)方法难以有效覆盖识别驾驶边缘场景案例,但这些边缘案例恰恰是进一步提升自动驾驶系统性能的关键。一、传统解决方案:静态DoE标准的DoE方案旨在系统性地探索场景的参数空间,从而确保能够实现完全的测试覆盖范围。但在边缘案例,比如暴露在潜在安全风险的场景或是ADAS系统性能极限场景时,DoE方案通常会失效,让我们看一些常见的DoE方案:1、网格搜索法(Grid)实现原理:将
    康谋 2025-02-27 10:00 253浏览
  • 更多生命体征指标风靡的背后都只有一个原因:更多人将健康排在人生第一顺位!“AGEs,也就是晚期糖基化终末产物,英文名Advanced Glycation End-products,是存在于我们体内的一种代谢产物” 艾迈斯欧司朗亚太区健康监测高级市场经理王亚琴说道,“相信业内的朋友都会有关注,最近该指标的热度很高,它可以用来评估人的生活方式是否健康。”据悉,AGEs是可穿戴健康监测领域的一个“萌新”指标,近来备受关注。如果站在学术角度来理解它,那么AGEs是在非酶促条件下,蛋白质、氨基酸
    艾迈斯欧司朗 2025-02-27 14:50 400浏览
  • 美国加州CEC能效跟DOE能效有什么区别?CEC/DOE是什么关系?美国加州CEC能效跟DOE能效有什么区别?CEC/DOE是什么关系?‌美国加州CEC能效认证与美国DOE能效认证在多个方面存在显著差异‌。认证范围和适用地区‌CEC能效认证‌:仅适用于在加利福尼亚州销售的电器产品。CEC认证的范围包括制冷设备、房间空调、中央空调、便携式空调、加热器、热水器、游泳池加热器、卫浴配件、光源、应急灯具、交通信号模块、灯具、洗碗机、洗衣机、干衣机、烹饪器具、电机和压缩机、变压器、外置电源、消费类电子设备
    张工nx808593 2025-02-27 18:04 120浏览
  • 在2024年的科技征程中,具身智能的发展已成为全球关注的焦点。从实验室到现实应用,这一领域正以前所未有的速度推进,改写着人类与机器的互动边界。这一年,我们见证了具身智能技术的突破与变革,它不仅落地各行各业,带来新的机遇,更在深刻影响着我们的生活方式和思维方式。随着相关技术的飞速发展,具身智能不再仅仅是一个技术概念,更像是一把神奇的钥匙。身后的众多行业,无论愿意与否,都像是被卷入一场伟大变革浪潮中的船只,注定要被这股汹涌的力量重塑航向。01为什么是具身智能?为什么在中国?最近,中国具身智能行业的进
    艾迈斯欧司朗 2025-02-28 15:45 221浏览
  • RGB灯光无法同步?细致的动态光效设定反而成为产品客诉来源!随着科技的进步和消费者需求变化,电脑接口设备单一功能性已无法满足市场需求,因此在产品上增加「动态光效」的形式便应运而生,藉此吸引消费者目光。这种RGB灯光效果,不仅能增强电脑周边产品的视觉吸引力,还能为用户提供个性化的体验,展现独特自我风格。如今,笔记本电脑、键盘、鼠标、鼠标垫、耳机、显示器等多种电脑接口设备多数已配备动态光效。这些设备的灯光效果会随着音乐节奏、游戏情节或使用者的设置而变化。想象一个画面,当一名游戏玩家,按下电源开关,整
    百佳泰测试实验室 2025-02-27 14:15 138浏览
  • 请移步 gitee 仓库 https://gitee.com/Newcapec_cn/LiteOS-M_V5.0.2-Release_STM32F103_CubeMX/blob/main/Docs/%E5%9F%BA%E4%BA%8ESTM32F103RCT6%E7%A7%BB%E6%A4%8DLiteOS-M-V5.0.2-Release.md基于STM32F103RCT6移植LiteOS-M-V5.0.2-Release下载源码kernel_liteos_m: OpenHarmon
    逮到一只程序猿 2025-02-27 08:56 198浏览
  •           近日受某专业机构邀请,参加了官方举办的《广东省科技创新条例》宣讲会。在与会之前,作为一名技术工作者一直认为技术的法例都是保密和侵权方面的,而潜意识中感觉法律有束缚创新工作的进行可能。通过一个上午学习新法,对广东省的科技创新有了新的认识。广东是改革的前沿阵地,是科技创新的沃土,企业是创新的主要个体。《广东省科技创新条例》是广东省为促进科技创新、推动高质量发展而制定的地方性法规,主要内容包括: 总则:明确立法目
    广州铁金刚 2025-02-28 10:14 103浏览
  • 在物联网领域中,无线射频技术作为设备间通信的核心手段,已深度渗透工业自动化、智慧城市及智能家居等多元场景。然而,随着物联网设备接入规模的不断扩大,如何降低运维成本,提升通信数据的传输速度和响应时间,实现更广泛、更稳定的覆盖已成为当前亟待解决的系统性难题。SoC无线收发模块-RFM25A12在此背景下,华普微创新推出了一款高性能、远距离与高性价比的Sub-GHz无线SoC收发模块RFM25A12,旨在提升射频性能以满足行业中日益增长与复杂的设备互联需求。值得一提的是,RFM25A12还支持Wi-S
    华普微HOPERF 2025-02-28 09:06 145浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦