大模型主导的生成式AI,尤其是GPT-4的发布,让人类社会看到了通用人工智能时代的曙光。这意味着,经过“大工业化”的高效预训练后,具备了强大的泛化能力,能够在众多领域像人类一样进行思考、解决问题,并进行持续、快速的自我进化,大模型主导的生成式AI,将拥有极为广阔的应用前景,有望赋能千行百业。未来,每个行业都将再进行一次智能化改造!
在政策层面,中央首次提到通用人工智能,为AIGC产业的发展提供了积极政策环境。
技术层面,作为AIGC生态的核心,大模型本身可根据可交互对象分成文本、音频、图像、视频等不同模态以及跨模态,更多的模态,则意味着更多的交互和应用场景组合。我国AIGC产业目前尚处于发展初期,各模态技术发展进度不尽相同。目前,以文本生成、音频生成应用相对广泛。
当前,在应用层面,纵向看,在垂直应用方向上,传媒、教育、营销、客服、数字人等数字化程度更高、容错率相对较高的领域先行先试;横向看,在价值链角度,主要集中于技术尝鲜、组织内部的提效降本,下一步将朝着终端用户侧的价值创造及传递场景展开。
在此背景下,为了帮助各行业了解生成式AI落地过程中遇到的难点与挑战,以及当前的优质厂商,2023年6月15日,爱分析正式发布《2023爱分析·生成式AI应用实践报告》。
报告关键发现
报告典型案例
灵伴智能:呱呱有声AIGC长音频内容生产平台实践案例
容联云&国内某知名车企:新一代数智化客户联络体验中心案例
01
报告综述
图1:AIGC市场全景地图
图2:AIGC落地需求分解
02
图3:国内的长音频数字内容生产发展历程示意
某长音频工作室(以下简称“该工作室”),于2017年前后进入有声书行业,凭借创始人作为配音演员的富有感染力的表演、高水平的编剧和精心地制作迅速走红,打造出一个有声书领域的知名IP。在国内某大型音频内容平台上,该工作室拥有近百万听众,同时拥有数千名私域铁杆粉丝。该工作室通过购买或合作方式获取小说版权内容,改编并录制成有声读物,通过对外分发、展播获取收入。
发展初期,该工作室以创始人为核心,由创始人任总导演,饰演主角及旁白,组建了一个小型制作团队,由该团队负责项目策划、剧本编辑、后期制作、审听校对,以及剧组统筹协调,同时通过与全国范围内大量兼职配音演员合作,进行版权内容的录音与制作。得益于对内容的精准选品以及精益求精的改编制作,叠加近年来我国有声书市场每年30%+的高速增长,该工作室乘风而起,一鸣惊人,部分作品在某大型音频内容平台上播放量甚至破亿。
初尝胜利喜悦后,该工作室迅速加大投资,购买了大量版权内容。鉴于自有团队产能有限,因此,除少部分内容由自有团队制作外,该工作室将其余大部分版权内容通过版权合作模式委托其他工作室进行有声书改编制作。但由于合作方水平参差不齐、品控不足等因素,大部分版权内容的投资难以达到预期收入水平。
经过复盘,该工作室发现,自有团队在垂直领域业务经验和对制作过程的精细管理,对高质量作品的生产非常重要,然而采用传统的“手工作坊式”的生产模式的自有团队,很难快速实现团队人员产能的规模化,其主要痛点在于:
1. 制作工序多:有声作品制作分为剧本改编、导演选角、演员录音、音频对轨、后期制作及质检审听等6个步骤。在传统模式下,各步骤顺序进行,无法并行提速,在任何步骤都可能发现之前步骤中的问题并返工修改;
2. 参与角色多:一个多人播讲有声剧的剧组一般包括导演(1)、编辑(1)、配音演员(20+)、对轨(1+)、后期制作(1)、审听(1+)、财务(1)等共二十余人。其中多数人员通过互联网在异地兼职;
3. 信息传递难:传统模式下,上述二十余人通过QQ群沟通任务安排和工作进展,利用文本文件传递作品内容,通过网盘传递音频数据,靠人力管理剧组工作进度;
4. 生产周期长:旁白是有声剧中的主要角色,其录音时长占整部作品的6-7成,然而,一个旁白配音演员每天只能产出2-3小时的音频内容,这导致长篇作品的录音工作常常持续一年左右,大部分其他环节的进度均受旁白录音进度制约。此外,在导演选角环节,导演须亲自阅读小说内容并人为梳理出作品中所有角色及角色对应特点,才能根据角色特点选择合适的配音演员,而长篇作品的文字内容常常超过200万字,导演的阅读总结工作量巨大,严重阻碍后续工作展开;
5. 管理难度大:由于工序多而复杂,同时缺乏制作流程的数字化和可视化,剧组管理全凭主观感觉和经验。加之人员多而分散,在超长的生产周期中常出现团队成员拖延任务、离职等意外情况,项目进度常常难以把控,人员工资计算纠纷多;
6. 质量不可控:由于内容生产依赖人工经验,生产过程缺乏统一的技术标准和平台支撑,该工作室难以通过优化管理实现高效稳定的内容规模化生产。
针对以上业务痛点,该工作室希望通过技术手段寻求突破。在所有痛点中,该工作室首先考虑解决作为配音演员的创始人的个人产能问题。该创始人的个人音色和播讲风格是其粉丝认同的核心,因此,该工作室希望通过高拟真的语音合成(TTS)技术实现该创始人的个人TTS模型定制,并利用TTS实现高效高质量的旁白播讲,将该创始人的时间精力从旁白播讲中释放出来,从而更好地投入到主角的表演以及工作室人员的培训和管理中。为实现上述目标,该工作室开始在主流语音合成技术提供商中进行选型,考察范围包括老牌厂商、各大互联网公司以及灵伴智能。
灵伴智能(即北京灵伴即时智能科技有限公司)是一家专注于人工智能基础技术研发以及智能技术产业落地的公司。公司核心智能技术包括语音合成、语音识别、语言理解等。基于其领先的语音合成技术,灵伴智能推出了长音频制作领域首个深度融合AI技术的数字内容生产开放平台——呱呱有声。
呱呱有声利用智能技术彻底重构有声书制作流程,突破了传统剧组面临的多种效率瓶颈,实现数倍的颠覆性生产效率提升。呱呱有声以AI旁白+真人对白的形式,在保证产品质量的前提下,将传统剧组平均1本书1年的制作周期降低到1个月;在画本、录制、后期、审听阶段,引入智能语音、语言理解等AI技术,大幅降低使用门槛,提高制作效率。呱呱有声平台广泛赋能了众多音频内容平台、小说阅读平台以及有声制作工作室。
鉴于此,该工作室在对长音频数字内容服务商进行选型考察时,在充分考虑长音频数字内容行业Know-How、AI技术自主与先进性、SaaS产品成熟度与易用性等多种因素后,最终选择灵伴智能作为本次项目的合作伙伴。
二、领先技术+深厚行业Know-How,灵伴智能助力该工作室完成蜕变升级
随着该工作室的核心诉求的演进,在灵伴智能的协助与配合下,双方整体按照“工具导入-整体方案导入”两个阶段展开合作。
该工作室创始人与灵伴智能有过多次研讨及前期的业务调研与沟通。在双方合作早期,鉴于其核心诉求是定制音色,灵伴智能通过领先的自研TTS技术,为该工作室创始人打造了一个拟真度很高,并且具有丰富的情感表现力的合成声音,以提升其音频内容产出效率。
随着双方沟通、合作的深入,该工作室经过一段时间的探索后发现,单纯引入TTS工具,无法从根本上解决其规模化过程中遇到的生产效率瓶颈、管理问题和产品质量问题。因此,在灵伴智能的建议下,该工作室进一步拥抱呱呱有声开放平台提供的智能化人机结合生产模式,彻底放弃传统生产模式,从“作坊式”生产走向“工厂式”生产,极大提升了数字内容产出效能,极大降低了成本,有效控制了版权内容经营风险,取得了出色的项目成效。
具体过程如下:
阶段一:单点工具导入
在传统内容制作模式下,由于作为配音演员的创始人自身配音工作产出有限,该工作室每年最多完成5部长篇作品的改编制作。该工作室通过分析,决定抓住“旁白”这一占用创始人配音工作时间最多的卡点,希望通过AI技术,让机器人模仿创始人的音色和风格,代替创始人配音,释放创始人的时间和精力,让创始人可以分配更多的时间给重要角色进行配音,以及进行工作室人员的培训和管理,从而拉高工作室整体产能。
灵伴智能运用自身成熟的TTS技术,结合该工作室创始人对旁白音色的具体需求,基于自身独创的语音建模体系、高自然度的韵律模型和音色学习方法,仅通过该工作室提供的少量样本语料库进行训练,便快速为该工作室定制出了优质的合成声音。
该工作室创始人认为定制的合成声音十分自然流畅,贴近该创始人真人发音,语气、语调、情感等方面也十分出众,超出了自身的心理预期。其后,该工作室迅速利用灵伴智能提供的技术平台,用定制的AI声音进行旁白的演绎配音,在保证旁白效果的前提下,大幅提升了配音环节的作业效率。
这一过程中,虽然灵伴智能也全面介绍了呱呱有声数字内容生产开放平台,但由于该工作室初期需求明确而直接,因此并未完全理解和接受呱呱有声数字内容生产开放平台的核心价值。
阶段二:整体方案导入
在传统模式下,当旁白配音环节产能拉高后,一方面并行开展工作的剧组数量增加,工作室管理与合作的人数大幅增加,另一方面剧组内部的工作节奏也大幅加快。这两方面的变化导致传统模式的劣势快速凸显,工作室创始人明显感觉到管理难度和人员成本的提升带来的新瓶颈,工作室整体产能并未能像预想中一样和旁白产能同比例提高。经过大概2-3个月的探索与磨合,在灵伴智能持续的深度服务与沟通下,该工作室终于意识到,先进生产力工具与传统作业方式不匹配,才是当前阶段的问题关键。
于是,该工作室创始人带领团队再次赴灵伴智能的数字内容生产工作环境进行实地考察。当时灵伴智能已经依托呱呱有声数字内容生产开放平台建立了按照全新人机结合模式运作的、成熟的自营导演团队,团队年产能超过100部长篇作品。通过现场观摩灵伴智能自营导演团队的工作方法,以及多次深入的技术和业务交流,该工作室创始人最终完全理解了新模式的价值,决定将制作业务全部切换到呱呱有声数字内容生产开放平台。这一切换过程主要包括以下步骤:“全员培训-流程切换-陪跑优化”。
1. 全员培训。灵伴智能自营导演团队拥有非常丰富的行业经验,已经运用自身呱呱有声数字内容生产开放平台产出了大量内容,且已发布至国内知名的大型音频内容平台。在成长过程中,灵伴智能自营导演团队开展了大量的新员工和兼职合作人员培训,积累了非常丰富的业务培训经验,具备系统的客户培训能力,也形成了完备的培训课程体系。
1) 技术培训:由灵伴智能产品研发团队对该工作室进行呱呱有声数字内容生产开放平台的具体功能使用培训,用时约半天。
2) 业务培训:由灵伴智能自营导演团队以及商务销售团队,结合灵伴智能自身数字内容生产与内容运营过程积累的经验,对该工作室进行智能化时代长音频数字内容行业新玩法的全面培训。例如,在新模式下团队人员的组织结构应当如何调整、如何基于呱呱有声平台实现自有团队和外部兼职团队之间的高效协作、如何利用平台提供的业务数据分析和可视化功能实现精细化的项目进度管理和财务管理以及在更高的整体产能下,如何调整各流量平台的合作玩法及运营策略等。
3) 管理辅导:由灵伴智能的创始人团队结合自身的行业洞察、行业经验,与该工作室的创始人进行深度沟通,帮助其进一步梳理清楚战略定位、经营策略,并且对业务切换到呱呱有声数字内容生产开放平台后的工作室产能、成本、利润建立基本的预测模型。
2. 业务切换。经过业务培训后,在灵伴智能团队辅助下,该工作室逐步将制作业务切换到基于呱呱有声数字内容生产开放平台的智能化生产流程上。
1) 业务流程切换:由灵伴智能自营导演团队以及商务销售团队负责,详细梳理原有业务流程和新业务流程的区别,给出详细的业务流程切换方案,同时辅助该工作室重构人员组织结构,对于暂时紧缺的新业务角色,采用灵伴智能自营团队已有良好合作的外部兼职人员及时补充,使得该工作室可以快速切换到新的业务流程。
2) 数据切换:由灵伴智能技术团队负责,与该工作室一道,将该工作室常用的素材、现有在产的内容数据上传并同步到对应功能模块,从而实现工作平台的平稳、完整切换。
3) 后台辅助功能切换:由灵伴智能技术团队负责,协助该工作室将现有自有配音演员、合作配音演员的工作时长、结算标准、已结算情况等财务数据以及该工作室自有人员、兼职配音演员的基本信息等财务与人力后台数据进行上传和功能切换。
3. 陪跑优化。灵伴智能团队将各环节及整体的最优人员配比、月产能等模型和经验数据分享给该工作室后,对该工作室针对新模式的应用、运营进行持续的跟进、陪跑。同时,该工作室结合当地的人才供给、人员成本实际情况进行业务模型优化,灵伴智能团队提供相应的建议,协助该工作室在当地跑通整个新模式。
三、全流程多角色实时在线协作,AI技术赋能内容高效生成,该工作室快速进入稳定运营状态
灵伴智能帮助该工作室重塑了整个业务流程,以“AI+生产模式”的系统升级,颠覆了传统版权内容的数字化制作过程,激活了该工作室的产能,使得生产过程标准化、平台化,可以实现长音频内容的高效生成,大幅降低了运营风险。该工作室经过一段时间的运作,规模已由最初的几个人,扩张至几十人并持续稳定运营。
1. 在新技术、新模式之下,该工作室不仅可以基于呱呱有声数字内容生产开放平台这个SaaS产品,实现全流程、多角色在同一平台上的在线高效协作,还可以让主播与导演在线实时沟通对戏;
2. 该工作室通过AI技术,可智能判断版权内容并生成角色列表及角色关系,智能生成旁白并内置相关音效或给出后期音乐及音效使用建议,大幅缩短了后期制作时间;同时,还可利用AI技术,进行智能审听;
3. 最后,基于协作过程数据,进行智能可视化分析,让该工作室的导演对剧情、各参与方工作量与工作进度、效率情况一目了然,便于强化对内管理、快捷计算人工成本。此外,呱呱有声数字内容生产开放平台还纳入了各大平台播放与订阅数据、舆情数据,可为该工作室提供运营决策参考。
未来,灵伴智能基于呱呱有声数字内容生产开放平台的出色体验,有望赋能更多的长音频数字内容生产者,构建起一个大型音频内容平台和长音频数字内容生态,可提供多版本、个性化的长音频数字内容,为终端消费者提供更优质、更多元的数字内容体验。
03
图9:国内客户联络中心发展的主要节点回顾
图10:国内客户联络中心演变逻辑维度示意
图11:该车企的主要需求痛点
图12:智能联络中心系统架构示意
图13:该车企智能联络中心项目合作步骤示意
图14:容联云项目管理及质量控制机制示意
图15:该车企客户联络中心项目实施与集成阶段主要工作示意
图16:容联云智能服务核心能力示意
04
创作团队
爱分析合伙人&首席分析师
特别鸣谢 (按拼音排序)
注:点击左下角“阅读原文”,下载完整版《2023爱分析・生成式AI应用实践报告》。