在成人影片里做17种姿势识别?大佬在线求助:训练集不够用!

OpenCV学堂 2022-07-05 22:30



点击上方↑↑↑OpenCV学堂”关注我

来源:公众号 新智元 授权


【导读】有大佬最近在成人影片中做姿态识别的任务,发帖表示训练集不够用。立刻得到热心网友响应:我赞助140TB数据!

兄弟们又来学技术啦!

 

今天讲的是人体动作识别(Human Action Recognition),也就是通过模型识别出图片、视频中的人体动作姿势。

 

最近Reddit的一个网友突发奇想,如果把模型用在成人内容领域,那一定可以大大增加色情视频的鉴别和搜索的准确度。

 

 

据作者称,他建立的深度学习模型以图像RGB、骨架(Skeleton)和音频作为输入,对视频中的演员姿势识别准确度已经可以达到75%了。

 

 

不过并非只是模型的简单迁移,训练过程也遇到了一些技术上的难关,主要是因为摄像机位置在视频中经常会变换。

 

小编根据网友的描述推测,拍摄成人电影的摄像机可能是没有固定机位或机位变换次数多,而人体动作识别的模型通常应用于监控视频等有固定位置的摄像机。

 

作者还表示,训练数据集相对较小也是一个问题,他只有大约44小时的训练数据,并且影片中的人物位置通常距离很近,所以大多数视频很难得到准确的姿势估计,也就没有办法将所有的位置纳入基于skeleton的模型中。

 

一个比较新奇的发现是,输入流中的音频信号,对于4个action的分类是有提升效果的,不过也只是对某些action有用。

 

 

帖子一出,也是获得了技术大咖们的一致点赞。

 

 

一切都是为了科学!

 

 

不过网友们也立刻明白了作者的核心诉求:求资源!

 

有网友表示,你要么能得到海量的资源支持,或者一点也拿不到。

 

 

也有人表示他曾经也做过类似的项目,他遇到的问题主要是高度嘈杂的场景和非常不稳定的摄像机。真正困难的场景是有3个以上演员参与的场景,会让实体的区分会变得很困难。


并且他表示对2人以上的sex position没有概念,所以看到这个模型如此容易地达到这么高的准确率,感觉有点受挫,想看看楼主是怎么实现的。

 

最慷慨的网友当场表示,我愿意赞助数据集!视频大小140.6TB,时长达到11年6个月,包括6416位表演艺术家,还有46.5GB的图片。

 

 

有网友跟着评论,替自己搞科研的朋友同求资源。

 

 

至于这项研究有什么意义,网友表示应用前景可大了!以后在资源网站上检索,可以按照指定的position对视频进行过滤,而不只是传统的标签、标题、类别等等。

 

 

正经的科学

 

原作者公开了源代码,表示他的目的是看看最先进的人类动作识别(HAR)模型在色情领域的表现如何。

 

代码链接:https://github.com/rlleshi/phar

 

HAR是深度学习领域中一个相对较新的、活跃的研究领域,其目标是从各种输入流(如视频或传感器)中识别人类行为。

 

从技术角度看,色情领域很有趣,因为它有一些与众不同的难点,如光线变化、遮挡以及不同摄像机角度和拍摄技术的巨大变化(POV、专业摄像师)使得位置与动作识别变得困难。两个相同的位置与动作,可能存在多个不同的相机视角拍摄,从而完全混淆了模型的预测。

 

作者收集到的数据集非常多样,包括各种录音,如POV、专业拍摄的、业余的、有无专门摄像人员的等等,还包括各种环境、人和摄像机的角度。

 

作者也表示,如果只使用专业团队拍摄的影片,这个问题可能不会特别严重。

 

根据收集到的数据集,作者总结了17个动作的识别,如亲吻等,不过动作的定义可能是不全面的,也可能有概念上的重叠。

 

其中作者把抚触把玩(fondling)当作一个占位符,没有其他动作类别检测到的时候,就将其视为抚触把玩,不过作者在标注数据过程中发现,44小时的影片数据中只得到了48分钟的抚触把玩数据。

 

 

项目的实现基于MMAction2,它是一个基于PyTorch的视频理解开源工具箱,可以对人体的骨架动作进行识别等。

 

 

取得SOTA结果的模型是通过基于三个输入流的三个模型的后期集成得到的。

 

与只使用基于RGB的模型相比,可以取得明显的性能改进。由于可能不止一个动作可能同时发,并且一些动作/位置在概念上是重叠的,所以评价标准以前两名的预测准确性作为性能度量。

 

目前多模态模型的准确率为~75%。但由于数据集相当小,总共只进行了约50次实验,因此有很大的改进空间。

 

首先介绍一下在性能和运行时间上都表现最好的多模态(Rgb + 骨架 + 音频)模型。

 

作者对视频RGB流使用TimeSformer,对骨架流使用poseC3D,以及用于音频流的resnet101。

 

这些模型的结果通过集成在一起,因为这些模型的重要性不同,所以微调后的权重是分别是0.5, 0.6和1.0

 

 

另一种方法是一次用两个输入流训练一个模型(即rgb+skeleton和rgb+audio),然后将它们的结果集成起来。

 

但在实际上,这个操作是不可行的。

 

因为如果模型的输入包含音频输入流,它只能对某些动作,比如deepthroat由于咽喉反射导致音调比较高,而对于其他动作,则不可能从其音频中获得任何的有效特征,从音频的角度来看,他们是完全相同的。

 

同样,基于骨架的模型只能用于那些姿势估计准确度高于某个置信度阈值的情况(对于这些实验,所用的阈值是0.4)。

 

例如,对于scoop-up或the-snake等高难度稀有动作,由于画面中人体位置比较接近,在大多数相机角度下很难得到准确的姿势估计(姿势变得模糊,混合在了一起),会对HAR模型的准确性产生了负面的影响。

 

对于诸如 doggy, cowgirl或missionary等普通动作来说,姿势估计的效果都不错,可以用于训练一个HAR模型。

 

如果我们有一个更大的数据集,那么我们可能会有足够多的难分类姿势的实例,再用基于骨架的模型训练所有的17个动作。

 

根据目前的SOTA文献,基于骨架的模型优于基于RGB的模型。当然,理想情况下,姿势估计模型也应该在sex domain中进行微调,以获得更好的整体姿势估计。

 

对于RGB输入流,基于注意力的TimeSformer架构实现了3D RGB模型的最佳结果,推理速度也非常快(~0.53s/7s clips)。

 

 

RGB模式总共有~1.76万个训练片段和~4900个评价片段,并应用了各种数据增强技术,如重新缩放、裁剪、翻转、颜色反转、高斯模糊、弹性变换、仿生变换等。

 

基于骨架模型的最佳结果是由基于CNN的PoseC3D架构实现的,模型的推理速度也很快(~3.3s/7s clips)。

 

 

姿势数据集比原始的RGB数据集要小得多,只有33%的帧的置信度高于0.4,所以最终测试集只有815个片段,且目标类别仅为6个。

 

 

基于语音的模型使用了一个简单的ResNet 101,jiyu Audiovisual SlowFast,推理速度非常快(0.05s/7s clips)。

 

 

对语音的预处理为从数据集中剪掉不够响亮的音频。通过修剪最安静的20%的音频,取得了最佳效果。总共有大约5.9万个训练片段和1.5万个验证片段。


参考资料:

https://www.reddit.com/r/MachineLearning/comments/va0p9u/p_r_deep_learning_classifier_for_sex_positions/


OpenCV学堂 专注计算机视觉开发技术分享,技术框架使用,包括OpenCV,Tensorflow,Pytorch教程与案例,相关算法详解,最新CV方向论文,硬核代码干货与代码案例详解!作者在CV工程化方面深度耕耘15年,感谢您的关注!
评论 (0)
  •   电磁干扰抑制系统平台深度解析   一、系统概述   北京华盛恒辉电磁干扰抑制系统在电子技术快速发展、电磁环境愈发复杂的背景下,电磁干扰(EMI)严重影响电子设备性能、稳定性与安全性。电磁干扰抑制系统平台作为综合性解决方案,通过整合多元技术手段,实现对电磁干扰的高效抑制,确保电子设备稳定运行。   应用案例   目前,已有多个电磁干扰抑制系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润电磁干扰抑制系统。这些成功案例为电磁干扰抑制系统的推广和应用提供了有力支持。   二
    华盛恒辉l58ll334744 2025-04-22 15:27 127浏览
  • 据国际精益六西格玛研究所(ILSSI)成员大卫·哈钦斯(David Hutchins)的回忆,在“六西格玛”名称出现前,摩托罗拉组建了约100个质量改进团队,接受朱兰博士制作的16盘录像带培训,名为《朱兰论质量改进》(Juran on Quality Improvement),为了推广这种严谨的分析方法(朱兰博士视频中的核心内容),摩托罗拉前首席执行官鲍勃·加尔文创造了“六西格玛”这一标签,用以表彰这种“最顶尖"的方法。大卫·哈钦斯(David Hutchins)是朱兰博士的好友,也为他的工作做
    优思学院 2025-04-22 12:03 93浏览
  •   电磁兼容故障诊断系统平台深度解析   北京华盛恒辉电磁兼容(EMC)故障诊断系统平台是解决电子设备在复杂电磁环境下性能异常的核心工具。随着电子设备集成度提升与电磁环境复杂化,EMC 问题直接影响设备可靠性与安全性。以下从平台架构、核心功能、技术实现、应用场景及发展趋势展开全面剖析。   应用案例   目前,已有多个电磁兼容故障诊断系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润电磁兼容故障诊断系统。这些成功案例为电磁兼容故障诊断系统的推广和应用提供了有力支持。  
    华盛恒辉l58ll334744 2025-04-22 14:29 124浏览
  • 4 月 19 日,“增长无界・智领未来” 第十六届牛商大会暨电子商务十大牛商成果报告会在深圳凤凰大厦盛大举行。河南业之峰科技股份有限公司总经理段利强——誉峰变频器强哥凭借在变频器领域的卓越成就,荣膺第十六届电子商务十大牛商,携誉峰变频器品牌惊艳亮相,以十几年如一日的深耕与创新,书写着行业传奇。图 1:誉峰变频器强哥在牛商大会领奖现场,荣耀时刻定格牛商大会现场,誉峰变频器强哥接受了多家媒体的专访。面对镜头,他从容分享了自己在变频器行业二十年的奋斗历程与心路感悟。谈及全域营销战略的成功,誉峰变频器强
    电子与消费 2025-04-22 13:22 118浏览
  • 引言:老龄化社会的健康守护需求随着全球老龄化进程加速,老年人的健康管理与生活质量成为社会焦点。记忆衰退、用药混乱、日程遗漏等问题频发,催生了智能健康设备的市场需求。WTR096录音语音芯片,凭借其高度集成的录放音、计时时钟与计划管理功能,为老年人量身打造了一站式健康管理方案,重新定义智能语音时钟的价值。功能亮点:1. 用药安全守护:多维度提醒,拒绝遗忘多时段精准提醒:支持一天内设置多个用药时间(如早、中、晚),适配复杂用药需求。个性化语音定制:家属可录制专属提醒语音(如“上午9点,请服用降压药”
    广州唯创电子 2025-04-22 08:41 107浏览
  •   北京华盛恒辉基于GIS的电磁态势可视化系统软件是将地理空间信息与电磁态势数据相结合,通过图形化手段直观展示电磁环境态势的系统。这类软件在军事、通信、无线电管理等领域具有广泛应用,能够辅助用户进行电磁频谱分析、干扰监测、态势研判和决策支持。以下是关于此类系统的详细介绍:   应用案例   目前,已有多个电磁态势可视化系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润电磁态势可视化系统。这些成功案例为电磁态势可视化系统的推广和应用提供了有力支持。   一、系统功能   电磁
    华盛恒辉l58ll334744 2025-04-22 11:44 90浏览
  • 近期,金融界消息称,江西万年芯微电子有限公司申请一项名为“基于预真空腔体注塑的芯片塑封方法及芯片”的专利。此项创新工艺的申请,标志着万年芯在高端芯片封装领域取得重要突破,为半导体产业链提升注入了新动能。专利摘要显示,本发明公开了一种基于预真空腔体注塑的芯片塑封方法,方法包括将待塑封的大尺寸芯片平铺于下模盒腔体内的基板并将大尺寸芯片的背向表面直接放置于基板上以进行基板吸附;将上模盒盖合于下模盒形成塑封腔,根据基板将塑封腔分为上型腔以及下型腔;将下型腔内壁与大尺寸芯片间的空隙进行树脂填充;通过设置于
    万年芯 2025-04-22 13:28 82浏览
  •   北京华盛恒辉机场保障能力评估系统软件深度解析   在航空运输业快速发展的背景下,机场保障任务愈发复杂,传统人工评估方式已无法满足高效精准的管理需求。机场保障能力评估系统软件作为提升机场运行效率、保障飞行安全的关键工具,其重要性日益凸显。   应用案例   目前,已有多个机场保障能力评估系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润机场保障能力评估系统。这些成功案例为机场保障能力评估系统的推广和应用提供了有力支持。   一、系统功能模块   数据采集与整合模块  
    华盛恒辉l58ll334744 2025-04-22 10:28 116浏览
  • 引言:工业安全与智能化需求的双重驱动在工业安全、环境保护及家庭安防领域,气体泄漏引发的安全事故始终是重大隐患。随着传感器技术、物联网及语音交互的快速发展,气体检测报警器正朝着智能化、低成本、高可靠的方向演进。WT588F02B-8S语音芯片,以“离在线语音更换+多协议通信”为核心优势,为气体检测报警器提供了一套高效、灵活的低成本语音解决方案,助力开发者快速响应市场需求。产品功能与市场需求1. 核心功能:从监测到预警的全流程覆盖实时气体监测:支持一氧化碳、臭氧、硫化氢等多种气体浓度检测,精度可达p
    广州唯创电子 2025-04-22 09:14 89浏览
  •   电磁兼容(EMC)故障诊断系统软件解析   北京华盛恒辉电磁兼容故障诊断系统软件是攻克电子设备电磁干扰难题的专业利器。在电子设备复杂度攀升、电磁兼容问题频发的背景下,该软件于研发、测试、生产全流程中占据关键地位。以下为其详细介绍:   应用案例   目前,已有多个电磁兼容故障诊断系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润电磁兼容故障诊断系统。这些成功案例为电磁兼容故障诊断系统的推广和应用提供了有力支持。   一、软件核心功能   干扰与敏感分析:深度剖析电磁干
    华盛恒辉l58ll334744 2025-04-22 14:53 111浏览
  •   卫星通信效能评估系统平台全面解析   北京华盛恒辉卫星通信效能评估系统平台是衡量卫星通信系统性能、优化资源配置、保障通信服务质量的关键技术工具。随着卫星通信技术的快速发展,特别是低轨卫星星座、高通量卫星和软件定义卫星的广泛应用,效能评估系统平台的重要性日益凸显。以下从技术架构、评估指标、关键技术、应用场景及发展趋势五个维度进行全面解析。   应用案例   目前,已有多个卫星通信效能评估系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润卫星通信效能评估系统。这些成功案例为卫
    华盛恒辉l58ll334744 2025-04-22 16:34 96浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦