使用Caffe模型+DPU进行实时人脸检测:Vitis-AI3.0的非官方支持流程

FPGA开发圈 2024-06-14 12:04

作者:Shaoyi Chen,AMD工程师;来源:AMD开发者社区

近年来,深度学习框架的快速发展使得人工智能应用领域取得了巨大的进步。其中,Caffe框架以其简单易用、高效快速的特点受到了广泛关注和应用。然而,随着Vitis-AI 2.0的推出,Caffe框架的支持也宣告结束,这引起了许多开发者的关注和讨论。

Caffe框架的简介

首先,让我们简要介绍一下Caffe框架。Caffe是由伯克利视觉与学习中心(Berkeley Vision and Learning Center)开发的一个深度学习框架,以其速度快、配置简单、易于扩展等特点而广受欢迎。其采用了C++语言编写,支持命令行界面和Python接口,使得用户可以轻松地定义、训练和部署各种深度学习模型。

Vitis-AI 2.0之后对Caffe的支持终止

然而,随着Xilinx推出Vitis-AI 2.0,Caffe框架的支持也随之终止。这一决定引起了广泛的讨论和反响。一些开发者表示担忧,担心他们之前基于Caffe框架开发的项目将受到影响,而另一些人则认为这是迈向更先进、更高效的深度学习框架的必然选择。

Model Zoo中的训练好的模型

尽管Caffe框架的支持终止了,但在其官方的Model Zoo中仍然存在大量经过训练的模型,涵盖了各种各样的应用场景,如图像分类、目标检测、语义分割等。这些预训练的模型可以为开发者提供便利,节省大量的训练时间和资源,使得他们能够更快地搭建和部署深度学习模型。

Vitis-AI 3.0对Caffe模型的非官方支持

尽管在Vitis-AI 3.0中官方已经不再支持Caffe框架,但开发者仍然可以继续使用这些Caffe模型。虽然这并不是官方支持的流程,但通过一些额外的工作,开发者仍然可以成功地在Vitis-AI 3.0中调用和部署这些模型。

通过人脸检测实验展示如何调用Caffe模型

为了更具体地展示如何在Vitis-AI 3.0中调用Caffe模型,我们将进行一个简单的人脸检测实验。首先,我们需要选择一个合适的Caffe模型,如densebox320人脸检测模型。然后,我们需要将该模型转换成Vitis-AI 3.0支持的格式,并对其进行部署和调用。最后,我们可以通过USB摄像头输入一张人脸图像,观察模型的输出结果,验证其在人脸检测任务上的性能和准确性。

在代码中我们创建DPU runner,从摄像头读取图像并用DPU进行推理计算,然后进行后处理,并通过X11转发画面。

def detect():    resolution = 4    threshold = 0.9    nms_threshold = 0.3       g = xir.Graph.deserialize("../densebox320/densebox320.xmodel")    subgraphs = get_child_subgraph_dpu(g)    assert len(subgraphs) == 1  # only one DPU kernel       dpu_runner = vart.Runner.create_runner(subgraphs[0], "run")    camera = cv2.VideoCapture(0)    width = 640    height = 360    camera.set(cv2.CAP_PROP_FRAME_WIDTH,width)    camera.set(cv2.CAP_PROP_FRAME_HEIGHT,height)    while True:        (grabbed, image_ori) = camera.read()        imagePad = padProcess(image_ori)        image = cv2.resize(imagePad,(32*int(320/32), 32*int(320/32)), interpolation = cv2.INTER_CUBIC)        szs = (float(imagePad.shape[0])/float(image.shape[0]), float(imagePad.shape[1])/float(image.shape[1]))        sz = image.shape        image = image.astype(np.float)        image = image - 128        # image = np.transpose(image, (2, 0, 1))        output = rundensebox(image, dpu_runner)        # generate result        prob = output[1][0, ..., 1]        bb = output[0][0, ...]        bb = np.transpose(bb, (2, 0, 1))        gy = np.arange(0, sz[0], resolution)        gx = np.arange(0, sz[1], resolution)        [x, y] = np.meshgrid(gx, gy)        bb[0, :, :] = bb[0, :, :] + x        bb[0, :, :] = bb[0, :, :] * szs[1]        bb[1, :, :] = bb[1, :, :] + y        bb[1, :, :] = bb[1, :, :] * szs[0]        bb[2, :, :] = bb[2, :, :] + x        bb[2, :, :] = bb[2, :, :] * szs[1]        bb[3, :, :] = bb[3, :, :] + y        bb[3, :, :] = bb[3, :, :] * szs[0]        bb = np.reshape(bb, (4, -1)).T        prob = np.reshape(prob, (-1, 1))        bb = bb[prob.ravel() > threshold, :]        prob = prob[prob.ravel() > threshold, :]        # nms        rects = np.hstack((bb, prob))        keep = nms(rects, nms_threshold)        rects = rects[keep, :]        # write result to file        for rect in rects:            cv2.rectangle(image_ori,(int(rect[0]),int(rect[1])),(int(rect[2]),int(rect[3])),(0,255,0),3)        cv2.imshow("img", image_ori)    camera.release()    cv2.destroyAllWindows()

DPU的调用由rundensebox来执行。

def rundensebox(img, dpu_runner):    """get tensor"""    inputTensors = dpu_runner.get_input_tensors()    outputTensors = dpu_runner.get_output_tensors()     input_ndim = tuple(inputTensors[0].dims)    # print(input_ndim)    input_fixpos = inputTensors[0].get_attr("fix_point")    input_scale = 2**input_fixpos    output_ndim_0 = tuple(outputTensors[0].dims)     # print(output_ndim_0)    output_ndim_1 = tuple(outputTensors[1].dims)    # print(output_ndim_1)     output_fixpos_0 = outputTensors[0].get_attr("fix_point")    output_scale_0 = 1 / (2**output_fixpos_0)    output_fixpos_1 = outputTensors[1].get_attr("fix_point")    output_scale_1 = 1 / (2**output_fixpos_1)    imgquant = img * input_scale    runSize = input_ndim[0]    """prepare batch input/output """    inputData = [np.empty(input_ndim, dtype=np.int8, order="C")]    outputData = [np.empty(output_ndim_0, dtype=np.int8, order="C"),                np.empty(output_ndim_1, dtype=np.int8, order="C")]       """init input image to input buffer """    imageRun = inputData[0]    imageRun[0, ...] = imgquant.reshape(input_ndim[1:])       """run with batch """    job_id = dpu_runner.execute_async(inputData, outputData)    dpu_runner.wait(job_id)       result = [outputData[0] * output_scale_0,              outputData[1] * output_scale_1]    return result

最后的显示结果如图所示。

结语

尽管Caffe框架在Vitis-AI 2.0之后的支持已经终止,但在Vitis-AI 3.0中仍然可以继续使用这些经过训练的Caffe模型。通过一些额外的工作和非官方的支持流程,开发者仍然可以成功地调用和部署这些模型,为各种应用场景提供强大的深度学习解决方案。

FPGA开发圈 这里介绍、交流、有关FPGA开发资料(文档下载,技术解答等),提升FPGA应用能力。
评论 (0)
  • 二位半 5线数码管的驱动方法这个2位半的7段数码管只用5个管脚驱动。如果用常规的7段+共阳/阴则需要用10个管脚。如果把每个段看成独立的灯。5个管脚来点亮,任选其中一个作为COM端时,另外4条线可以单独各控制一个灯。所以实际上最多能驱动5*4 = 20个段。但是这里会有一个小问题。如果想点亮B1,可以让第3条线(P3)置高,P4 置低,其它阳极连P3的灯对应阴极P2 P1都应置高,此时会发现C1也会点亮。实际操作时,可以把COM端线P3设置为PP输出,其它线为OD输出。就可以单独控制了。实际的驱
    southcreek 2025-05-07 15:06 160浏览
  • UNISOC Miracle Gaming奇迹手游引擎亮点:• 高帧稳帧:支持《王者荣耀》等主流手游90帧高画质模式,连续丢帧率最高降低85%;• 丝滑操控:游戏冷启动速度提升50%,《和平精英》开镜开枪操作延迟降低80%;• 极速网络:专属游戏网络引擎,使《王者荣耀》平均延迟降低80%;• 智感语音:与腾讯GVoice联合,弱网环境仍能保持清晰通话;• 超高画质:游戏画质增强、超级HDR画质、游戏超分技术,优化游戏视效。全球手游市场规模日益壮大,游戏玩家对极致体验的追求愈发苛刻。紫光展锐全新U
    紫光展锐 2025-05-07 17:07 136浏览
  • ‌一、高斯计的正确选择‌1、‌明确测量需求‌‌磁场类型‌:区分直流或交流磁场,选择对应仪器(如交流高斯计需支持交变磁场测量)。‌量程范围‌:根据被测磁场强度选择覆盖范围,例如地球磁场(0.3–0.5 G)或工业磁体(数百至数千高斯)。‌精度与分辨率‌:高精度场景(如科研)需选择误差低于1%的仪器,分辨率需匹配微小磁场变化检测需求。2、‌仪器类型选择‌‌手持式‌:便携性强,适合现场快速检测;‌台式‌:精度更高,适用于实验室或工业环境。‌探头类型‌:‌横向/轴向探头‌:根据磁场方向选择,轴向探头适合
    锦正茂科技 2025-05-06 11:36 348浏览
  • 2024年初,OpenAI公布的Sora AI视频生成模型,震撼了国产大模型行业。随后国产厂商集体发力视频大模型,快手发布视频生成大模型可灵,字节跳动发布豆包视频生成模型,正式打响了国内AI视频生成领域第一枪。众多企业匆忙入局,只为在这片新兴市场中抢占先机,却往往忽视了技术成熟度与应用规范的打磨。以社交平台上泛滥的 AI 伪造视频为例,全红婵家人被恶意仿冒博流量卖货,明星们也纷纷中招,刘晓庆、张馨予等均曾反馈有人在视频号上通过AI生成视频假冒她。这些伪造视频不仅严重侵犯他人权
    用户1742991715177 2025-05-05 23:08 49浏览
  • 某国产固态电解的2次和3次谐波失真相当好,值得一试。(仅供参考)现在国产固态电解的性能跟上来了,值得一试。当然不是随便搞低端的那种。电容器对音质的影响_电子基础-面包板社区  https://mbb.eet-china.com/forum/topic/150182_1_1.html (右键复制链接打开)电容器对音质的影响相当大。电容器在音频系统中的角色不可忽视,它们能够调整系统增益、提供合适的偏置、抑制电源噪声并隔离直流成分。然而,在便携式设备中,由于空间、成本的限
    bruce小肥羊 2025-05-04 18:14 208浏览
  • 文/郭楚妤编辑/cc孙聪颖‍相较于一众措辞谨慎、毫无掌舵者个人风格的上市公司财报,利亚德的财报显得尤为另类。利亚德光电集团成立于1995年,是一家以LED显示、液晶显示产品设计、生产、销售及服务为主业的高新技术企业。自2016年年报起,无论业绩优劣,董事长李军每年都会在财报末尾附上一首七言打油诗,抒发其对公司当年业绩的感悟。从“三年翻番顺大势”“智能显示我第一”“披荆斩棘幸从容”等词句中,不难窥见李军的雄心壮志。2012年,利亚德(300296.SZ)在深交所创业板上市。成立以来,该公司在细分领
    华尔街科技眼 2025-05-07 19:25 62浏览
  • 多功能电锅长什么样子,主视图如下图所示。侧视图如下图所示。型号JZ-18A,额定功率600W,额定电压220V,产自潮州市潮安区彩塘镇精致电子配件厂,铭牌如下图所示。有两颗螺丝固定底盖,找到合适的工具,拆开底盖如下图所示。可见和大部分市场的加热锅一样的工作原理,手绘原理图,根据原理图进一步理解和分析。F1为保险,250V/10A,185℃,CPGXLD 250V10A TF185℃ RY 是一款温度保险丝,额定电压是250V,额定电流是10A,动作温度是185℃。CPGXLD是温度保险丝电器元件
    liweicheng 2025-05-05 18:36 230浏览
  • 浪潮之上:智能时代的觉醒    近日参加了一场课题的答辩,这是医疗人工智能揭榜挂帅的国家项目的地区考场,参与者众多,围绕着医疗健康的主题,八仙过海各显神通,百花齐放。   中国大地正在发生着激动人心的场景:深圳前海深港人工智能算力中心高速运转的液冷服务器,武汉马路上自动驾驶出租车穿行的智慧道路,机器人参与北京的马拉松竞赛。从中央到地方,人工智能相关政策和消息如雨后春笋般不断出台,数字中国的建设图景正在智能浪潮中徐徐展开,战略布局如同围棋
    广州铁金刚 2025-04-30 15:24 369浏览
  • 5小时自学修好BIOS卡住问题  更换硬盘故障现象:f2、f12均失效,只有ESC和开关机键可用。错误页面:经过AI的故障截图询问,确定是机体内灰尘太多,和硬盘损坏造成,开机卡在BIOS。经过亲手拆螺丝和壳体、排线,跟换了新的2.5寸硬盘,故障排除。理论依据:以下是针对“5小时自学修好BIOS卡住问题+更换硬盘”的综合性解决方案,结合硬件操作和BIOS设置调整,分步骤说明:一、判断BIOS卡住的原因1. 初步排查     拔掉多余硬件:断开所有外接设备(如
    丙丁先生 2025-05-04 09:14 110浏览
  • 这款无线入耳式蓝牙耳机是长这个样子的,如下图。侧面特写,如下图。充电接口来个特写,用的是卡座卡在PCB板子上的,上下夹紧PCB的正负极,如下图。撬开耳机喇叭盖子,如下图。精致的喇叭(HY),如下图。喇叭是由电学产生声学的,具体结构如下图。电池包(AFS 451012  21 12),用黄色耐高温胶带进行包裹(安规需求),加强隔离绝缘的,如下图。451012是电池包的型号,聚合物锂电池+3.7V 35mAh,详细如下图。电路板是怎么拿出来的呢,剪断喇叭和电池包的连接线,底部抽出PCB板子
    liweicheng 2025-05-06 22:58 284浏览
  • 随着智能驾驶时代到来,汽车正转变为移动计算平台。车载AI技术对存储器提出新挑战:既要高性能,又需低功耗和车规级可靠性。贞光科技代理的紫光国芯车规级LPDDR4存储器,以其卓越性能成为国产芯片产业链中的关键一环,为智能汽车提供坚实的"记忆力"支持。作为官方授权代理商,贞光科技通过专业技术团队和完善供应链,让这款国产存储器更好地服务国内汽车厂商。本文将探讨车载AI算力需求现状及贞光科技如何通过紫光国芯LPDDR4产品满足市场需求。 车载AI算力需求激增的背景与挑战智能驾驶推动算力需求爆发式
    贞光科技 2025-05-07 16:54 111浏览
  • 想不到短短几年时间,华为就从“技术封锁”的持久战中突围,成功将“被卡脖子”困境扭转为科技主权的主动争夺战。众所周知,前几年技术霸权国家突然对华为发难,导致芯片供应链被强行掐断,海外市场阵地接连失守,恶意舆论如汹涌潮水,让其瞬间陷入了前所未有的困境。而最近财报显示,华为已经渡过危险期,甚至开始反击。2024年财报数据显示,华为实现全球销售收入8621亿元人民币,净利润626亿元人民币;经营活动现金流为884.17亿元,同比增长26.7%。对比来看,2024年营收同比增长22.42%,2023年为7
    用户1742991715177 2025-05-02 18:40 203浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦