基于FPGA的会议系统设计

FPGA技术江湖 2024-07-12 07:34

大侠好,欢迎来到FPGA技术江湖,江湖偌大,相见即是缘分。大侠可以关注FPGA技术江湖,在“闯荡江湖”、"行侠仗义"栏里获取其他感兴趣的资源,或者一起煮酒言欢。“煮酒言欢”进入IC技术圈,这里有近50个IC技术公众号。


▲展示样品图


01.
设计概述

1.1 设计目的
随着疫情的出现,线上会议的应用越来越广泛,相关的技术也越来越成熟,但当前的线上会议系统大都基于电脑和手机,便于个人使用,但由于其摄像头拍摄方向固定,当会议一端有多人参与时,就需要每人都单独开一个窗口才能有较好的效果,较为不便。基于此,我们设计了一个新的会议系统,以更好地适应多人会议的需求。
本系统以 Xilinx PYNQ-Z2 FPGA 为控制核心,将声源定位与图像识别相结 合。通过对环境声音的实时检测,实现对声源目标的定位,并基于特征提取和模式匹配的方法对目标进行图像识别,根据提前训练的数据模型,在显示屏上框出 目标并显示目标的个人信息。同时,也可以通过 socket 通信将识别后的图像信息 直接发送至客户端(PC 机等)显示,从而实现远程会议的效果。

1.2 应用领域 
本系统理念较为新颖,将声源定位与图像识别相结合,并在 FPGA 上实现, 使得系统整体体积与功耗都较小,可以在各种线上会议中使用,在疫情防控常态 化的当下,应用前景十分广泛。例如,该系统可以用于在企业之间进行的大型会 议,声源定位功能可以使摄像头实时跟踪讲话人,并对其进行识别,显示人员信 息,这就使得只使用一个客户端就可以较好地实现多人会议,节省资源;另外, 该系统在多方参与的学术会议或国际会议中也都比较适用。

1.3 主要技术特点
(1)采用四麦克风阵列采集声音信息,并通过硬件电路将麦克风阵列输出 PDM 信号直接转换为 I2S 信号送入 FPGA 中处理。
(2)使用 python 编写的 TDOA 算法进行声源定位,即先通过 GCC-PHAT 算法 得出不同麦克风芯片接收到声音的时延,再通过几何关系计算出声源所在的角度。
(3)采用 Haar 特征提取算法检测人脸区域,速度快,识别率较高;采用 LBPH 特征识别算法对数据集中的图片进行训练,训练完成后,建立标签与真实人员姓 名的直接映射表,从而实现身份识别。
(4)基于 socket 通信,使用 UDP 通信协议,将图像从 FPGA 中实时传输到客户 端 (PC 机等)中显示,从而实现远程会议的功能。

1.4 关键性能指标
(1)声源定位速度与准确率 本系统在环境噪声较小的情况下可在 1 秒之内完成声源定位,准确率几乎为 100%;在环境噪声较大的情况下定位时间会稍长,在 2 秒左右也基本可以完成 定位,准确度在 90%以上。
(2)人脸检测与身份识别速度与准确率 本系统人脸检测速度较快,当人脸进入摄像头中部区域后就可立即框出 人脸,在摄像头中部区域人脸检测准确率几乎为 100%;身份识别速度较人脸检 测稍慢,但识别时间都在 0.5s 左右,当人员处于拍摄区域中部时识别准确率较 高,在 90%以上,当人员处于拍摄区域边缘时准确度较低,但也基本都在 80%以 上。
(3)数据无线传输速率与延时 本系统无线数据传输时,客户端(PC)接收到图像信息的延时在 1s 左右,延时 较低;其传输速率也较快,显示的图像基本都在 3 帧/秒以上。

1.5 主要创新点
(1)采用了数字麦克风芯片,抗干扰能力较强,且在使用时外围电路简单;使 用四芯片麦克风阵列采集声音信号,使得其在 360°平面内对声源方向角度的分 辨率大大提高。
(2)采用 AC108 芯片将 PDM 信号转换为 I2S 信号,再送入 FPGA 中处理。
(3)采用 TDOA 算法,并在高速、并行的 FPGA 中实现,使得声源定位的速度 较快,延迟较低。
(4)使用舵机搭建了水平 360°云台,使摄像头可以更方便地跟踪声源。
(5)系统支持现场录入人员并学习,且识别率较高。
(6)基于 socket 通信,实现将图像信息从 FPGA 中实时传输到客户端(PC 机等) 显示的功能。
(7)该会议系统功耗低、体积小、易安装并且可供多人在同一客户端使用。


02.
系统组成及功能部分

2.1 整体介绍

本系统由麦克风阵列模块、FPGA 处理器模块、摄像头模块、远程数据传输 模块和显示模块共同组成。麦克风阵列模块在检测声音信号后,将转换后的 PCM 码送入 FPGA 处理器模块处理,实现对声源目标的定位;摄像头模块在接收到 FPGA 处理器模块发出的位置信号后,控制摄像头转向声源方向,并将摄像头拍 摄到的图像信息传入 FPGA 处理器模块进行处理,识别其是否为检测目标,若为 检测目标则显示检测到的人员信息;若没有检测到相关目标,则重新进行声源定 位。图 2.1 为系统整体框图。 

▲图2.1系统整体框图


2.2 各模块介绍

2.2.1 麦克风阵列模块

系统采用由 KNOWLES 公司制造的性能优良的 MEMS 数字麦克风芯片 SPU0414HR5H,可识别频率在 100Hz~10kHz 范围内的声音信号。选用四芯片麦 克风阵列采集声音信号,输出四路 PDM 信号到 AC108 芯片中进行解调,输出 PCM 信号送入 FPGA 中进行处理。其实物图如下图所示:

▲图2.2.1麦克风阵列


2.2.2 FPGA 处理器模块

处理器模块主要采用 Xilinx PYNQ-Z2 开发板,其由 650MHz 双核 Coryex-A9 处理器与 FPGA 组成。PYNQ-Z2 开发板支持 Python 语言开发,也支持使用传统 的 Xilinx Vivado 开发工具流程平台开发编写 Verilog 来开发嵌入式系统应用。同 时,PYNQ-Z2 开发板也具有极其丰富的外设接口,如千兆以太网口、USB 接口、 UART 接口、HDMI 输出/输出接口等常用接口,还提供了兼容 Ardunio、RPi、 Pmod 的扩展接口。


声源定位算法和图像识别的算法均在处理器模块中实现。


(1)TDOA 声源定位算法

TDOA 定位算法是一种利用时间差进行定位的方法,通过测量信号到达的时 间,可以确定信号源的距离,利用信号源到各个信号接受点的距离,就能确定信 号的位置。采用 GCC-PHAT 算法,先对输入 FPGA 中的 PCM 信号通过 I2S 协议 采样,得到四路数字信号,以两个信号为一组,采用广义互相关的方法求出时延, 即求两路信号的互频谱,得出其频谱峰值索引,即为声音到这两路信号采集点的 时延。得到时延后,根据几何关系,即可求出声源与两对角信号采集点连线的角 度,进而得到摄像头需要旋转的角度信息。


(2)Haar 特征提取算法

系统使用 Haar 特征提取的识别算法进行人脸检测。Haar 特征提取过程是将 一副图像中所有黑色矩形框和白色矩形框中所包含的全部像素进行差值运算,得到该图像的 Haar 特征值,但由于一副图像中包含的 Haar 特征的个数较多,对于其中矩形特征的特征值的提取相对比较复杂,因此采用积分图像的转换来缩减其计算量,以提高运算速度。

在提取出 Haar 特征后,将其分别转化为弱分类器,然后根据弱分类器处理样本数据,根据其正确分类样本的情况来改变其权值大小,进而产生多个强分类器,然后将这些训练产生的强分类器继续迭代,最终获得一个识别率较高的最终强分类器,从而实现对人脸区域的准确识别。


(3)LBPH 特征识别算法

系统采用了基于 LBP(局部二值模式)特征的 Adaboost(级联分类器)进行人脸 识别。LBP 是典型的二值描述算子,其更多的是整数计算,可以通过各种逻辑操 作对运算过程进行优化,因此效率较高。此外,通常光照对图像中物体的影响是 全局的,即图像中物体的明暗程度通常是往同一个方向改变的,只是改变的幅度 会因距离光源的远近而有所不同,故图像中局部相邻的像素间受光照影响后的相 对大小不会改变,LBP 特征也因此对光照具有比较好的鲁棒性。Adaboost 是一种 迭代算法,其核心思想是针对同一个训练集训练不同的弱分类器,然后把这些弱 分类器集合起来,构成一个更强的最终分类器。Adaboost 算法系统具有较高的 检测速率,且不易出现过适应现象。


2.2.3 摄像头模块

采用 GUCEE 摄像头,1200 万像素,动态分辨率支持 1920*1080,其机身小 巧,易于安装,适合在各种环境下使用。同时,系统搭建了一个摄像头云台,使 用一个舵机来控制云台上摄像头的转向,使其能在水平 360°范围内跟踪声源方位。


2.2.4 远程数据传输模块

系统基于 socket 通信,编写 python 创建 UDP 服务端程序,在同一局域网下 可以将图像信息直接从 FPGA 中发送到任一客户端(PC 机等)中,客户端只需打 开使用 python 编写好的上位机程序,即可接收到信息并同步显示。其无线传输延迟较小,传输速度较快且输出图像较为清晰。2.2.5 显示模块 采用 Creatblock7 寸 iPS 高清显示屏,使用 FPGA 中的显示模块将识别后的 图像直接显示在显示屏上。


03.

完成情况及性能参数


3.1 声源定位

系统可较好实现 360°声源定位,在环境噪声较小的情况下,识别很精准, 误差不超过 5°,在有一定噪声干扰的情况下,其识别度也能稳定在一定水平, 识别误差不超过 15%。下表为声源定位测试结果:


▲表3.1 单频声源定位测试结果


3.2 身份识别与显示

系统能够很好地实现人脸检测与身份识别功能,且运算速度较快,在识别到 人脸后能够迅速框出人脸,并将其人脸特征与数据库中录入特征进行匹配,若匹 配到相应的人脸信息则直接在方框上方显示当前人员信息,若未匹配到相应人脸 信息,则只框出人脸。人脸检测识别率很高,识别速度较快;身份识别速度较快, 在单人识别时成功率较高,达到 90%以上,当同时有多人在识别范围内时识别准 确度会受到影响,但也基本在 80%以上。识别后的图像可以清晰地在显示屏上显 示,并且显示延迟较小。下图为人脸检测与身份识别显示画面: 


3.3 无线数据传输

系统通过 socket 通信,可以将图像信息直接通过局域网传输到客户端中,这 里使用 PC 机作为客户端,在运行上位机程序后即可接收到从 FPGA 中实时传输的图像。通过 FPGA 上的拨码开关可以控制传输图像的模式,即实时显示模式和 身份识别模式。下图为 PC 机接收到的图像: 


04.

完成情况及性能参数


4.1 可扩展之处

(1)当前系统声源定位在特定位置处定位误差会略大,同时,在环境噪音较大 的情况下,也会对声源定位造成一定影响。可通过增加麦克风数量,改变麦克风阵列结构或改进声源定位算法等进一步提高系统声源定位的精度与抗干扰性。

(2)拓展图像处理功能,将摄像头拍到的图像降噪,并根据图像的具体情况自 动将图像的亮度和对比度等特性调节到合适的值。

(3)当前系统无线数据传输功能只能将FPGA拍摄到的图像数据发送到和FPGA 连接在同一局域网内的客户端中,可以进一步完善无线传输功能,使得 FPGA可以直接将图像数据发送到外网的客户端中,增加系统的实用性。

(4)优化图像处理算法,进一步提高人脸识别算法的准确度与鲁棒性。


END


FPGA技术江湖广发江湖帖

无广告纯净模式,给技术交流一片净土,从初学小白到行业精英业界大佬等,从军工领域到民用企业等,从通信、图像处理到人工智能等各个方向应有尽有,QQ微信双选,FPGA技术江湖打造最纯净最专业的技术交流学习平台。


FPGA技术江湖微信交流群

加群主微信,备注姓名+公司/学校+岗位/专业进群


FPGA技术江湖QQ交流群

备注姓名+公司/学校+岗位/专业进群

FPGA技术江湖 任何技术的学习就好比一个江湖,对于每一位侠客都需要不断的历练,从初入江湖的小白到归隐山林的隐世高人,需要不断的自我感悟自己修炼,让我们一起仗剑闯FPGA乃至更大的江湖。
评论
  •     为控制片内设备并且查询其工作状态,MCU内部总是有一组特殊功能寄存器(SFR,Special Function Register)。    使用Eclipse环境调试MCU程序时,可以利用 Peripheral Registers Viewer来查看SFR。这个小工具是怎样知道某个型号的MCU有怎样的寄存器定义呢?它使用一种描述性的文本文件——SVD文件。这个文件存储在下面红色字体的路径下。    例:南京沁恒  &n
    电子知识打边炉 2025-01-04 20:04 98浏览
  • 根据Global Info Research项目团队最新调研,预计2030年全球封闭式电机产值达到1425百万美元,2024-2030年期间年复合增长率CAGR为3.4%。 封闭式电机是一种电动机,其外壳设计为密闭结构,通常用于要求较高的防护等级的应用场合。封闭式电机可以有效防止外部灰尘、水分和其他污染物进入内部,从而保护电机的内部组件,延长其使用寿命。 环洋市场咨询机构出版的调研分析报告【全球封闭式电机行业总体规模、主要厂商及IPO上市调研报告,2025-2031】研究全球封闭式电机总体规
    GIRtina 2025-01-06 11:10 103浏览
  • 大模型的赋能是指利用大型机器学习模型(如深度学习模型)来增强或改进各种应用和服务。这种技术在许多领域都显示出了巨大的潜力,包括但不限于以下几个方面: 1. 企业服务:大模型可以用于构建智能客服系统、知识库问答系统等,提升企业的服务质量和运营效率。 2. 教育服务:在教育领域,大模型被应用于个性化学习、智能辅导、作业批改等,帮助教师减轻工作负担,提高教学质量。 3. 工业智能化:大模型有助于解决工业领域的复杂性和不确定性问题,尽管在认知能力方面尚未完全具备专家级的复杂决策能力。 4. 消费
    丙丁先生 2025-01-07 09:25 80浏览
  • 彼得·德鲁克被誉为“现代管理学之父”,他的管理思想影响了无数企业和管理者。然而,关于他的书籍分类,一种流行的说法令人感到困惑:德鲁克一生写了39本书,其中15本是关于管理的,而其中“专门写工商企业或为企业管理者写的”只有两本——《为成果而管理》和《创新与企业家精神》。这样的表述广为流传,但深入探讨后却发现并不完全准确。让我们一起重新审视这一说法,解析其中的矛盾与根源,进而重新认识德鲁克的管理思想及其著作的真正价值。从《创新与企业家精神》看德鲁克的视角《创新与企业家精神》通常被认为是一本专为企业管
    优思学院 2025-01-06 12:03 113浏览
  • 根据环洋市场咨询(Global Info Research)项目团队最新调研,预计2030年全球无人机锂电池产值达到2457百万美元,2024-2030年期间年复合增长率CAGR为9.6%。 无人机锂电池是无人机动力系统中存储并释放能量的部分。无人机使用的动力电池,大多数是锂聚合物电池,相较其他电池,锂聚合物电池具有较高的能量密度,较长寿命,同时也具有良好的放电特性和安全性。 全球无人机锂电池核心厂商有宁德新能源科技、欣旺达、鹏辉能源、深圳格瑞普和EaglePicher等,前五大厂商占有全球
    GIRtina 2025-01-07 11:02 63浏览
  • 这篇内容主要讨论三个基本问题,硅电容是什么,为什么要使用硅电容,如何正确使用硅电容?1.  硅电容是什么首先我们需要了解电容是什么?物理学上电容的概念指的是给定电位差下自由电荷的储藏量,记为C,单位是F,指的是容纳电荷的能力,C=εS/d=ε0εrS/4πkd(真空)=Q/U。百度百科上电容器的概念指的是两个相互靠近的导体,中间夹一层不导电的绝缘介质。通过观察电容本身的定义公式中可以看到,在各个变量中比较能够改变的就是εr,S和d,也就是介质的介电常数,金属板有效相对面积以及距离。当前
    知白 2025-01-06 12:04 167浏览
  • 村田是目前全球量产硅电容的领先企业,其在2016年收购了法国IPDiA头部硅电容器公司,并于2023年6月宣布投资约100亿日元将硅电容产能提升两倍。以下内容主要来自村田官网信息整理,村田高密度硅电容器采用半导体MOS工艺开发,并使用3D结构来大幅增加电极表面,因此在给定的占位面积内增加了静电容量。村田的硅技术以嵌入非结晶基板的单片结构为基础(单层MIM和多层MIM—MIM是指金属 / 绝缘体/ 金属) 村田硅电容采用先进3D拓扑结构在100um内,使开发的有效静电容量面积相当于80个
    知白 2025-01-07 15:02 66浏览
  • 在智能家居领域中,Wi-Fi、蓝牙、Zigbee、Thread与Z-Wave等无线通信协议是构建短距物联局域网的关键手段,它们常在实际应用中交叉运用,以满足智能家居生态系统多样化的功能需求。然而,这些协议之间并未遵循统一的互通标准,缺乏直接的互操作性,在进行组网时需要引入额外的网关作为“翻译桥梁”,极大地增加了系统的复杂性。 同时,Apple HomeKit、SamSung SmartThings、Amazon Alexa、Google Home等主流智能家居平台为了提升市占率与消费者
    华普微HOPERF 2025-01-06 17:23 141浏览
  • 本文介绍Linux系统更换开机logo方法教程,通用RK3566、RK3568、RK3588、RK3576等开发板,触觉智能RK3562开发板演示,搭载4核A53处理器,主频高达2.0GHz;内置独立1Tops算力NPU,可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示与控制等行业。制作图片开机logo图片制作注意事项(1)图片必须为bmp格式;(2)图片大小不能大于4MB;(3)BMP位深最大是32,建议设置为8;(4)图片名称为logo.bmp和logo_kernel.bmp;开机
    Industio_触觉智能 2025-01-06 10:43 87浏览
  • PLC组态方式主要有三种,每种都有其独特的特点和适用场景。下面来简单说说: 1. 硬件组态   定义:硬件组态指的是选择适合的PLC型号、I/O模块、通信模块等硬件组件,并按照实际需求进行连接和配置。    灵活性:这种方式允许用户根据项目需求自由搭配硬件组件,具有较高的灵活性。    成本:可能需要额外的硬件购买成本,适用于对系统性能和扩展性有较高要求的场合。 2. 软件组态   定义:软件组态主要是通过PLC
    丙丁先生 2025-01-06 09:23 83浏览
  • 每日可见的315MHz和433MHz遥控模块,你能分清楚吗?众所周知,一套遥控设备主要由发射部分和接收部分组成,发射器可以将控制者的控制按键经过编码,调制到射频信号上面,然后经天线发射出无线信号。而接收器是将天线接收到的无线信号进行解码,从而得到与控制按键相对应的信号,然后再去控制相应的设备工作。当前,常见的遥控设备主要分为红外遥控与无线电遥控两大类,其主要区别为所采用的载波频率及其应用场景不一致。红外遥控设备所采用的射频信号频率一般为38kHz,通常应用在电视、投影仪等设备中;而无线电遥控设备
    华普微HOPERF 2025-01-06 15:29 125浏览
  • By Toradex 秦海1). 简介嵌入式平台设备基于Yocto Linux 在开发后期量产前期,为了安全以及提高启动速度等考虑,希望将 ARM 处理器平台的 Debug Console 输出关闭,本文就基于 NXP i.MX8MP ARM 处理器平台来演示相关流程。 本文所示例的平台来自于 Toradex Verdin i.MX8MP 嵌入式平台。  2. 准备a). Verdin i.MX8MP ARM核心版配合Dahlia载板并
    hai.qin_651820742 2025-01-07 14:52 40浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦