一本讲解目标检测技术的书

一起学嵌入式 2024-02-06 14:15

扫描关注一起学嵌入式,一起学习,一起成长

Part.1

自动驾驶汽车是怎么“看路”的?

车内无人的自动驾驶出租车,你敢坐吗?
不用担心,北京亦庄的自动驾驶示范区经过了三年的运营,自动驾驶出租车的商业化旅程达到了 960 万公里,其中无人驾驶就有 210 万公里。
事实证明,无人驾驶技术是可以做到安全行驶的。那机器是怎么“看到”路面情况,知道哪儿有红绿灯,或者有行人正穿过斑马线呢?
答案是目标检测技术,这是计算机视觉领域的一项核心技术,用于在图像或视频中定位和识别多个不同类别的目标物体。
它的主要任务是确定图像中目标的位置,并将其与特定的目标类别关联起来。
此外,目标检测还可以用于视频监控、人脸识别、物体识别等领域。所以,自动驾驶车辆安装上目标检测系统,就像拥有了眼睛一样,能够“看见”复杂的路况。
那么目标检测技术会不会很复杂,难以使用?不会,《YOLO 目标检测》这本书就是基于业界流行的目标检测算法框架 YOLO,讲解目标检测领域的基本概念和原理,以及实践方法。
点击下方,即可购书

只要有兴趣,零基础也能看懂这本书。我们先从了解 YOLO 框架开始学习吧。

Part.2

YOLO 框架初探

YOLO(You Only Look Once)是由 Joseph Redmon 等人于 2015年提出的目标检测算法。原始的 YOLO 算法被称为 YOLOv1,它采用了全卷积神经网络(Fully Convolutional Network)来同时预测物体的位置和类别。
YOLOv1 将输入图像分割成网格,并为每个网格预测多个边界以及对应的类别概率,这种单次前向传播的设计使得 YOLOv1 非常快速。然而,YOLOv1 在检测小物体和定位精度上存在一些问题。
为了改进 YOLOv1 的不足,于 2016 年提出了 YOLOv2,对网络结构进行了改进,并引入了一些技术来提高检测性能。随着研究的不断进展,于 2018 年又发布了 YOLOv3。
YOLOv3 在 YOLOv2 的基础上进一步改进,采用了更深更宽的网络结构,引入了多尺度预测和特征融合机制,并使用了更多的 Anchor Boxes 来提高边界的拟合度。
此外,还出现了一些基于 YOLO 的变体和改进版本,例如 YOLOv4、YOLOv5 等,它们在网络结构、训练策略和性能方面进行了进一步的创新和改进。
YOLO 如此热门,但《YOLO 目标检测》的作者杨建华在当初从事研究工作时,却连一本较为系统的、理论与实践相结合讲 YOLO 的入门书都找不到。他边学边总结,积极分享学习成果,于是就有了这本注重实战的 YOLO 入门书。
杨建华目前是哈尔滨工业大学在读博士,主要研究方向是基于视觉的目标检测与人体时空行为分析,活跃在多个知识专栏上。众多 AI 技术爱好者通过杨建华的文章,走进了 YOLO 的世界。
本书另一位作者李瑞峰是哈尔滨工业大学教授、机器人研究所副所长,中国人工智能协会智能机器人专业委员会秘书长,黑龙江省机器人学会理事长。李瑞峰教授也是杨建华的导师,在他的指导下,给本书打下了坚实的理论基础。
现在让我们开始 YOLO 学习之旅。

Part.3

玩转 YOLO 目标检测

《YOLO 目标检测》为同学们规划了一条从入门到进阶的学习路径,分为四个部分介绍了相关背景知识、YOLO 框架入门、较新的 YOLO 技术,以及其他流行的目标检测框架

目标检测技术原理

首先介绍了自深度学习时代以来目标检测的发展,列举了若干经典的目标检测框架,如 R-CNN 系列和 YOLO 系列。然后讲述了目标检测领域当前的两大技术流派:两阶段和单阶段。
目标检测网络的组成
接着介绍了当前流行的目标检测架构,包含主干网络、颈部网络和检测头三大部分。对目标检测领域常用的两大数据集进行了说明:PASCAL VOC 数据集和 MS COCO 数据集。
了解这些数据集的基本情况是入门目标检测领域的基本功之一,有助于读者开展后续工程或学术方面的工作。

YOLO 框架入门

这部分内容是本书重点,先以经典的 YOLOv1 为例讲解技术原理,包括网络结构、检测原理、训练中的标签分配策略、训练模型的策略以及前向推理的细节。
接下来通过对 YOLOv1 的网络结构做适当的改进,着手编写相关的网络结构代码,搭建 YOLOv1 的网络环境。再进一步编写 YOLOv1 的项目代码,主要实现读取数据、预处理数据、搭建模型、实现标签匹配、实现训练和测试代码,以及可视化检测结果等诸多代码实现内容。
YOLOv1 “网格划分”思想的实例
在讲清楚 YOLOv1 的基础上,书中又对 YOLOv2、YOLOv3、YOLOv4 分别做了详细的介绍,说明每一代相较于上一代的技术改进,帮助同学们清晰地理解 YOLO 框架的根本,使大家具备自主学习新一代 YOLO 框架的能力。

较新的 YOLO 框架技术

先介绍新一代的 YOLO 框架,讲解 YOLOX 对 YOLOv3 的改进以及新型的动态标签分配,并实现了一款简单的 YOLOX 检测器。再介绍 YOLOv7 检测框架的技术原理,主要是其所提出的高效网络架构的实现细节,并实现了一款简单的 YOLOv7 检测器。

其他流行的目标检测框架

首先介绍 DETR,它在计算机视觉领域掀起了 Transformer 的研究浪潮。讲解 DETR 的网络结构,并通过讲解相关的开源代码来展现 DETR 的技术细节。
其次介绍新型的单级目标检测网络,讲解 YOLOF 独特的网络结构特点和所提出的标签匹配,并通过代码实现的方式复现 YOLOF。
最后介绍 FCOS 检测器,它掀起了无先验框检测架构研究的浪潮。FCOS 是这一架构的经典之作,也是常用的基线模型。
FCOS网络
同学们认真学习这四个部分后,会发现不仅理解了目标检测的技术原理,还能掌握 YOLO 框架的使用方法,并了解多个主流目标检测框架。

Part.3

结语

YOLO 框架是一种高效、实时性强且适用于多尺度目标检测任务的算法。YOLO 框架在未来的目标检测领域必将发挥重要作用,让机器“看得”更加“清楚”。
《YOLO 目标检测》可以帮助计算机视觉领域的读者快速“看清楚”目标检测技术的原理,并上手实践 YOLO 框架。本书最大的亮点就是注重实战,提供了完整、可复现的开源代码,其中绝大部分代码都是作者亲自编写的。
作者本着严谨治学的态度,保证每一次代码实现环节都对应一份完整的目标检测项目代码,让同学们能够一次又一次地建立起对完整的目标检测项目的认识。
本书翔实地讲解了自 YOLOv1 到 YOLOv4 的发展状况和相关技术细节。这样同学们既可以在宏观上对 YOLO 框架的发展有足够清晰的认识,同时又在微观上了解和掌握相关的技术细节,为日后自学更新的 YOLO 检测器做好知识储备。
本书行文简洁易懂,力求在准确的前提下让同学们迅速掌握技术细节。书中还提供了丰富的图示,有助于同学们直观地理解 YOLO 系列。
书中并没有止步于 YOLO,还介绍了其他流行的目标检测框架,这有助于同学们将从 YOLO 项目中学到的知识横向地泛化到其他检测框架中。同时还能够纵向地摸清、看清目标检测领域的发展趋势,掌握更多的技术概念。
学会 YOLO,同学们就能给机器装上“眼睛”,去探索更广泛的应用吧!

点击下方,即可购书



关注【一起学嵌入式】,回复加群进技术交流群。



觉得文章不错,点击“分享”、“”、“在看” 呗!

一起学嵌入式 公众号【一起学嵌入式】,RTOS、Linux编程、C/C++,以及经验分享、行业资讯、物联网等技术知
评论
  • 根据环洋市场咨询(Global Info Research)项目团队最新调研,预计2030年全球无人机锂电池产值达到2457百万美元,2024-2030年期间年复合增长率CAGR为9.6%。 无人机锂电池是无人机动力系统中存储并释放能量的部分。无人机使用的动力电池,大多数是锂聚合物电池,相较其他电池,锂聚合物电池具有较高的能量密度,较长寿命,同时也具有良好的放电特性和安全性。 全球无人机锂电池核心厂商有宁德新能源科技、欣旺达、鹏辉能源、深圳格瑞普和EaglePicher等,前五大厂商占有全球
    GIRtina 2025-01-07 11:02 74浏览
  • 大模型的赋能是指利用大型机器学习模型(如深度学习模型)来增强或改进各种应用和服务。这种技术在许多领域都显示出了巨大的潜力,包括但不限于以下几个方面: 1. 企业服务:大模型可以用于构建智能客服系统、知识库问答系统等,提升企业的服务质量和运营效率。 2. 教育服务:在教育领域,大模型被应用于个性化学习、智能辅导、作业批改等,帮助教师减轻工作负担,提高教学质量。 3. 工业智能化:大模型有助于解决工业领域的复杂性和不确定性问题,尽管在认知能力方面尚未完全具备专家级的复杂决策能力。 4. 消费
    丙丁先生 2025-01-07 09:25 83浏览
  • 在智能家居领域中,Wi-Fi、蓝牙、Zigbee、Thread与Z-Wave等无线通信协议是构建短距物联局域网的关键手段,它们常在实际应用中交叉运用,以满足智能家居生态系统多样化的功能需求。然而,这些协议之间并未遵循统一的互通标准,缺乏直接的互操作性,在进行组网时需要引入额外的网关作为“翻译桥梁”,极大地增加了系统的复杂性。 同时,Apple HomeKit、SamSung SmartThings、Amazon Alexa、Google Home等主流智能家居平台为了提升市占率与消费者
    华普微HOPERF 2025-01-06 17:23 146浏览
  • By Toradex 秦海1). 简介嵌入式平台设备基于Yocto Linux 在开发后期量产前期,为了安全以及提高启动速度等考虑,希望将 ARM 处理器平台的 Debug Console 输出关闭,本文就基于 NXP i.MX8MP ARM 处理器平台来演示相关流程。 本文所示例的平台来自于 Toradex Verdin i.MX8MP 嵌入式平台。  2. 准备a). Verdin i.MX8MP ARM核心版配合Dahlia载板并
    hai.qin_651820742 2025-01-07 14:52 51浏览
  • 每日可见的315MHz和433MHz遥控模块,你能分清楚吗?众所周知,一套遥控设备主要由发射部分和接收部分组成,发射器可以将控制者的控制按键经过编码,调制到射频信号上面,然后经天线发射出无线信号。而接收器是将天线接收到的无线信号进行解码,从而得到与控制按键相对应的信号,然后再去控制相应的设备工作。当前,常见的遥控设备主要分为红外遥控与无线电遥控两大类,其主要区别为所采用的载波频率及其应用场景不一致。红外遥控设备所采用的射频信号频率一般为38kHz,通常应用在电视、投影仪等设备中;而无线电遥控设备
    华普微HOPERF 2025-01-06 15:29 132浏览
  • 村田是目前全球量产硅电容的领先企业,其在2016年收购了法国IPDiA头部硅电容器公司,并于2023年6月宣布投资约100亿日元将硅电容产能提升两倍。以下内容主要来自村田官网信息整理,村田高密度硅电容器采用半导体MOS工艺开发,并使用3D结构来大幅增加电极表面,因此在给定的占位面积内增加了静电容量。村田的硅技术以嵌入非结晶基板的单片结构为基础(单层MIM和多层MIM—MIM是指金属 / 绝缘体/ 金属) 村田硅电容采用先进3D拓扑结构在100um内,使开发的有效静电容量面积相当于80个
    知白 2025-01-07 15:02 76浏览
  • 彼得·德鲁克被誉为“现代管理学之父”,他的管理思想影响了无数企业和管理者。然而,关于他的书籍分类,一种流行的说法令人感到困惑:德鲁克一生写了39本书,其中15本是关于管理的,而其中“专门写工商企业或为企业管理者写的”只有两本——《为成果而管理》和《创新与企业家精神》。这样的表述广为流传,但深入探讨后却发现并不完全准确。让我们一起重新审视这一说法,解析其中的矛盾与根源,进而重新认识德鲁克的管理思想及其著作的真正价值。从《创新与企业家精神》看德鲁克的视角《创新与企业家精神》通常被认为是一本专为企业管
    优思学院 2025-01-06 12:03 124浏览
  • PLC组态方式主要有三种,每种都有其独特的特点和适用场景。下面来简单说说: 1. 硬件组态   定义:硬件组态指的是选择适合的PLC型号、I/O模块、通信模块等硬件组件,并按照实际需求进行连接和配置。    灵活性:这种方式允许用户根据项目需求自由搭配硬件组件,具有较高的灵活性。    成本:可能需要额外的硬件购买成本,适用于对系统性能和扩展性有较高要求的场合。 2. 软件组态   定义:软件组态主要是通过PLC
    丙丁先生 2025-01-06 09:23 85浏览
  • 这篇内容主要讨论三个基本问题,硅电容是什么,为什么要使用硅电容,如何正确使用硅电容?1.  硅电容是什么首先我们需要了解电容是什么?物理学上电容的概念指的是给定电位差下自由电荷的储藏量,记为C,单位是F,指的是容纳电荷的能力,C=εS/d=ε0εrS/4πkd(真空)=Q/U。百度百科上电容器的概念指的是两个相互靠近的导体,中间夹一层不导电的绝缘介质。通过观察电容本身的定义公式中可以看到,在各个变量中比较能够改变的就是εr,S和d,也就是介质的介电常数,金属板有效相对面积以及距离。当前
    知白 2025-01-06 12:04 175浏览
  • 根据Global Info Research项目团队最新调研,预计2030年全球封闭式电机产值达到1425百万美元,2024-2030年期间年复合增长率CAGR为3.4%。 封闭式电机是一种电动机,其外壳设计为密闭结构,通常用于要求较高的防护等级的应用场合。封闭式电机可以有效防止外部灰尘、水分和其他污染物进入内部,从而保护电机的内部组件,延长其使用寿命。 环洋市场咨询机构出版的调研分析报告【全球封闭式电机行业总体规模、主要厂商及IPO上市调研报告,2025-2031】研究全球封闭式电机总体规
    GIRtina 2025-01-06 11:10 104浏览
  •     为控制片内设备并且查询其工作状态,MCU内部总是有一组特殊功能寄存器(SFR,Special Function Register)。    使用Eclipse环境调试MCU程序时,可以利用 Peripheral Registers Viewer来查看SFR。这个小工具是怎样知道某个型号的MCU有怎样的寄存器定义呢?它使用一种描述性的文本文件——SVD文件。这个文件存储在下面红色字体的路径下。    例:南京沁恒  &n
    电子知识打边炉 2025-01-04 20:04 100浏览
  • 本文介绍Linux系统更换开机logo方法教程,通用RK3566、RK3568、RK3588、RK3576等开发板,触觉智能RK3562开发板演示,搭载4核A53处理器,主频高达2.0GHz;内置独立1Tops算力NPU,可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示与控制等行业。制作图片开机logo图片制作注意事项(1)图片必须为bmp格式;(2)图片大小不能大于4MB;(3)BMP位深最大是32,建议设置为8;(4)图片名称为logo.bmp和logo_kernel.bmp;开机
    Industio_触觉智能 2025-01-06 10:43 87浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦