统计学-随机变量

原创 云深之无迹 2024-03-02 22:29

我发现微积分,线性代数,概率,统计,这四个学科有点难舍难分。但是应该从微积分,线性代数这样学才是对的,不然你是看不懂统计和概率的。

统计学是说两个事情,一堆数据如何描述,以及数据如何推断。

统计描述 (descriptive statistics) 是指对数据进行整体性的描述和概括,以了解数据的特征和结构。统计描述旨在通过一些表格、图像、量化汇总来呈现数据的基本特征,比如中心趋势、离散程度、分布形态等。统计描述通常是数据分析的第一步,可以帮助我们了解数据的基本情况,判断数据的可靠性、准确性和有效性。 

在大学第一次学这些内容的时候,并不能很好的理解全部的内容,但是一年多的工程实践,让我有了那么一点点的全局的感觉。



“随机变量不同于代数中的变量,因为它具有一组完整的值,并且可以随机获取任何值。代数中使用的变量一次不能具有多个值。如果随机变量X = {0,1,2,3} 那么X可以是随机的0、1、2或3,其中每个都有不同的概率。”

随机变量

统计描述

随机变量是指变量的值无法预先确定仅以一定的可能性(概率)取值的量。它是由于随机而获得的非确定值,是概率中的一个基本概念。 

因变量

变量拥有这些特点

随机变量在统计和概率中非常重要的概念,必须先具有随机变量,才会有后续概率分布的概念。

随机变量用来表示随机现象的结果,可以看成一组值,每个值都有一定的概率被取到。

我感觉以前没有学好的原因就是一些基础概念的不理解。

接下来就是概率:

古典概率空间

就是这样的

比值就行

这里插一句,其实上面的分类有些混乱,其实研究完随机变量,就是研究多高多个随机变量之间的关系。

先看两个变量之间的关系

这样的,就无非是发生和不发生以及有顺序在

再补一个条件概率:

条件概率(英語:conditional probability)就是事件A在事件B发生的条件下发生的概率。条件概率表示为P(A|B),读作“A在B发生的条件下发生的概率”。边缘概率是某个事件发生的概率。联合概率是两个事件一起发生。

总结一下:

这一趴算OK

至于为什么是古典概率,大概就是因为在古代大家就在研究这个。

这些个是离散随机变量,我这里就有点知识匮乏了

高斯分布就不放了,我搞不懂了

接下来看统计描述:

书里面吧,人家公式啥的写的更详细,我这里就盗图了。

用Adobe Illustrator美化matplotlib输出图

书是使用的上面文章里面的书。

直方图通常将样本数据分成若干个连续的区间,也称为“箱子”或“组”。直方图中矩形的纵轴高度可以对应频数、概率或概率密度。

一般我们使用的时候,频数用到最多。

你看这个图多漂亮,就算不懂都一目了然

频数,也叫次数,是指在一定范围内样本数据的数量。显然,频数为非负整数。

频数除以样本总数的结果做概率

概率除以组距得到的是概率密度 (probability density)

积频数就是将从小到大各区间的频数逐个累加起来,累积频数的最后一个值是样本总数。

积分是什么?

先不管哪些公式啥的,就记住我说的话:指的是对函数的积累总和或面积的计算过程。在微积分中,积分是求解函数的定积分或不定积分,用于计算曲线下面积、求函数的反导数等。

就是加起来,求和,至于把什么加起来再说,反正就先认为是加起来。

就是积分这个Fx,从a到-♾️

这里补充一个知识:

一开始文章里面的这个地方的♾️是没有符号的,感谢王老师

记住积分的区间

王老师口中的累积概率函数也是概率分布函数的意思

概率密度函数描述的是随机变量在某个取值点的概率密度,是描述随机变量分布的基本函数之一。

纵轴是概率密度,你可以看下面的值,对应的密度是多少

名词出现,概率密度?其实很多时候都是从物理上面拉概念。

概率密度(Probability Density),指事件随机发生的几率。概率密度等于一段区间(事件的取值范围)的概率除以该段区间的长度,它的值是非负的,可以很大也可以很小。

在实际问题中,往往无法直接获得概率密度函数,因此需要通过概率密度估计来估计概率密度函数。

概率密度函数:在数学中,连续型随机变量的概率密度函数(Probability density function,简写作PDF),在不致于混淆时可简称为密度函数,是一个描述这个随机变量的输出值,在某个确定的取值点附近的可能性的函数。

下图中,横轴为随机变量的取值,纵轴为概率密度函数的值,而随机变量的取值落在某个区域内的概率为概率密度函数在这个区域上的积分。

当概率密度函数存在的时候,累积分布函数概率密度函数的积分。

图就是这样

概率密度函数可帮助确定随机变量值的较高和较低概率的区域。

对于离散变量,PDF 将给出给定 x 值的概率值。例如,糖果制造商生产多种颜色的某一类型糖果。生产的糖果中有 30% 为黄色,10% 为橙色,10% 为红色,20% 为绿色,30% 为蓝色。

概率密度函数 (PDF) 是一个用于表示连续随机变量的概率分布的等式。例如,为葡萄酒瓶切割软木塞的机器可产生直径不同的软木塞。在下面的软木塞直径条形图中,每个条形表示具有相应直径的软木塞的百分比。

曲线是软木塞直径的 PDF。可使用 PDF 确定随机变量值的较高和较低概率的范围。例如,只有较小百分比的软木塞 (1%) 直径小于 2.8 厘米。

这个图不咋样

山脊图 (ridgeline plot) 是由多个重叠的概率密度线图构成,这种可视化方案形式上紧凑。山脊图的基本思想是,将数据沿着 y 轴的方向上的一条带状区间内进行展示,使得数据的分布曲线能够清晰地显示出来,并且不会重叠和遮挡。在山脊图中,每个变量的分布曲线通常用核密度估计法或直方图法进行估计,然后按照一定的顺序进行平移和叠加。
山脊图常用于探索多个变量之间的关系和相互作用,以及发现变量的共同分布特征和异常点。它可以用于可视化各种类型的数据,比如时间序列数据、连续变量数据、分类变量数据等。

山脊图

散点图常用于展示两个变量之间的关系和相互作用。散点图将每个数据点表示为二维坐标系上的一个点,其中一个变量沿 x 轴方向表示,另一个变量沿 y 轴方向表示,每个点的位置反映了两个变量之间的数值关系。
散点图可以用于研究两个变量之间的线性关系、非线性关系或者无关系。如果两个变量之间存在线性关系,那么散点图中的点会形成一条斜率为正或负的回归直线。如果两个变量之间存在非线性关系,那么散点图中的点会形成一条回归曲线或者散布在二维坐标系的不同区域。如果两个变量之间无关系,那么散点图中的点会相对均匀地分布在二维坐标系中。

散点图常用于探索数据中的异常值、趋势和模式,并且可以发现变量之间的相互作用和关联性。

散点图还可以进行扩展,就是在边缘做计算

左是边缘直方图,右是加了概率密度曲线

其实就是变量之间的关系的可视化。

这里说一下使用的这个数据集:

鸢尾花数据集共收集了三类鸢尾花,即Setosa鸢尾花、Versicolour鸢尾花和Virginica鸢尾花,每一类鸢尾花收集了50条样本记录,共计150条。

数据集包括4个属性,分别为花萼的长、花萼的宽、花瓣的长和花瓣的宽。对花瓣我们可能比较熟悉,花萼是什么呢?花萼是花冠外面的绿色被叶,在花尚未开放时,保护着花蕾。四个属性的单位都是cm,属于数值变量,四个属性均不存在缺失值的情况,字段如下:

  • sepal length(萼片长度)

  • sepal width(萼片宽度)

  • petal length(花瓣长度)

  • petal width (花瓣宽度)

  • Species(品种类别):分别是:Setosa、Versicolour、Virginica

单位都是厘米。

数据集是很小的

官方的位置

可以用pandas来下载

我们简单的来进行一个替换

接下来安装一下Spyder

可以安装一个插件开启notebook

看看优点

看看补全

但是这个Jupyter的插件是无法在安装的

这个是信号与系统里面的内容,看到了这个概密度函数

一个函数如果满足如下条件,则可以称为概率密度函数:

这可以看做是离散型随机变量的推广,积分值为1对应于取各个值的概率之和为1。

分布函数是概率密度函数的变上限积分,它定义为:

显然这个函数是增函数,而且其最大值为1。分布函数的意义是随机变量的概率。注意,连续型随机变量取某一个值的概率为0,但是其取值落在某一个区间的值可以不为0:

虽然连续型随机变量取一个值的概率为0,但取各个不通过的值的概率还是有相对大小的,这个相对大小就是概率密度函数。这就好比一个物体,在任意一点处的质量为0,但在这一点有密度值,密度值衡量了在各点处的质量的相对大小。

从这个角度,我们可以将概率密度函数解释为随机变量落在一个区间内的概率与这个区间大小的比值在区间大小趋向于0时的极限:

这个过程如下图所示:

还是以上面的正方形为例,如果要计算随机点(x, y)都落在区间[0, 0.5]内的概率,可以这样计算:

这个面积,就是积分值,对应于分布函数。最常见的连续型概率分布是正态分布,也称为高斯分布。它的概率密度函数为:

其中μ和σ分别为均值和方差。现实世界中的很多数据,例如人的身高、体重、寿命等都近似服从正态分布。

另外一种常用的分布是均匀分布,如果随机变量x服从区间[a,b]内的均匀分布,则其概率密度函数为:

在程序设计和机器学习中,这两种分布是最为常见的。


一般教程里面都会说一个什么质量为0的物体:之所以说在任意一处质量为0的原因,是因为在连续分布中,分母是无穷大的。

概率密度就是对概率求导:左边是F(x)连续型随机变量分布函数画出的图形,右边是f(x)连续型随机变量的概率密度函数画出的图像,它们之间的关系就是,概率密度函数是分布函数的导函数。

如果随机变量的值都可以逐个列举出来,则为离散型随机变量。如果随机变量X的取值无法逐个列举则为连续型变量。

概率分布函数就是把概率函数累加

来看看图上的公式,其中的F(x)就代表概率分布函数

这个符号的右边是一个长的很像概率函数的公式,但是其中的等号变成了小于等于号的公式。再往右看看,这是一个一个的概率函数的累加!

发现概率分布函数的秘密了吗?它其实根本不是个新事物,它就是概率函数取值的累加结果!所以它又叫累积概率函数!

这个词的意思是什么?

概率密度函数用数学公式表示就是一个定积分的函数,定积分在数学中是用来求面积的,而在这里,你就把概率表示为面积即可。

Q:概率密度函数在某一点的值有什么意义?
A:比较容易理解的意义,某点的概率密度函数即为概率在该点的变化率(或导数)。很容易误以为该点概率密度值为概率值.
比如: 距离(概率)和速度(概率密度)的关系.
某一点的速度, 不能以为是某一点的距离
没意义,因为距离是从XX到XX的概念
所以, 概率也需要有个区间.
这个区间可以是x的邻域(可以无限趋近于0)。对x邻域内的f(x)进行积分,可以求得这个邻域的面积,就代表了这个邻域所代表这个事件发生的概率。

本来是感觉这本书非常有用,但是发现还是要数学知识扎实才能看爽

不过在此之前也可以先看看这个

接下来的文章如果会发的话,那就是要上强度了。

https://cloud.tencent.com/developer/article/1514756
https://zhuanlan.zhihu.com/p/48140593
https://github.com/Visualize-ML/Book5_Essentials-of-Probability-and-Statistics
https://juejin.cn/post/7141566114412101662
https://www.gairuo.com/p/iris-dataset
http://archive.ics.uci.edu/dataset/53/iris
https://support.minitab.com/zh-cn/minitab/21/help-and-how-to/probability-distributions-random-data-and-resampling-analyses/supporting-topics/basics/using-the-probability-density-function-pdf/

评论
  • 近期,智能家居领域Matter标准的制定者,全球最具影响力的科技联盟之一,连接标准联盟(Connectivity Standards Alliance,简称CSA)“利好”频出,不仅为智能家居领域的设备制造商们提供了更为快速便捷的Matter认证流程,而且苹果、三星与谷歌等智能家居平台厂商都表示会接纳CSA的Matter认证体系,并计划将其整合至各自的“Works with”项目中。那么,在本轮“利好”背景下,智能家居的设备制造商们该如何捉住机会,“掘金”万亿市场呢?重认证快通道计划,为家居设备
    华普微HOPERF 2025-01-16 10:22 176浏览
  • 一个易用且轻量化的UI可以大大提高用户的使用效率和满意度——通过快速启动、直观操作和及时反馈,帮助用户快速上手并高效完成任务;轻量化设计则可以减少资源占用,提升启动和运行速度,增强产品竞争力。LVGL(Light and Versatile Graphics Library)是一个免费开源的图形库,专为嵌入式系统设计。它以轻量级、高效和易于使用而著称,支持多种屏幕分辨率和硬件配置,并提供了丰富的GUI组件,能够帮助开发者轻松构建出美观且功能强大的用户界面。近期,飞凌嵌入式为基于NXP i.MX9
    飞凌嵌入式 2025-01-16 13:15 196浏览
  • 80,000人到访的国际大展上,艾迈斯欧司朗有哪些亮点?感未来,光无限。近日,在慕尼黑electronica 2024现场,ams OSRAM通过多款创新DEMO展示,以及数场前瞻洞察分享,全面展示自身融合传感器、发射器及集成电路技术,精准捕捉并呈现环境信息的卓越能力。同时,ams OSRAM通过展会期间与客户、用户等行业人士,以及媒体朋友的深度交流,向业界传达其以光电技术为笔、以创新为墨,书写智能未来的深度思考。electronica 2024electronica 2024构建了一个高度国际
    艾迈斯欧司朗 2025-01-16 20:45 143浏览
  • 实用性高值得收藏!! (时源芯微)时源专注于EMC整改与服务,配备完整器件 TVS全称Transient Voltage Suppre,亦称TVS管、瞬态抑制二极管等,有单向和双向之分。单向TVS 一般应用于直流供电电路,双向TVS 应用于电压交变的电路。在直流电路的应用中,TVS被并联接入电路中。在电路处于正常运行状态时,TVS会保持截止状态,从而不对电路的正常工作产生任何影响。然而,一旦电路中出现异常的过电压,并且这个电压达到TVS的击穿阈值时,TVS的状态就会
    时源芯微 2025-01-16 14:23 151浏览
  • 随着消费者对汽车驾乘体验的要求不断攀升,汽车照明系统作为确保道路安全、提升驾驶体验以及实现车辆与环境交互的重要组成,日益受到业界的高度重视。近日,2024 DVN(上海)国际汽车照明研讨会圆满落幕。作为照明与传感创新的全球领导者,艾迈斯欧司朗受邀参与主题演讲,并现场展示了其多项前沿技术。本届研讨会汇聚来自全球各地400余名汽车、照明、光源及Tier 2供应商的专业人士及专家共聚一堂。在研讨会第一环节中,艾迈斯欧司朗系统解决方案工程副总裁 Joachim Reill以深厚的专业素养,主持该环节多位
    艾迈斯欧司朗 2025-01-16 20:51 108浏览
  • 晶台光耦KL817和KL3053在小家电产品(如微波炉等)辅助电源中的广泛应用。具备小功率、高性能、高度集成以及低待机功耗的特点,同时支持宽输入电压范围。▲光耦在实物应用中的产品图其一次侧集成了交流电压过零检测与信号输出功能,该功能产生的过零信号可用于精确控制继电器、可控硅等器件的过零开关动作,从而有效减小开关应力,显著提升器件的使用寿命。通过高度的集成化和先进的控制技术,该电源大幅减少了所需的外围器件数量,不仅降低了系统成本和体积,还进一步增强了整体的可靠性。▲电路示意图该电路的过零检测信号由
    晶台光耦 2025-01-16 10:12 97浏览
  •   在信号处理过程中,由于信号的时域截断会导致频谱扩展泄露现象。那么导致频谱泄露发生的根本原因是什么?又该采取什么样的改善方法。本文以ADC性能指标的测试场景为例,探讨了对ADC的输出结果进行非周期截断所带来的影响及问题总结。 两个点   为了更好的分析或处理信号,实际应用时需要从频域而非时域的角度观察原信号。但物理意义上只能直接获取信号的时域信息,为了得到信号的频域信息需要利用傅里叶变换这个工具计算出原信号的频谱函数。但对于计算机来说实现这种计算需要面对两个问题: 1.
    TIAN301 2025-01-14 14:15 171浏览
  • 食物浪费已成为全球亟待解决的严峻挑战,并对环境和经济造成了重大影响。最新统计数据显示,全球高达三分之一的粮食在生产过程中损失或被无谓浪费,这不仅导致了资源消耗,还加剧了温室气体排放,并带来了巨大经济损失。全球领先的光学解决方案供应商艾迈斯欧司朗(SIX:AMS)近日宣布,艾迈斯欧司朗基于AS7341多光谱传感器开发的创新应用来解决食物浪费这一全球性难题。其多光谱传感解决方案为农业与食品行业带来深远变革,该技术通过精确判定最佳收获时机,提升质量控制水平,并在整个供应链中有效减少浪费。 在2024
    艾迈斯欧司朗 2025-01-14 18:45 132浏览
  • 数字隔离芯片是现代电气工程师在进行电路设计时所必须考虑的一种电子元件,主要用于保护低压控制电路中敏感电子设备的稳定运行与操作人员的人身安全。其不仅能隔离两个或多个高低压回路之间的电气联系,还能防止漏电流、共模噪声与浪涌等干扰信号的传播,有效增强电路间信号传输的抗干扰能力,同时提升电子系统的电磁兼容性与通信稳定性。容耦隔离芯片的典型应用原理图值得一提的是,在电子电路中引入隔离措施会带来传输延迟、功耗增加、成本增加与尺寸增加等问题,而数字隔离芯片的目标就是尽可能消除这些不利影响,同时满足安全法规的要
    华普微HOPERF 2025-01-15 09:48 182浏览
  • 随着智慧科技的快速发展,智能显示器的生态圈应用变得越来越丰富多元,智能显示器不仅仅是传统的显示设备,透过结合人工智能(AI)和语音助理,它还可以成为家庭、办公室和商业环境中的核心互动接口。提供多元且个性化的服务,如智能家居控制、影音串流拨放、实时信息显示等,极大提升了使用体验。此外,智能家居系统的整合能力也不容小觑,透过智能装置之间的无缝连接,形成了强大的多元应用生态圈。企业也利用智能显示器进行会议展示和多方远程合作,大大提高效率和互动性。Smart Display Ecosystem示意图,作
    百佳泰测试实验室 2025-01-16 15:37 169浏览
  • 百佳泰特为您整理2025年1月各大Logo的最新规格信息,本月有更新信息的logo有HDMI、Wi-Fi、Bluetooth、DisplayHDR、ClearMR、Intel EVO。HDMI®▶ 2025年1月6日,HDMI Forum, Inc. 宣布即将发布HDMI规范2.2版本。新规范将支持更高的分辨率和刷新率,并提供更多高质量选项。更快的96Gbps 带宽可满足数据密集型沉浸式和虚拟应用对传输的要求,如 AR/VR/MR、空间现实和光场显示,以及各种商业应用,如大型数字标牌、医疗成像和
    百佳泰测试实验室 2025-01-16 15:41 157浏览
  • 全球领先的光学解决方案供应商艾迈斯欧司朗(SIX:AMS)近日宣布,与汽车技术领先者法雷奥合作,采用创新的开放系统协议(OSP)技术,旨在改变汽车内饰照明方式,革新汽车行业座舱照明理念。结合艾迈斯欧司朗开创性的OSIRE® E3731i智能LED和法雷奥的动态环境照明系统,两家公司将为车辆内饰设计和功能设立一套全新标准。汽车内饰照明的作用日益凸显,座舱设计的主流趋势应满足终端用户的需求:即易于使用、个性化,并能提供符合用户生活方式的清晰信息。因此,动态环境照明带来了众多新机遇。智能LED的应用已
    艾迈斯欧司朗 2025-01-15 19:00 78浏览
  • 电竞鼠标应用环境与客户需求电竞行业近年来发展迅速,「鼠标延迟」已成为决定游戏体验与比赛结果的关键因素。从技术角度来看,传统鼠标的延迟大约为20毫秒,入门级电竞鼠标通常为5毫秒,而高阶电竞鼠标的延迟可降低至仅2毫秒。这些差异看似微小,但在竞技激烈的游戏中,尤其在对反应和速度要求极高的场景中,每一毫秒的优化都可能带来致胜的优势。电竞比赛的普及促使玩家更加渴望降低鼠标延迟以提升竞技表现。他们希望通过精确的测试,了解不同操作系统与设定对延迟的具体影响,并寻求最佳配置方案来获得竞技优势。这样的需求推动市场
    百佳泰测试实验室 2025-01-16 15:45 233浏览
  • 故障现象 一辆2007款法拉利599 GTB车,搭载6.0 L V12自然吸气发动机(图1),累计行驶里程约为6万km。该车因发动机故障灯异常点亮进厂检修。 图1 发动机的布置 故障诊断接车后试车,发动机怠速轻微抖动,发动机故障灯长亮。用故障检测仪检测,发现发动机控制单元(NCM)中存储有故障代码“P0300 多缸失火”“P0309 气缸9失火”“P0307 气缸7失火”,初步判断发动机存在失火故障。考虑到该车使用年数较长,决定先使用虹科Pico汽车示波器进行相对压缩测试,以
    虹科Pico汽车示波器 2025-01-15 17:30 95浏览
  • 日前,商务部等部门办公厅印发《手机、平板、智能手表(手环)购新补贴实施方案》明确,个人消费者购买手机、平板、智能手表(手环)3类数码产品(单件销售价格不超过6000元),可享受购新补贴。每人每类可补贴1件,每件补贴比例为减去生产、流通环节及移动运营商所有优惠后最终销售价格的15%,每件最高不超过500元。目前,京东已经做好了承接手机、平板等数码产品国补优惠的落地准备工作,未来随着各省市关于手机、平板等品类的国补开启,京东将第一时间率先上线,满足消费者的换新升级需求。为保障国补的真实有效发放,基于
    华尔街科技眼 2025-01-17 10:44 126浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦