统计力学中的概率论基础

admin6个月前笔记58

技术背景

统计力学是一门通过粒子的纯粹微观量来表示系统宏观量的学科,从统计分布出发,用无偏/有偏估计来研究各种不同的系综。本文内容部分参考自郑伟谋老师所著《统计力学导引》,主要介绍其中概率论基础的部分。但因为大多是个人的理解,如有差错,与参考文献作者无关

事件与概率

假定我们抛一枚质地未知的硬币,正面事件记为𝐴,反面事件记为𝐵。那么经过多次的测试,可以得到一个统计概率:𝑃(𝐴)=𝑛𝐴𝑁,𝑃(𝐵)=𝑛𝐵𝑁。这里就可以有一些基本性的结论:


𝑃(𝐴)0,𝑃(𝐵)0𝑃(𝐴)+𝑃(𝐵)=1


因为这里面事件𝐴和事件𝐵是互斥事件(发生𝐴的同时不可能发生𝐵),那么发生𝐴𝐵的概率就可以表示为:


𝑃(𝐴𝐵)=𝑛𝐴+𝑛𝐵𝑁=𝑃(𝐴)+𝑃(𝐵)


以上就是概率函数的3个基本特性。假如在此基础上,再进行一轮测试,那么此时得到𝐴的概率为:


𝑃(𝐴)=𝑛𝐴(1)+𝑛𝐴(2)𝑁1+𝑁2


由于样本数的不一致,这里有:


𝑃1(𝐴)+𝑃2(𝐴)=𝑛𝐴(1)𝑁1+𝑛𝐴(2)𝑁2𝑃(𝐴)=𝑃1(𝐴)𝑁1𝑁1+𝑁2+𝑃2(𝐴)𝑁2𝑁1+𝑁2


也就是说,如果要获取多份样本中的同一个事件的总概率,需要依照样本数做一个加权平均。

条件概率

如果问题变得更加复杂一些,我们一次抛2个硬币,并且记1号硬币正面朝上为事件𝐴,反面朝上为事件𝐵,2号硬币正面朝上为事件𝐶,反面朝上为事件𝐷。那么类似的有𝑃(𝐶)=𝑛𝐶𝑁,𝑃(𝐷)=𝑛𝐷𝑁,这是对2号硬币的结果的概率统计。此时如果我们去统计一个联合概率,1号硬币正面朝上2号硬币也正面朝上的概率为:


𝑃(𝐴𝐶)=𝑛𝐴𝐶𝑁=𝑛𝐴𝑁𝑛𝐴𝐶𝑛𝐴=𝑃(𝐴)𝑃(𝐶|𝐴)


其中𝑃(𝐶|𝐴)表示事件𝐴发生的条件下,事件𝐶发生的概率,是一个条件概率。

同样在这个案例中,因为事件𝐶发生的概率为𝑛𝐶𝑁,因此在𝑛𝐴的样本数下,事件𝐶发生的频次的期望值为𝑛𝐴𝐶=𝑛𝐶𝑁𝑛𝐴,因此有:


𝑃(𝐴𝐶)=𝑛𝐴𝑁𝑛𝐴𝐶𝑛𝐴=𝑛𝐴𝑁𝑛𝐶𝑁=𝑃(𝐴)𝑃(𝐶)


贝叶斯定理

满足这种条件的事件𝐴𝐶,又称为独立事件。并由此可以得到贝叶斯(Bayes)定理


𝑃(𝐴|𝐶)𝑃(𝐶)=𝑃(𝐶|𝐴)𝑃(𝐴)


或者写为这种更加常见的形式:


𝑃(𝐴|𝐶)=𝑃(𝐶|𝐴)𝑃(𝐴)𝑃(𝐶)


还是在这个案例中,因为我们知道第一个硬币正面朝上(事件𝐴)的条件下,对应的第二个硬币,要么正面朝上(事件𝐶),要么反面朝上(事件𝐷),而事件𝐴的概率可以表示为两个条件概率的加和:


𝑃(𝐴)=𝑃(𝐴|𝐶)+𝑃(𝐴|𝐷)


该公式又称为边际分布

累积分布函数

如果我们随机投一个骰子,它朝上的一面对应的值,有可能是整数1~6之间的一个。因为在投之前,我们并不知道会出现什么数字朝上,因此我们将朝上的数字定义为一个随机变量𝑋。对于一个随机变量𝑋而言,其分布函数被定义为:


𝐹(𝑥)=𝑃(𝑋𝑥)


表示的是𝑋取值不大于𝑥的概率,例如,开小的概率为𝐹(3)=𝑃(𝑋3)=12,开大的概率为𝐹(6)𝐹(3)=𝑃(𝑋6)𝑃(𝑋3)=12。其导数𝑓(𝑥)=𝐹(𝑥)概率密度函数。累积分布函数有如下的一些特性:

  1. 累积分布函数是有界的:lim𝑥𝐹(𝑥)=0,lim𝑥+𝐹(𝑥)=1

  2. 累积分布函数具有单调性:𝐹(𝑥1)𝐹(𝑋2),𝑥1𝑥2

  3. 𝑃(𝑥1<𝑥𝑥2)=𝐹(𝑥2)𝐹(𝑋1)

  4. 当我们写出上面这个式子时,我们应当注意到,这是一个左开右闭的区间。其实也容易理解,比如狄拉克函数的积分在𝑥=𝑥0处有一个突跃的位置,那么比较显然的是,𝐹𝑥𝑥0(𝑥)=0,𝐹𝑥=𝑥0(𝑥)=1,𝐹𝑥𝑥0+(𝑥)=1。更一般的,我们可以理解其为右连续的累积分布函数:lim𝑥𝑥0+𝐹(𝑥)=𝐹(𝑥0)

如果考虑一个离散情形的概率密度函数,有:


𝑓(𝑥)Δ𝑥=𝑃(𝑥𝑋𝑥+Δ𝑥)


分布函数唯一地决定随机变量的全部数字特征。

对于这个投骰子的问题,虽然我们没办法知道下一次会投出什么数字来,但是我们可以计算出出现的数字的平均值,或者叫期望值


𝐸(𝑋)=1𝑃(𝑋=1)+2𝑃(𝑋=2)+...+6𝑃(𝑋=6)=16+26+...+66=72


也就是说,最终得到的点数的平均值应该为3.5。那么假如对于这个随机变量,有一个函数𝑌=(𝑋),那么关于𝑌的期望值为:


𝐸(𝑌)=𝐸((𝑋))=(1)𝑃(𝑋=1)+(2)𝑃(𝑋=2)+...+(6)𝑃(𝑋=6)


对于连续型的随机变量来说,期望值可以写为:


𝜇(𝑋)=𝐸(𝑋)=𝑥𝑓(𝑥)𝑑𝑥


带函数的期望值可以写为:𝐸((𝑥))=(𝑥)𝑓(𝑥)𝑑𝑥,例如𝑋𝛾阶绝对矩为:


𝑀𝛾(𝑋)=𝐸(|𝑋|𝛾)=|𝑋|𝛾𝑓(𝑥)𝑑𝑥


此时要回顾起一个跟期望值/平均值息息相关的函数:方差函数。在概率论中,方差被定义为:


𝜎2(𝑋)=𝐸[(𝑋𝐸(𝑋))2]=𝐸[𝑋22𝐸(𝑋)𝑋+𝐸(𝑋)2]=𝐸(𝑋2)2[𝐸(𝑋)]2+[𝐸(𝑋)]2=𝑀2(𝑋)[𝜇(𝑋)]2=(𝑥𝜇)2𝑓(𝑥)𝑑𝑥


有了方差,自然就有了标准差


𝜎(𝑋)=𝑀2(𝑋)[𝜇(𝑋)]2


如果是多变量情形,我们还可以定义一个协方差(Covariance)用于衡量两个变量之间的总体偏差:


𝐶𝑜𝑣(𝑋,𝑌)=𝐸{[𝑋𝐸(𝑋)][𝑌𝐸(𝑌)]}=𝐸[𝑋𝑌𝑌𝐸(𝑋)𝑋𝐸(𝑌)+𝐸(𝑋)𝐸(𝑌)]=𝐸(𝑋𝑌)𝐸(𝑋)𝐸(𝑌)


需要注意的是,协方差可以用于计算一维的随机变量𝑋,𝑌,也可以用于计算高维的随机变量X,Y。我们可以想象出来,对于一个shape为(𝑛,)的随机变量X而言,对其计算期望值𝐸(X),得到的结果也是(𝑛,)的shape。如果给定的是两个高维的随机变量X,Y,假设其shape分别为(𝑛,)(𝑚,),那么得到的期望值𝐸(XY)的结果shape为(𝑛,𝑚)。类似的,𝐸(X)𝐸(Y)的结果shape也是(𝑛,𝑚)。这样一来,协方差𝐶𝑜𝑣(X,Y)的结果shape也是(𝑛,𝑚)

母函数

母函数,又称生成函数(Generating function),是一种形式幂级数,其每一项的系数可以提供关于这个序列的信息。例如我们有可能得到这样的一个母函数:


𝑔(𝑥)=2𝑥1+3𝑥4


这个形式的母函数表示,事件1发生的概率为22+3=25,事件4有可能发生的概率为35。具体的母函数构造方法是这样的,还是以抛硬币为例子。假设硬币正面朝上为事件𝐴,硬币反面朝上为事件𝐵,那么可以这样构造一个母函数:


𝑔(𝑥)=𝑃(𝐴)+𝑥𝑃(𝐵),𝑃(𝐴)+𝑃(𝐵)=1


这里面𝑥只是一个形参,没有具体含义。那么如果我们抛两次硬币,得到的母函数形式为:


𝑔(𝑥)=[𝑃(𝐴)+𝑥𝑃(𝐵)][𝑃(𝐴)+𝑥𝑃(𝐵)]=𝑥0𝑃(𝐴)2+2𝑥1𝑃(𝐴)𝑃(𝐵)+𝑥2𝑃(𝐵)


写成这个形式之后,就可以分别获得三个不同事件的概率。事件0:两次都是正面朝上,概率为𝑃(0)=𝑃(𝐴)2,事件1:一次正面朝上一次反面朝上,概率为𝑃(1)=2𝑃(𝐴)𝑃(𝐵),事件2:两次都是反面朝上,概率为𝑃(2)=𝑃(𝐵)2。那么假设投的是一块质地均匀的硬币,这样我们得到的三个事件的概率分别为:


𝑃(0)=14,𝑃(1)=12,𝑃(2)=14


这里事件1记录的是一个无序事件,如果要记录为有序事件,即第一次正面朝上、第二次反面朝上和第一次反面朝上、第二次正面朝上为不同事件的话,那表示方法又会有所不同。母函数更多的用于记录可能出现的组合的数量,也就是无序事件的场景用的会更多一些。

总结概要

本文的主要内容是一些统计力学中的基础的概率论知识,如密度函数、分布函数和贝叶斯定理的一些基本概念,主要作为一个简单的知识内容记录和分享。


相关文章

SSMTP—让Linux系统从Office 365发送邮件

SSMTP—让Linux系统从Office 365发送邮件

SSMTP如何工作在正式安装和配置之前,我们先简要介绍下 SSMTP 是如何工作的。SSMTP 可以被安装到任意 Linux 系统当中,一旦配置完成,所有来自 root、nobody 或其它应用程序发...

虚拟主机解决电信网通间互联互通

电信和网通两大基础网络,人为地割裂了整个中国的网络。无论是选择把网站托管在电信、还是网通,都等于是在拒绝处于另外一个网络中的客户,因为实在太慢了。  那么有什么办法可以解决这个问题呢?目前主流的解决方...

 Windows 系统下常用的八个网络配置命令

Windows 系统下常用的八个网络配置命令

一、ipconfigipconfig 是 Windows 网络中最常使用的命令,用于显示计算机中网络适配器的 IP 地址、子网掩码及默认网关等信息。命令基本格式:ipconfig [/all...

ext3文件系统反删除利器-ext3grep

ext3文件系统反删除利器-ext3grep

ext3grep的恢复原理利用ext3grep恢复文件时并不依赖特定文本格式。首先ext3grep通过文件系统的root inode(根目录的inode一般为2)来获取当前文件系统下所有文件的信息,包...

正则表达式中 “$” 并不是表示 “字符串结束

这篇文章写一写我最近在用 Python 的正则表达式模块(re)开发 CPython 的 SBOM 工具时发现的一个令人惊讶的行为。如果用过正则表达式,你可能知道 ^ 表示 “字符...

云计算将成企业大数据业务发展核心推动因素

云计算将成企业大数据业务发展核心推动因素

现如今,企业管理者们几乎每天都不可避免的会看到诸如“大数据”或“云服务”这样的字眼。为了确保在当今的市场上具有竞争力,企业必须做出明智的业务决策,这些业务决策将产生真正的结果,无论这些结果是帮助增加企...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。