大数据IE实验备考3——概率论实验
3 概率论实验
3.1 概率论内容介绍
3.1.1 概率论介绍
概率论是研究随机现象数量规律的数学分支。随机现象是相对于决定性现象而言的,在一定条件下必然发生某一结果的现象称为決定性现象。
概率论是用来描述不确定性的数学工具,很多数据挖掘中的算法都是通过描述样本的概率相关信息或推断来构建模型。
3.1.2 实验介绍
本章节主要实现概率与统计相关的知识点,主要用到的框架是 numpy 和 scipy 框架。
3.2 概率论内容实现
导入相应库:
import numpy as np |
3.2.1 均值实现
数据准备
ll = [[1,2,3,4,5,6],[3,4,5,6,7,8]] |
代码输入:
np.mean(ll) # 全部元素求均值 |
结果输出:
4.5 |
代码输入:
np.mean(ll,0) # 按列求均值,0代表列向量 |
结果输出:
代码输入:
np.mean(ll,1) |
结果输出:
3.2.2 方差实现
数据准备:
b = [1,3,5,6] |
求方差:
np.var(b) |
结果输出:
代码输入:
np.var(ll,1) # 第二个参数为1,表示按行求方差 |
结果输出:
3.2.3 标准差实现
数据准备
ll = [[1,2,3,4,5,6],[3,4,5,6,7,8]] |
代码输入:
np.std(ll) |
结果输出:
3.2.4 协方差实现
数据准备:
b = [1,3,5,6] |
代码输入:
np.cov(b) |
结果输出:
3.2.5 相关系数
数据准备:
vc = [1,2,39,0,8] |
利用函数实现:
np.corrcoef(vc,vb) |
结果输出:
3.2.6 二项分布实现
服从二项分布的随机变量 X 表示在 n 次独立同分布的伯努利试验中成功的次数,其中每次试验的成功概率为 P。
代码输入:
from scipy.stats import binom,norm,beta,expon |
结果输出:
二项分布图如下:
暂无
3.2.7 泊松分布实现
一个服从泊松分布的随机变量 X,表示在具有比率参数 λ 的一段固定时间间隔内,事件发生的次数。参数 λ 告诉你该事件发生的比率。随机变量 X 的平均值和方差都是 λ。
代码输入:
import numpy as np |
泊松分布图如下:
暂无
3.2.8 正态分布
正态分布是一种连续分布,其函数可以在实线上的任何地方取值。正态分布由两个参数描述分布的平均值μ和标准差σ。
代码输入:
from scipy.stats import norm |
分布图如下:
暂无
3.2.9 指数分布
指数分布是一种连续概率分布,用于表示独立随机事件发生的时可间隔。比如旅客进入机场的时间间隔、打进客服中心电话的时间间隔等。
代码输入:
from scipy.stats import expon |
分布图如下:
暂无
3.2.10 中心极限定理的验证
中心极限定理证明了一系列相互独立的随机变量的和的极限分布为正态分布。即使总体本身不服从正态分布,只要样本组数足够多即可让中心极限定理发挥作用。此实验用于验证中心极限定理。
生成数据。假设观测一个人掷骰子,掷出1~6的概率都是相同的:1/6。掷了一万次。
import numpy as np |
输出结果:
生成直方图
plt.figure() |
分布图如下
暂无
随机抽取10个数据
sample1 = [] |
输出如下:
随机抽取 1000 组数据,每组 50 个
samples = [] |
生成直方图
plt.figure() |
分布图如下
暂无