大数据IE实验备考2——线性代数实验
2 线性代数实验
2.1 线性代数内容介绍
2.1.1 线性代数介绍
线性代数是一门被广泛运用于各工程技术领域的学科。用线性代数的相关概念和结论,可以极大地简化数据挖掘中相关公式的推导和表述。线性代数将复杂的问题简单化,让我们能够对问题进行高效地数学运算。
线性代数是一个数学工具,它不仅提供了有助于操作数组的技术,还提供了像向量和矩阵这样的数据结构用来保存数字和规则,以便进行加,减,乘,除的运算。
2.1.2 代码实现介绍
numpy 是一款基于 Python 的数值处理模块,在处理矩阵数据方面有很强大的功能与优势。因为线性代数的主要内容就是对矩阵的处理,所以本章节主要的内容都是基于 numpy 进行展开。另外也会涉及到方程组求解,所以也会用到数学科学库 scipy。
2.2线性代数实现
导入相应库:
import numpy as np |
2.2.1 reshape 运算
在数学中并没有 reshape 运算,但是在 numpy 运算库中是一个非常常用的运算,用来改变一个张量的维度数和每个维度的大小例如一个 10×10 的图片在保存时直接保存为一个包含100个元素的序列,在读取后就可以使用 reshape 将其从1100变换为 10×10 。示例如下:
生成一个包含整数0~11的向量
代码输入:
x = np.arange(12) |
结果输出:
[ 0 1 2 3 4 5 6 7 8 9 10 11] |
查看数组大小
x.shape |
结果输出:
(12,) |
将 x 转换成二维矩阵,其中矩阵的第一个维度为1
x = x.reshape(1,12) |
结果输出:
[[ 0 1 2 3 4 5 6 7 8 9 10 11]] |
查看数组大小
x.shape |
结果输出:
(1,12) |
将 x 转换 3x4 的矩阵
x = x.reshape(3,4) |
结果输出:
[[ 0 1 2 3] |
2.2.2 转置实现
向量和矩阵的转置是交换行列顺序,而三维及以上张量的转置就需要指定转置的维度。
生成 3x4 的矩阵
代码输入:
A = np.arange(12).reshape(3,4) |
结果输出:
[[ 0 1 2 3] |
转置
A.T |
结果输出:
array([[ 0, 4, 8], |
2.2.3 矩阵乘法实现
矩阵乘法:记两个矩阵分别为 A 和 B,两个矩阵能够相乘的条件为第一个矩阵的列数等于第二个
矩阵的行数。
代码输入:
A = np.arange(6).reshape(3,2) |
结果输出:
[[0 1] |
矩阵相乘
np.matmul(A,B) |
结果输出:
array([[ 3, 4, 5], |
2.2.4 矩阵对应运算
元素对应运算:针对形状相同矩阵的运算统称,包括元素对应相乘、相加等,即对两个矩阵相同位置的元素进行加减乘除等运算。
代码输入:
创建矩阵
A = np.arange(6).reshape(3,2) |
矩阵相乘
print(A*A) |
结果输出:
[[ 0 1] |
矩阵相加
print(A+A) |
结果输出:
[[ 0 2] |
2.2.5 逆矩阵实现
只有方阵才有逆矩阵,逆矩阵实现。
代码输入:
A = np.arange(4).reshape(2,2) |
结果输出:
[[0 1] |
求逆矩阵
np.linalg.inv(A) |
结果输出:
array([[-1.5, 0.5], |
2.2.6 特征值与特征向量
求矩阵的特征值与特征向量并实现可视化。
导入相应库:
import numpy as np |
求特征值与特征向量:
A = [[1,2], |
plt.subplots() 返回一个 Figure 实例 fig 和一个 AxesSubplot 实例ax。fig 代表整个图像,ax代表坐标轴和画的图。作图:
fig,ax = plt.subplots() |
让坐标轴经过原点:
for spine in ['left','bottom']: |
画出网格:
ax.grid(alpha=0.4) |
设置坐标轴的范围:
xmin,xmax = -3,3 |
画出特征向量。用一个箭头指向要注释的地方,再写上一段话的行为,叫做 annotat。s 是输入内容;xy 是箭头指向; xytext 是文字所处的位置; arrowprops 通过 arrowstyle 表明箭头的风格或种类。
for v in evecs: |
画出特征空间:
x = np.linspace(xmin,xmax,3) #在指定的间隔内返回均匀间隔的数字 |
可视化图像:
暂时不贴
2.2.7 求行列式
求一个矩阵的行列式:
代码输入:
E = [[1,2,3], |
结果输出:
-9.51619735392994e-16 |
2.2.8 奇异值分解实现
利用奇异值分解,通过文章标题出现的关键词,对文章进行聚类
导入相应模块:
import numpy as np |
输入关键字:
words = ["books","dad","stock","value","singular","estate","decomposition"] |
设已知8个标题,7个关键字。记录每个标题中每个关键字出现的次数,得矩阵 X。X 中每一行表示一个标题,每一列表示一个关键字,矩阵中的每个元素表示一个关键字中一个标题中出现的次数。
X = np.array([[0,2,1,0,0,0,0],[2,0,0,1,0,1,0],[1,0,0,0,0,0,1],[0,0,1,0,0,0,0],[0,1,0,0,0,0,0],[0,0,0,1,1,0,1],[0,1,0,0,1,0,0],[0,0,0,0,1,1,1]]) |
进行奇异值分解:
U,s,Vh = np.linalg.svd(X) |
输出左奇异矩阵U:
print("U=",U) |
结果输出:
U= [[-1.87135757e-01 -7.93624528e-01 2.45011855e-01 -2.05404352e-01 |
输出奇异值矩阵:
print("s=",s) |
按每个奇异值一对应一个左奇异向量和一个右奇异向量奇异值从大到小排列输出结果:
s= [2.85653844 2.63792139 2.06449303 1.14829917 1. 1. |
输出右奇异矩阵Vh:
print("Vh=",Vh) |
输出结果:
Vh= [[-6.08788345e-01 -2.29949618e-01 -7.46612474e-02 -3.80854846e-01 |
规定坐标轴的范围
plt.axis([-0.8,0.2,-0.8,0.8]) |
原每个关键字由 1*8 的向量表示,现降维成 1*2 的向量以便进行可视化
for i in range(len(words)): |
可视化结果:
暂无
图解:将2维可视化后,我们可以将关键词聚类,如 singular, value 和 decomposition 三个词距离比较近可以被划分为一组,而 stock 和 estate 经常同时出现。
2.2.9 线性方程组求解
求解线性方程组比较简单,只需要用到一个函数( scipy linalg. solve)就可以了。
比如我们对胶片中矩阵章节中的部门月度跑步案例进行线性方程组求解,线性方程组如下:
待更新!!!!!!
代码输入:
from scipy.linalg import solve |
结果输出:
[ 0.5 1.9375 -0.875 ] |