机器学习(三)——Python实现最小二乘法

机器学习(三)—python实现最小二乘法

本节用python实现最小二乘法。

2.最小二乘法

2.1 线性回归

  • 主要是解决线性问题,无法解决非线性问题。线性回归过程主要解决的是如何通过样本获取最佳的拟合线,最常用的方法是 最小二乘法
  • 2.2 最小二乘法

    ps:在古代,“平方”的称谓为“二乘”,故得最小二乘法。

    2.2.1 数据拟合法和插值法
  • 数据拟合法不必过所有的数据点,关注数据的变化趋势。
  • 插值法必须经过所有的数据点。
  • 2.2.2 原理

    一种数学优化技术,通过最小化残差的平方和寻找数据的最佳函数匹配。在数理统计中,残差是指实际观察值与估计值之间的差。力求总的拟合误差(即总残差)达到最小。

    2.2.3 最小二乘法的求解过程

    2.2.4 python实现最小二乘法(预测学生身高体重为例)

    拟合曲线

    # 拟合曲线
    import numpy as np
    import matplotlib.pyplot as plt
    import scipy as sp
    from scipy.optimize import leastsq
    
    # 样本数据
    # 身高数据
    Xi = np.array([162, 165, 159, 173, 157, 175, 161, 164, 172, 158])
    # 体重数据
    Yi = np.array([48, 64, 53, 66, 52, 68, 50, 52, 64, 49])
    
    
    # 需要拟合的函数func()指定函数的形状
    def func(p, x):
        k, b = p
        return k*x + b
    
    
    # 定义偏差函数,x,y为数组中对应Xi,Yi的值
    def error(p, x, y):
        return func(p, x) - y
    
    
    # 设置k,b的初始值,可以任意设定,经过实验,发现p0的值会影响cost的值:Para[1]
    p0 = [1, 20]
    
    # 把error函数中除了p0以外的参数打包到args中,leastsq()为最小二乘法函数
    Para = leastsq(error, p0, args=(Xi, Yi))
    # 读取结果
    k, b = Para[0]
    print('k=', k, 'b=', b)
    
    # 画样本点
    plt.figure(figsize=(8, 6))
    plt.scatter(Xi, Yi, color='red', label='Sample data', linewidth=2)
    
    # 画拟合直线
    x = np.linspace(150, 180, 80)
    y = k * x + b
    
    # 绘制拟合曲线
    plt.plot(x, y, color='blue', label='Fitting Curve', linewidth=2)
    plt.legend()  # 绘制图例
    
    plt.xlabel('Height:cm', fontproperties='simHei', fontsize=12)
    plt.ylabel('Weight:Kg', fontproperties='simHei', fontsize=12)
    
    plt.show()
    
    

    计算残差

    # 计算残差
    import numpy as np
    import matplotlib.pyplot as plt
    import scipy as sp
    from scipy.optimize import leastsq
    from statsmodels.graphics.api import qqplot
    
    # 样本数据
    # 身高数据
    Xi = np.array([162, 165, 159, 173, 157, 175, 161, 164, 172, 158])
    # 体重数据
    Yi = np.array([48, 64, 53, 66, 52, 68, 50, 52, 64, 49])
    
    # 定义变量
    xy_res=[]
    # 定义计算残差函数
    def residual(x,y):
        res = y - (0.4211697*x-8.2883026)               # 计算残差
        return res                                      # 返回残差
    
    # 循环读取残差
    for d in range(0,len(Xi)):
        res = residual(Xi[d], Yi[d])
        xy_res.append(res)
    
    print(xy_res)
    # 计算残差平方和,和越小表明拟合的情况越好
    xy_res_pingfangsum = np.dot(xy_res,xy_res)
    print(xy_res_pingfangsum)
    
    # 如果数据拟合模型效果好,残差应该遵从正态分布(0,d*d),d表示残差
    
    # 画样本点
    fig = plt.figure(figsize=(8, 6))
    ax = fig.add_subplot(111)           # 添加一个子图
    fig = qqplot(np.array(xy_res),line='q',ax=ax)  # 设置参数
    
    
    plt.show()
    
    

    PS:其中的fig.add_subplot(111),
    111代表的是画布11的第一个区域。
    222则代表2
    2的第二个区域。

    物联沃分享整理
    物联沃-IOTWORD物联网 » 机器学习(三)——Python实现最小二乘法

    发表评论