一、理论:明确线性回归的核心逻辑
- 模型本质:线性回归是通过属性的线性组合实现预测的模型,核心目标是找到最优的直线(单变量)、平面(双变量)或超平面(多变量),最小化预测值与真实值的误差。其一般形式分为两种,单变量为
f(x)=wx + b
,多变量则通过向量简化为f(x)=w^T x + b
(其中w
为权重向量,b
为截距),直观体现了 “属性线性组合” 的核心思想。 - 核心概念区分:清晰理解了线性回归的基础定义与延伸概念,比如 “最小二乘法” 是基于均方误差(对应欧氏距离)最小化的求解方法,核心是让所有样本到拟合线的欧氏距离之和最小;而 “参数估计” 则是通过计算
w
和b
,使误差函数E(w,b)
(残差平方和)最小的过程,二者共同构成了线性回归 “建模 - 求解” 的理论基础。
二、方法:掌握模型评估与参数求解
- 评估指标体系:学会用三类关键指标判断模型拟合效果,各指标功能明确且互补:
- SSE/RSS(残差平方和):直接计算所有样本预测值与真实值差值的平方和,反映误差总量,值越小误差越小;
- MSE(均方误差):对 SSE 取均值,消除样本数量影响,更适合不同数据集间的误差对比;
- R²(决定系数):通过 “1 - SSE/SST” 计算(SST 为总平方和),取值范围在 0-1 之间,越接近 1 说明模型对数据的解释能力越强,是判断拟合效果最直观的指标。
- 参数求解步骤:理解了最小二乘法求解
w
和b
的数学逻辑:先对误差函数E(w,b)
分别求w
和b
的偏导,再令偏导数为 0,通过推导得出w
和b
的最优解公式(如单变量中w
与样本x
、y
的均值相关,b
为y
均值减去w
与x
均值的乘积),这一过程让我意识到线性回归的 “最优解” 并非主观选择,而是基于数学推导的客观结果。
三、实践:落地模型应用与工具使用
- 工具操作要点:初步掌握了 Python 中
sklearn.linear_model.LinearRegression()
的核心参数与用法:fit_intercept
:控制模型是否包含截距b
,默认 True(即拟合y=wx+b
),若设为 False 则模型强制过原点(y=wx
),需根据数据特点选择;normalize
:控制是否对数据归一化,默认 False,当属性量纲差异大时可开启,避免量纲影响权重计算。
- 案例实践认知:通过 “波士顿房价预测” 的课堂练习案例,理解了线性回归的应用流程 —— 从数据准备、模型初始化与训练(
fit
方法),到用模型预测(predict
方法),再用 MSE、R² 评估效果,形成了 “数据 - 模型 - 评估” 的完整实践闭环,也体会到线性回归在连续值预测(如房价、销量)场景中的实用性。 - 自己又在课后实现了线性回归计算糖尿病患者发病率,通过今天的学习成功完成了所有的功能,总而言之今天是收获满满的一天。
四、总结与反思
线性回归作为机器学习的 “入门模型”,其核心逻辑(线性组合、误差最小化)是理解更复杂模型(如逻辑回归、线性 SVM)的基础。但同时也意识到其局限性:仅适用于数据呈线性关系的场景,若数据存在非线性关联则拟合效果差,后续需进一步学习非线性模型(如多项式回归)以应对更多场景。此次学习不仅掌握了线性回归的知识,更培养了 “从理论推导到代码实践” 的思维,为后续机器学习学习奠定了扎实基础。