一、理论：明确线性回归的核心逻辑

模型本质：线性回归是通过属性的线性组合实现预测的模型，核心目标是找到最优的直线（单变量）、平面（双变量）或超平面（多变量），最小化预测值与真实值的误差。其一般形式分为两种，单变量为f(x)=wx + b，多变量则通过向量简化为f(x)=w^T x + b（其中w为权重向量，b为截距），直观体现了 “属性线性组合” 的核心思想。
核心概念区分：清晰理解了线性回归的基础定义与延伸概念，比如 “最小二乘法” 是基于均方误差（对应欧氏距离）最小化的求解方法，核心是让所有样本到拟合线的欧氏距离之和最小；而 “参数估计” 则是通过计算w和b，使误差函数E(w,b)（残差平方和）最小的过程，二者共同构成了线性回归 “建模 - 求解” 的理论基础。

二、方法：掌握模型评估与参数求解

评估指标体系：学会用三类关键指标判断模型拟合效果，各指标功能明确且互补：
- SSE/RSS（残差平方和）：直接计算所有样本预测值与真实值差值的平方和，反映误差总量，值越小误差越小；
- MSE（均方误差）：对 SSE 取均值，消除样本数量影响，更适合不同数据集间的误差对比；
- R²（决定系数）：通过 “1 - SSE/SST” 计算（SST 为总平方和），取值范围在 0-1 之间，越接近 1 说明模型对数据的解释能力越强，是判断拟合效果最直观的指标。
参数求解步骤：理解了最小二乘法求解w和b的数学逻辑：先对误差函数E(w,b)分别求w和b的偏导，再令偏导数为 0，通过推导得出w和b的最优解公式（如单变量中w与样本x、y的均值相关，b为y均值减去w与x均值的乘积），这一过程让我意识到线性回归的 “最优解” 并非主观选择，而是基于数学推导的客观结果。

三、实践：落地模型应用与工具使用

工具操作要点：初步掌握了 Python 中sklearn.linear_model.LinearRegression()的核心参数与用法：
- fit_intercept：控制模型是否包含截距b，默认 True（即拟合y=wx+b），若设为 False 则模型强制过原点（y=wx），需根据数据特点选择；
- normalize：控制是否对数据归一化，默认 False，当属性量纲差异大时可开启，避免量纲影响权重计算。
案例实践认知：通过 “波士顿房价预测” 的课堂练习案例，理解了线性回归的应用流程 —— 从数据准备、模型初始化与训练（fit方法），到用模型预测（predict方法），再用 MSE、R² 评估效果，形成了 “数据 - 模型 - 评估” 的完整实践闭环，也体会到线性回归在连续值预测（如房价、销量）场景中的实用性。
自己又在课后实现了线性回归计算糖尿病患者发病率，通过今天的学习成功完成了所有的功能，总而言之今天是收获满满的一天。

四、总结与反思

线性回归作为机器学习的 “入门模型”，其核心逻辑（线性组合、误差最小化）是理解更复杂模型（如逻辑回归、线性 SVM）的基础。但同时也意识到其局限性：仅适用于数据呈线性关系的场景，若数据存在非线性关联则拟合效果差，后续需进一步学习非线性模型（如多项式回归）以应对更多场景。此次学习不仅掌握了线性回归的知识，更培养了 “从理论推导到代码实践” 的思维，为后续机器学习学习奠定了扎实基础。