传统的数据处理和分析方法在面对如此庞大且复杂的医学数据时,显得力不从心。医生难以从海量数据中快速提取关键信息,导致诊断效率低下,也可能遗漏重要线索影响诊断准确性。同时,医院管理者在进行资源配置决策时,缺乏直观有效的数据支持,难以合理分配有限的医疗资源,造成资源浪费或短缺。
大数据可视化技术的出现为解决这些问题提供了新的契机。它能将抽象、复杂的数据转化为直观易懂的图表、图形或地图等可视化形式,让医生和管理者能够更清晰地洞察数据背后的规律和趋势。在临床决策中,医生可借助可视化数据快速全面了解患者病情,提高诊断效率和准确性;在医疗资源管理方面,管理者能通过可视化展示,清晰掌握资源分配和利用情况,优化资源配置。大数据可视化技术在医学领域的应用潜力巨大,对提升医疗服务质量、推动医学发展具有重要意义。
大数据可视化技术在医学领域的应用,对医疗行业发展有着多方面重要意义。
临床决策层面,通过整合患者多源数据并可视化展示,如将病历、检查结果、影像资料整合为直观图表、图像,医生能快速获取全面信息,这极大提高了诊断的准确性和效率。同时,实时动态监测病情变化,以图表形式呈现生命体征、病情进展等,便于医生及时调整治疗方案,尤其对慢性病患者长期病情控制评估意义重大,为个性化治疗提供依据。
国外的近期研究表明,人工智能技术在医学和医疗保健领域的应用正受到广泛关注。俄罗斯物理学家对此持积极态度,认为其具有巨大潜力。同时,自组装技术在药物递送、生物传感等方面展现出广阔前景,但面临技术难题。
Flask 作为一款开源的 Python Web 框架,由 Adrian Holovaty 和 Simon Willison 于 2005 年发布。它采用 MTV(Model-Template-View)架构,旨在让复杂网站的开发过程变得更加简洁。
逻辑回归(LogisticRegression)算法是一个假设样本服从伯努利分布,利用极大似然估计和梯度下降法解决二分类(0或1)问题的机器学习方法,用于估计某种事物的可能性[7]。例如评论信息的正负情感分析、垃圾邮件预测等等。如果数据是有两个指标,可以用平面的点来表示数据,其中一个指标为x轴,另一个为y轴;如果数据有三个指标,可以用空间中的点表示数据;如果是p维的话(p>3),就是p维空间中的点。从本质上来说,LogisticRegression训练后的模型可以用来做预测、实验效果评估。
LogisticRegression算法所处理的数据是对数据进行分类训练的。在处理二分类问题时,需要将数据分成两类,让其中一类标签为0,另一类标签为1。
想要知道医学领域的影响因子,对于权重比较大的因子就需要选用LogisticRegression算法构建预测模型。建模的主要步骤是训练和测试,如下图所示。在训练阶段要先将数据传入,划分好数据之后进行LogisticRegression训练。训练结束后将测试数据应用在预测模型中再与实际值做运算,最后输出训练参数。
随机森林(Random Forest)本质上是很多决策树构成的集成算法,有抗过拟合能力,可以通过平均决策树,降低过度拟合,而且一棵决策树的结果不足以影响整体的结果。随机森林在建立每棵树的时候,遵循数据随机和特征随机两个基本原则。理论上,随机森林的表现一般要优于单一的决策树,因为随机森林的结果是通过多个决策树结果投票来决定最后的结果[8]。由于随机性,随机森林对于数据的要求不高也可以避免出现泛化。
随机森林(Random Forest)是由多棵决策树对样本进行训练并预测的一种经典的Bagging模型,利用数据采样随机和特征选择随机进行计算,如果是分类任务就是实行众数取值,如果是回归就是进行平均取值。随机森林模型需要把所有的决策树模型全部组合在一起,运行所有的决策树模型,决策树票数最多的那一个分类就是随机森林模型的预测结果。
随机森林模型的建模过程分为两个步骤:训练+测试,如图2.5所示。随机选取m条数据,随机选取k个数据特征,划分好数据集后再进行随机森林训练。在训练结束后基于预测模型得到的预测值将与实际值做运算可得到模型的精准度,从而可以选取最优的模型。
混淆矩阵是机器学习中总结分类模型预测结果的情形分析表,以矩阵形式将数据集中的记录按照真实的类别与分类模型预测的类别判断两个标准进行汇总[9]。其中矩阵的行表示真实值,矩阵的列表示预测值。混肴矩阵的形式如表2.1所示:
表2.1 混肴矩阵
混肴矩阵 | 真实值 | ||
结果为正(P) | 结果为负(N) | ||
预测值 | 预测为正(P) | 80 | 20 |
预测为负(N) | 20 | 80 |
对于分类模型而言,结果主要有以下四种:
- TP:预测为P,实际为P,预测正确
- FP:预测为P,实际为N,预测错误
- FN:预测为N,实际为P,预测错误
- TN:预测为N,实际为N,预测正确
其中T、F表示预测结果是否正确,而后面跟着的P、N主要是对应的预测结果。
精确率:也称为查准率,在所有被预测为正的原样本中实际为正的样本的概率,
召回率:也称为查全率,在实际为正的原样本中被预测为正样本的概率,
ROC曲线称接收者操作特征曲线(receiver operating characteristic curve),又称为感受性曲线(sensitivity curve),是描述分类器阈值的变化而变化的过程,反映曲线上各点敏感性和特异性连续变量的综合
公式中分母P是正样本的总数,分母N是负样本的总数。
AUC(Area Under Curve)表示ROC曲线下的面积,用于判断模型的优劣。AUC的值一般在0.5到1之间。AUC值越大,分类效果越明显。简单来说,AUC判断分类器(预测模型)优劣的标准有以下四种:
①第一种为0.95-1,预测效果非常好,是完美分类器。
②第二种为0.85-0.95,预测效果很好,优于随机猜测。
③第三种为0.7-0.85,预测效果一般,跟随机猜测一样(例:丢硬币),模型没有预测价值。
④第四种为0.5-0.7,预测效果较低,比随机猜测还差。
3.1 系统功能性需求分析
本节中建立系统功能需求分析包括综合数据处理、分析与可视化、预测的抑郁症识别预测系统,系统应具备用户管理、数据收集、数据处理、可视化、预测等功能。
抑郁症数据分析与预测系统基于用户认证与数据管理实现多维度功能。用户需注册登录后访问核心模块,支持个人信息修改及密码更新。系统集成机器学习模型(随机森林、XGBoost、梯度提升树、逻辑回归),用户可通过输入个体特征参数或选择已有数据记录进行抑郁风险预测,结果以分类标签(患病/未患病)结合特征重要性图表呈现。数据分析模块提供原始数据集展示,包含性别、年龄、学习压力、睡眠时间等关键字段。可视化功能通过饼图与柱状图动态展示不同模型的特征权重分布,辅助用户理解各因素对预测结果的贡献度。管理员具备数据管理权限,可对数据集执行增删改查操作。系统内置模型对比模块,支持用户切换算法并实时获取对应的特征分析,优化决策参考。前端交互界面提供参数输入、结果反馈及图表联动,后端基Flask框架实现数据查询、模型调用及会话管理,确保功能流畅性与数据安全性。。
3.2 系统用例分析
3.2.1 登录注册功能
根据表3.1列出的测试用例描述,用户可以在系统登录页面输入正确的用户名和密码,以完成登录。
表3.1 登录功能测试用例
描述项目 | 说明 |
用例名称 | 系统用户登录 |
标识符 | 201 |
用例描述 | 阐述用户登录流程 |
参与者 | 已经注册成功的用户 |
前置条件 | 用户名和密码输入正确的才能继续 |
后置条件 | 在后续步骤中,如果登录成功,就能跳转到系统界面 |
描述项目 | 说明 |
基本操作流程 | 基础步骤操作流程包括登陆系统前端页面,输入用户名和密码以确认身份,然后点击登录 |
分支流程 | 如果登录出现错误,就无法进入系统 |
异常流程 | 由于用户名或密码错误,导致在异常流程中未能成功注册登录,从而无法进行正常的网络操作 |
根据表3.2中的描述,用户可通过系统注册页面输入用户名和密码来完成注册操作,系统中尚未注册的用户可利用该功能注册。
表3.2 注册功能测试用例
描述项目 | 说明 |
用例名称 | 访客注册 |
标识符 | 201 |
用例描述 | 这个测试用例是新用户注册功能,访客注册新的账号的所有步骤。 |
参与者 | 未注册的访客 |
前置条件 | 输入未被注册的用户名 |
后置条件 | 注册成功自动跳转至登录页 |
基本操作流程 | 打开系统的注册页面。填写用户名和密码,提交请求。 |
分支流程 | 注册页面无法访问。 |
异常流程 | 输入已注册用户名,系统提示重复并阻止注册。 |
3.2.2 用户管理功能
按照表3.3中的测试用例描述,登录系统的用户可以在用户管理界面管理其账号和密码信息。
表3.3 用户管理功能测试用例
描述项目 | 说明 |
用例名称 | 用户账户信息维护 |
描述项目 | 说明 |
标识符 | 201 |
用例描述 | 此用例的作用是让用户能够对自己的账户信息和密码进行修改操作。 |
参与者 | 经过认证的注册用户可参与该用例流程。 |
前置条件 | 前提是用户已经成功登录系统,处于有效登录状态。 |
后置条件 | 当修改操作完成后,系统会向用户显示操作完成的反馈信息。 |
基本操作流程 | 用户首先进入用户管理界面,接着在界面里填写信息表单,最后提交表单完成操作。 |
分支流程 | 针对密码输入有误、原始认证信息不相符等情况进行相应处理。 |
异常流程 | 若新密码和二次确认的密码不一致,系统将终止本次修改操作。 |
3.2.3 数据可视化功能
表3. 4展示了用户在系统中执行数据可视化功能的实例,登录后,用户可以查阅到系统内的数据看板结果。
表3.4 数据可视化功能测试用例
描述项目 | 说明 |
用例名称 | 数据可视化访问 |
标识符 | 201 |
用例描述 | 此用例的主要功能是实现对数据可视化界面的访问,并且将相关信息进行展示。 |
参与者 | 系统中已经通过身份验证的用户可以参与这个用例流程。 |
前置条件 | 要保证数据源已经完成配置,并且该数据源处于可正常使用的状态。 |
后置条件 | 操作完成后,系统会呈现出多维数据的可视化分析视图。 |
基本操作流程 | 第一步,用户打开并进入系统的主界面;第二步,在主界面中选择数据可视化功能模块。 |
描述项目 | 说明 |
分支流程 | 若在数据加载过程中出现延迟情况,系统会启用加载状态提示机制,告知用户当前加载状态。 |
异常流程 | 当数据源的连接中断时,界面将无法进行数据渲染,无法展示相应内容。 |
3.2.4 预测功能
表3. 7展示了用户在系统中实施预测功能的试验样例,登录该系统的用户可以对个人信息进行抑郁症预测。
表3.7 舆情检测功能测试用例
描述项目 | 说明 |
用例名称 | 预测功能 |
标识符 | 201 |
用例描述 | 此用例为用户利用个人信息进行抑郁症检测的一系列操作过程 |
参与者 | 已登录至系统的用户 |
前置条件 | 数据已完成处理和分析 |
后置条件 | 完成对用户是否患有抑郁症的预测 |
基本操作流程 | 1. 用户向系统输入用于预测的数据 |
分支流程 | 无 |
异常流程 | 无 |
3.3 系统非功能性需求分析
在抑郁症数据分析与预测系统的搭建过程中,非功能需求分析将重点放在性能、可靠性和保护性这三大关键维度上,力求从全方位提升用户体验。
就性能需求而言,系统必须具备优异的响应能力与处理效能,确保在多用户并行开展数据处理、分析、可视化及预测等任务时,能够迅速给出结果。在应对海量抑郁症数据时,系统不仅要保持高效的处理效率,还需在高负荷运行环境下具备极强的稳定性。
从可靠性需求来讲,系统的稳健性和持续运行能力是保障服务稳定的根本。要求系统能够在 48 小时内稳定运作,即便部分组件出现故障,也能自动切换至备用方案,继续执行核心功能并快速恢复服务。同时,必须建立完善的数据存储与备份机制,以此保障数据的长期完整性和可追溯性。
在保护性需求方面,数据安全与访问控制是系统防护的核心要点。为了抵御 SQL 注入、跨站脚本等网络攻击,防止数据泄露和篡改,系统需要采用加密技术对敏感信息进行保护。另外,通过构建严格的身份验证和权限管理体系,实现数据访问的最小化授权,确保只有经过授权的用户才能够访问和处理数据,从源头保障系统安全和数据隐私。
第4章 系统总体设计
4.1 总体功能设计
抑郁症数据分析与预测系统围绕用户交互、数据处理与模型分析构建功能框架。系统采用分层设计:前端基于HTML模板实现用户界面,支持注册登录、数据浏览、参数输入及结果可视化;后端依托Flask框架处理请求,通过SQLite数据库存储用户信息与抑郁特征数据集。核心功能涵盖用户管理模块,实现账户注册、登录验证及个人信息维护。数据分析模块提供原始数据展示与动态查询,支持管理员对数据集进行增删改查操作。预测模块集成多种机器学习模型,用户可通过表单输入个体指标或选择数据库记录触发预测,系统返回分类结果并生成特征权重图表,直观呈现各变量对抑郁风险的影响程度。可视化模块支持模型对比,用户切换算法时自动更新饼图与柱状图,展示不同模型的特征重要性差异。技术实现上,采用Joblib加载预训练模型,结合Pandas进行数据预处理,确保预测效率。系统设计注重安全性与交互性,通过会话管理限制未授权访问,前端AJAX技术实现异步数据交互,保障用户体验流畅。整体架构兼顾功能完整性与技术可扩展性,为抑郁风险评估提供数据驱动决策支持。。总体功能图如图4-1所示:

4.2 功能详细设计
本系统对照功能图实现,用户模块也就是系统使用者拥有登录注册、数据清洗和处理、数据可视化、预测等功能。
4.2.1注册登录功能
用户注册时,需在页面填写用户名、密码及邮箱等基本信息并提交。前端将数据发送至后端进行格式校验(如邮箱合法性、密码复杂度)及唯一性验证(如用户名是否重复)。具体流程详见图4-2。

图4.2注册登录流程图
4.2.2预测功能
预测功能流程分为数据输入、预处理、模型推理及结果生成阶段。具体流程详见图4-3。

图4.3预测流程图
4.2.3数据可视化功能
可视化流程:系统用户成功登录系统进入可视化页面后,前端就会将用户的查看请求封装发送到后端服务器,后端会调用可视化服务中的可视化程序,该程序会加载数据库中的数据,将该数据进行统计等,渲染生成柱形图等图表。然后将图表呈现前端页面,前端页面对数据渲染后图表向用户展示情况,可视化流程图,如图4-4所示。

图4.4 数据可视化流程图
4.3数据库设计
4.3.1数据库逻辑设计
根据该系统的数据库表的设计,将系统的数据种类归分为用户、房源信息2个实体。
4.3.2物理设计
本数据分析系统数据逻辑结构设计如下:
表4.1 用户表(userinfo)
字段名 | 类型 | 长度 | 说明 |
id | int | 0 | 用户编号(主键、自增) |
username | varchar | 255 | 用户名 |
password | varchar | 255 | 密码 |
| text | 0 | 邮箱 |
content | text | 0 | 简介 |
address | text | 0 | 地址 |
phone | text | 0 | 手机号 |
注:这个表是用来保存用户详细信息的
表4.2 抑郁症数据信息表
字段名 | 类型 | 长度 | 说明 |
性别 | TEXT | 255 | |
年龄 | TEXT | 255 | |
学习压力 | TEXT | 255 | |
学习满意度 | TEXT | 255 | |
睡眠时间 | TEXT | 255 | |
饮食习惯 | TEXT | 255 | |
是否有过自杀的念头 | TEXT | 255 | |
学习时间 | TEXT | 255 | |
经济压力 | TEXT | 255 | |
精神疾病家族史 | TEXT | 255 | |
是否抑郁 | TEXT | 255 |
本研究的数据集来源kaggle,涵盖了性别、年龄、学习压力、学习满意度、睡眠时间、饮食习惯、是否有过自杀的念头、学习时间、经济压力、精神疾病家族史以及是否抑郁等多个关键字段,共502条数据。数据集信息图如下所示5.1:

图5.1 数据集分布图
使用isnull()统计各个变量缺失值个数,查看是否存在缺失值,统计缺失值结果下图5.2所示,各个变量无缺失值,数量都为0:

图5.2 缺失值统计结果
接着需要分析特征变量之间的相关性,用来取出那些相关性高的特征,以避免类似于多重共线问题等技术性问题,本研究的相关性主要是数值型数据为主,使用corr方法计算各个数值型变量的相关系数,相关系数的绝对值越接近1,相关性越强,最后画出热力图呈现,相关性结果下图5.3所示,相关代码如图5.4所示,各个变量之间的相关性都很弱:

图5.3 数值型变量相关性热力图结果

图5.4 数值型变量相关性热力图代码
除了数值型数据,还需要分析分类变量,对分类特征进行卡方分析,计算每对分类特征之间的卡方检验,如果 p值小于 0.05,说明这两个特征之间有显著的相关性,可以拒绝原假设(即变量独立)。根据如图5.5卡方检验结果可以发现,分类特征变量之间也不存在着显著的相关性,卡方检验代码如图5.6所示:

图5.5 卡方检验结果

图5.6 卡方检验代码
根据卡方检验和相关分析可以发现,各个变量之间不存在明显关系,也没有明显的相关性,可以对所有变量进行探索性分析,分析各个变量和是否患有抑郁症之间的分布关系,通过matplotlib画出各个变量和是否患有抑郁症的柱形图进行分析,如图5.7所示性别和是否患有抑郁关系柱形图,以及对应代码如图5.8所示,男性样本的数量略多于女性,男性在抑郁和没有抑郁这两个分类上的人数绝对值也是略高于女性的,但是两个分类占自身的比例非常的接近。可以认为性别对于是否会抑郁并没有显著的影响:

图5.7 性别和是否患有抑郁关系柱形图

图5.8 性别和是否患有抑郁关系代码
如图5.9所示年龄数据和是否患有抑郁关系柱形图,以及对应代码如图5.10所示,可以发现是否抑郁和年龄存在着较为明显的关系,低年龄段的抑郁人数明显的高于了高年龄段,年龄跟是否抑郁有一定关系:

图5.9 年龄和是否患有抑郁关系柱形图

图5.10 年龄和是否患有抑郁关系代码
依次类推,将其他变量跟是否患有抑郁进行分布分析,如图5.11-图5-17所示所示可知,睡眠情况和是否抑郁存在着一定的关联,学习压力和是否抑郁之间存在着显著的关联,低学学习力的人当中有着非常少的人有着抑郁症,但是高学习压力人群中只有很少的人是没有抑郁的,在中等学习压力之下,学生是否抑郁占比接近,对于学习满意度,学习满意度越高,则抑郁症人数越少。有过自杀的念头的抑郁症患者明显多于没有自杀念头的,有着健康饮食习惯的学生群体,其中的有抑郁症的学生的人数是明显的低于了有着不健康的饮食习惯的学生群体,对应经济压力,经济压力越大,换上抑郁症的人数越多。






特征处理主要包括数据标准化和编码。首先通过数据分布可以发现,抑郁症数据没有患病和患病得分布很均衡,所以不需要进行采样处理。抑郁数据分布如下图5.18所示,1表示抑郁,0表示没有抑郁:

图5.18 抑郁数据分布结果
由于机器学习无法处理字符串,而需要将其转换为数值,所以这里进行编码或者映射。将分类特征如‘性别’、‘睡眠时间’、‘饮食习惯’等进行映射,将字符串值转化为数值型数据。使用LabelEncoder对‘性别’等进行编码。对于‘睡眠时间’等分级变量,使用字典映射进行转换。转换后结果如下图5.19所示:

图5.19 特征转换结果
处理后的数据集使用train_test_split进行划分,测试集占比30%,训练集占比70%。处理时,数据形成特征集X_train和X_test,标签集y_train和y_test。数据预处理确保了模型输入为数值型数据,避免了模型训练中的类型错误,数据集划分结果下图5.20所示:

图5.20 数据集划分结果
使用四种分类算法:逻辑回归、决策树、梯度提升树(GBDT)和XGBoost。每种模型采用GridSearchCV进行超参数搜索,通过交叉验证优化模型性能。逻辑回归使用L1和L2正则化,决策树调整树的深度、最小样本分裂数等超参数,GBDT调节学习率、树的数量等。XGBoost通过调节子样本比例、特征采样比例等参数进行优化。每个模型训练完成后,使用best_estimator_获取最佳模型,保证了最优性能,逻辑回归模型主要代码如图5.21所示,各个模型参数设置如表5.3所示:

图5.21 逻辑回归模型主要代码

图5.22决策树模型主要代码

图5.23提升树模型主要代码

图5.24xgboost模型主要代码
表5.3 模型参数设置
模型 | 参数 |
逻辑回归模型 | {'C': 10, 'penalty': 'l1', 'solver': 'liblinear'} |
决策树模型 | {'criterion': 'entropy', 'max_depth': 10, 'min_samples_leaf': 1, 'min_samples_split': 2} |
提升树模型 | {'learning_rate': 0.2, 'max_depth': 3, 'min_samples_leaf': 1, 'min_samples_split': 2, 'n_estimators': 200} |
Xgboost模型 | {'colsample_bytree': 0.8, 'gamma': 0.1, 'learning_rate': 0.2, 'max_depth': 3, 'n_estimators': 150, 'subsample': 0.5} |
评估使用测试集进行预测,计算准确率、精确率、召回率和F1分数。每个模型都输出分类报告,展示各项指标。使用confusion_matrix生成混淆矩阵,进一步分析模型的分类效果,通过xgboost和树模型提取特征重要性,以柱形图形式呈现,进一步验证变量和抑郁症之间的关系。最终,使用joblib.dump将最佳模型保存至本地,便于后续部署和使用。保存模型确保了训练过程的可复现性与高效性,避免了重新训练的时间消耗,如表5.4模型评估表所示,主要代码如图5.25所示,特征重要性如图5.26所示。

图5.25 主要代码

图5.26 特征重要性分析

表5.4 模型评估
模型 | 准确率 | 精确率 | 召回率 | F1分数 | 混淆矩阵 |
逻辑回归模型 | 0.9735 | 0.96 | 0.99 | 0.98 | [[70 2][ 1 78]] |
决策树模型 | 0.8543 | 0.85 | 0.85 | 0.85 | [[60 11][11 69]] |
提升树模型 | 0.94 | 0.94 | 0.94 | 0.94 | [[66 5][ 6 74]] |
Xgboost模型 | 0.9668 | 0.96 | 0.96 | 0.96 | [[69 2][ 2 78]] |
逻辑回归模型分类性能优异,准确率97%,正负类F1值均超0.97,显示高平衡性。召回率99%表明对正类识别能力极强,漏检风险低。决策树模型表现相对薄弱,准确率85%,混淆矩阵显示正负类各11例误判,存在特征捕捉不足问题。梯度提升树准确率提升至92.7%,误判数降至5-6例,体现集成学习对决策树缺陷的修正效果。XGBoost模型达到最优性能,准确率97.35%,仅出现2例误判,精确率与召回率保持0.97对称性,证明其参数优化与正则化机制有效抑制过拟合。四类模型中集成方法显著优于单一模型,XGBoost通过自适应增强策略实现最高预测稳定性。模型间表现差异反映特征非线性关系的捕捉能力层级,复杂树模型在特征交互识别方面更具优势。从特征重要性分析结果来看,和之前的5.3分析是趋于一致的,性别和精神疾病家族史等特征之间并没有多大的关联,反倒是和年龄,是否有过自杀的念头和学习压力等特征之间存在着较强的关
4
6.1.1用户注册界面
用户注册功能的实现依托于register.html页面,该页面中的表单设置了用户名、密码和确认密码等字段。其用户注册界面展示如下图所示。

图6.1注册界面图
用户登录功能模块借助前端页面login.html完成,该页面的表单可供用户填写用户名、密码,并从普通用户和管理员两种类型中挑选登录身份。
用户登录界面如下图6.2所示。

图6.2用户登录界面图
数据展示模块基于Jinja2模板引擎与Bootstrap框架构建,前端采用响应式布局适配多端屏幕。页面继承基础模板`index.html`,通过`{% block main %}`注入动态内容。如下图6.3所示。

图6.3数据展示界面图
该页面基于Bootstrap框架和DataTable插件实现个人信息管理功能。如下图6.4所示:

图6.4用户信息添加界面图
该页面基于ECharts和Bootstrap实现模型因素可视化分析功能。前端通过下拉菜单支持“决策树”“逻辑回归”等四类模型切换,点击查询按钮触发AJAX GET请求至/pie路由,动态获取JSON格式的饼图数据及表格数据。可视化结果如图6.5所示。
图6.5可视化界面图
本研究的数据集来源kaggle,涵盖了性别、年龄、学习压力、学习满意度、睡眠时间、饮食习惯、是否有过自杀的念头、学习时间、经济压力、精神疾病家族史以及是否抑郁等多个关键字段。这些因素从不同维度反映了学生的日常生活状态和心理状况,为我们提供了一个全面而细致的视角来剖析学生抑郁的成因。预测界面图如下图6.6所示: