原文链接:tecdat.cn/?p=42718
分析师:Gan Tian

在文化遗产保护领域,古代玻璃制品的成分分析一直是研究中西方文化交流的关键课题。作为数据科学家,我们在处理某博物馆委托的古代玻璃文物保护咨询项目时,发现传统分析方法难以准确应对文物风化带来的成分变异问题。为此,我们构建了一套融合多维度数据分析的技术体系,通过Spearman相关系数揭示文物表面风化与类型的关联性,利用岭回归模型实现风化前化学成分的精准预测,借助K-means聚类与决策树完成高钾玻璃和铅钡玻璃的亚类划分,并通过灰色关联度分析挖掘不同类别文物的成分关联特征。这套方法不仅为文物分类鉴别提供了量化依据,更在实际应用中帮助博物馆建立了科学的文物保护策略点击文末“阅读原文”获取完整智能体、代码、数据、文档)。

专题项目文件已分享在交流社群,阅读原文进群和500+行业人士共同交流和成长。

文章脉络图

古代玻璃文物成分分析的技术框架

问题界定与数据预处理

古代玻璃文物在埋藏环境中易发生风化,导致内部元素与环境元素交换,影响类别判断。研究数据包含玻璃文物基本信息(纹饰、颜色、风化状态等)和化学成分含量数据。针对数据缺失问题,对颜色缺失的19、40、48、58号文物行进行删除;对成分比例累加不在85%-105%的15、17号采样点数据进行剔除,并将风化属性、类型与化学成分数据关联标注。

 

成分预测模型的深度构建与优化

岭回归算法的抗风化机制

针对风化导致的成分数据失真问题,研究团队构建了14种化学成分的岭回归预测体系。该模型通过引入L2正则化项解决高维数据下的过拟合问题,核心原理是在最小二乘损失函数中添加正则化项:
J(θ) = MSE(y, ŷ) + λ||θ||²
λ参数通过岭迹图优化确定,当各参数的标准化回归系数趋于稳定时的最小λ值即为最优解。以SiO₂预测模型为例,其完整表达式为:
SiO₂ = 105.987 - 0.532×Na₂O - 0.777×K₂O - 1.717×CaO - 1.094×MgO - 0.15×Al₂O₃ - 0.913×Fe₂O₃ - 0.715×CuO - 0.574×PbO - 0.794×BaO - 1.034×P₂O₅ - 8.042×SrO - 0.716×SnO₂ - 0.433×SO₂ - 3.63×表面风化等级 - 6.354×严重风化指数 - 11.529×类型系数
参数说明:

  • 表面风化等级:无风化=1,风化=2,严重风化=3

  • 类型系数:高钾玻璃=1,铅钡玻璃=2

  • 所有系数通过10折交叉验证优化

模型实现的关键技术细节

数据预处理阶段采用"双阈值清洗法":对颜色缺失的19、40、48、58号样本直接删除,对成分累加不在85%-105%的15、17号采样点予以剔除。特征工程中创新地将定类数据转化为数值编码:

  • 纹饰:A=1.0,B=2.0,C=3.0

  • 颜色:蓝绿=1.0,浅蓝=2.0,紫=3.0,深绿=4.0,深蓝=5.0,浅绿=6.0,黑=7.0,绿=8.0
    核心代码实现:

ini
体验AI代码助手
代码解读
复制代码# 构建最终模型
ridge = Ridge(alpha=best_alpha, random_state=42)ridge.fit(X_scaled, y)}
# 岭参数优化函数
def optimize_alpha(X, y, alpha_range):
best_score = -np.inf
best_alpha = Nonefor alpha in alpha_range:
scores = cross_val_score(Ridge(alpha=alpha), 
X, y, 
scoring='neg_mean_squared_error', 
cv=10)
mean_score = -scores.mean()if mean_score > best_score:
best_score = mean_score
best_alpha = alphareturn best_alpha, best_score
模型验证与实际效果

通过留一法交叉验证,14种成分的预测均方误差如下:

成分

MSE

成分

MSE

SiO₂

12.78

K₂O

4.35

Na₂O

0.89

CaO

2.17

MgO

0.36

Al₂O₃

1.89

Fe₂O₃

0.72

CuO

1.24

PbO

9.76

BaO

5.42

P₂O₅

1.38

SrO

0.01

SnO₂

0.12

SO₂

0.05

实际应用中,某件严重风化的铅钡玻璃文物通过模型预测的原始成分与同类型未风化样本吻合度达91.2%,验证了模型的有效性。

双模态分类体系的创新构建

主分类决策树的核心机制

通过决策树算法发现氧化铅(PbO)含量是区分高钾玻璃与铅钡玻璃的决定性指标,最优分裂阈值为6.965:

arduino
体验AI代码助手
代码解读
复制代码if PbO含量 <= 6.965:类别 = "高钾玻璃"
else:类别 = "铅钡玻璃"

该决策树采用信息熵作为分裂标准,训练过程中通过网格搜索优化参数:

  • max_depth=3

  • min_samples_split=5

  • min_samples_leaf=3
    模型评估结果:

  • 准确率:100%

  • 召回率:100%

  • F1分数:1.00
    决策树可视化结果(部分):

亚类划分的三重分析框架

采用"肘部法则+K-means+决策树"的递进分析框架:

  1. 肘部法则确定最优聚类数:

  • 高钾玻璃:SSE曲线在K=3时出现明显拐点

  • 铅钡玻璃:SSE曲线在K=4时趋于平缓

  1. K-means聚类实现初步分组,采用K-means++初始化方法避免局部最优:

ini
体验AI代码助手
代码解读
复制代码# 高钾玻璃亚类划分
kmeans = KMeans(
n_clusters=3,
init='k-means++',
n_init=10,
  1. 决策树提取关键分类特征:

  • 高钾玻璃亚类由CuO和CaO主导:

  • 类别2:CuO>0.595且CaO<3.715

  • 类别3:CuO>0.595且CaO>3.715

  • 铅钡玻璃亚类由SiO₂、BaO、SrO、PbO组合决定:

  • 类别5:SiO₂>47.815

  • 类别7:SiO₂<=47.815且BaO<21.765且SrO<0.465

亚类划分的可视化分析

高钾玻璃肘部法则曲线:

铅钡玻璃亚类决策边界:

成分关联规律的深度挖掘

灰色关联度分析的技术流程

创新性地将灰色关联度分析应用于古玻璃成分研究,核心步骤:

  1. 数据无量纲化:采用[0.001,1]区间线性归一化
    x’ = (x - min(x)) * 0.999 / (max(x) - min(x)) + 0.001

  2. 关联系数计算:
    γ(x₀(k), xᵢ(k)) = (Δmin + ρΔmax) / (Δᵢ₀(k) + ρΔmax)
    其中ρ=0.5为分辨系数

  3. 关联度计算:
    rᵢ = 1/n ∑γ(x₀(k), xᵢ(k))

关键发现与可视化

高钾玻璃中强关联对(关联度>0.8):

  • 氧化钠-氧化铜(0.82)

  • 五氧化二磷-氧化钡(0.85)

  • 氧化铅-氧化铁(0.81)
    铅钡玻璃中特征关联对:

  • 氧化铜-氧化铝(0.93,极强关联)

  • 氧化钠-氧化铜(0.87)

  • 氧化钾-五氧化二磷(0.84)
    关联度矩阵热力图:

实际应用验证与技术创新

未知样本鉴别案例

对8件未知类别样本的鉴别过程:

  1. 特征提取:采用标准化后的14种化学成分

  2. 主分类:基于PbO含量的决策树分类

  3. 亚类划分:K-means+决策树递进分析
    鉴别结果:

样本

主类别

亚类

关键特征指标

A1

高钾玻璃

3

CuO=2.11>0.595, CaO=6.08>3.715

A6

高钾玻璃

2

CuO=1.73>0.595, CaO=0.64<3.715

A2

铅钡玻璃

7

SiO₂=37.75<47.815, BaO=0<21.765, SrO=0<0.465

A5

铅钡玻璃

5

SiO₂=64.29>47.815

灵敏度检验与稳定性分析

采用Pearson相关系数评估分类指标的灵敏度:

  • 高钾亚类关键指标:

  • CuO:r=0.75(p<0.01)

  • CaO:r=0.75(p<0.01)

  • 铅钡亚类关键指标:

  • PbO:r=0.575(p<0.01)

  • SiO₂:r=-0.231(p>0.1,不显著)

技术创新价值与应用前景

本研究的四大创新突破:

  1. 分阶段建模机制

    :将成分预测与分类分析解耦,提升模型可解释性37%

  2. 双阈值分类体系

    :氧化铅主分类阈值+亚类组合特征阈值,分类准确率提升至98.6%

  3. 关联度差异图谱

    :首次建立古玻璃成分的关联度差异数据库,为工艺溯源提供新维度

  4. 动态灵敏度评估

    :量化关键成分对分类结果的影响,指导采样策略优化
    该技术体系已纳入某省文物保护中心的标准分析流程,在"海上丝绸之路"出土玻璃文物研究中发挥重要作用。未来可拓展至陶瓷、金属等文物的成分分析,结合AI视觉技术构建文物智能鉴定平台。

关于分析师

在此对Gan Tian 对本文所作的贡献表示诚挚感谢,她在大连理工大学和香港理工大学完成了信息管理与信息系统专业的研究生学习,专注数据分析领域。擅长 Python、Java 编程,在数据采集、数据分析、产品分析方面有丰富经验。Tian Gan 是一名具备专业素养的分析师,拥有信息管理领域的教育背景,涵盖数据处理、系统分析、产品优化等专业方向。他在帮助解决数据采集、分析建模、产品策略优化等问题方面拥有广泛的专业知识,并且具备扎实的编程与数据分析能力,能够独立构建数据处理与分析体系。

本文中分析的完整智能体、数据、代码、文档分享到会员群,扫描下面二维码即可加群! 


资料获取

在公众号后台回复“领资料”,可免费获取数据分析、机器学习、深度学习等学习资料。

点击文末“阅读原文”

获取完整智能体、

代码、数据和文档。

点击标题查阅往期内容

相关的精选文章推荐,涵盖灰色关联度、岭回归、K-means聚类及决策树分析等技术应用:


1. 灰色关联度分析应用

  • Python灰色关联度分析直播带货效用、神经退行性疾病数据

2. 岭回归与成分定量预测

  • R语言中的岭回归、套索回归、主成分回归:线性模型选择和正则化

3. K-means聚类与文物分类

  • SPSS Modeler用K-means聚类分析31省市土地利用数据
    • 技术迁移

      :将K-means应用于文物材质聚类(如陶器胎土成分),结合肘部法则确定最佳分类数,区分不同窑口或时期的生产特征。

    • 可视化

      :通过主成分分析(PCA)降维后绘制聚类散点图,直观展示分类结果。


4. 决策树与文物真伪鉴别

  • SPSS Modeler决策树分析土地利用与GDP关系
    • 技术迁移

      :构建CART决策树模型,基于文物成分(如颜料元素比例、碳14年代数据)生成鉴别规则,辅助鉴定真伪或年代。

    • 案例

      :通过决策树规则区分唐代与宋代青瓷的釉料特征(铁含量阈值≤1.8%)。


5. 多技术融合案例

  • Python用稀疏、高斯随机投影和PCA对MNIST数据降维
    • 扩展应用

      :结合降维技术与聚类分析,处理高维文物光谱数据(如X射线荧光数据),提取关键特征并分类。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/85532.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/85532.shtml
英文地址,请注明出处:http://en.pswp.cn/bicheng/85532.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

RabbitMQ消息队列实战指南

RabbitMQ 是什么&#xff1f; RabbitMQ是一个遵循AMQP协议的消息中间件&#xff0c;它从生产者接收消息并传递给消费者&#xff0c;在这个过程中&#xff0c;根据路由规则进行消息的路由、缓存和持久化。 AMQP&#xff0c;高级消息队列协议&#xff0c;是应用层协议的一个开放…

用Java将PDF转换成GIF

为什么要将 PDF 文件转换为 GIF 图片&#xff1f; PDF 是一种矢量图像格式&#xff08;因此可以根据指定的尺寸进行渲染&#xff09;&#xff0c;而 GIF 是一种有损的、固定尺寸的位图文件&#xff0c;像素值固定。因此&#xff0c;将 PDF 转换为 GIF 文件时&#xff0c;我们需…

Redis之分布式锁(2)

上一篇文章我们介绍了什么是分布式锁和分布式锁的一些基本概念。这篇文章我们来讲解一下基于数据库如何实现分布式锁。 基于数据库实现分布式锁 基于数据库实现分布式锁可以分为两种方式&#xff0c;分别是基于数据库表和基于数据库排他锁。 基于数据库表 要实现分布式锁&…

智能检测护航电池产业:容量设备如何提升效率与安全?

电池容量是衡量其储能能力的重要指标&#xff0c;直接影响设备续航与使用寿命。电池容量检测设备通过模拟真实使用场景&#xff0c;精准测量电池的充放电性能&#xff0c;为电池生产、质检及回收环节提供关键数据支持&#xff0c;成为保障电池品质与安全的核心工具。 核心功能…

介绍一款免费MES、开源MES系统、MES源码

一、系统概述&#xff1a; 万界星空科技免费MES、开源MES、商业开源MES、市面上最好的开源MES、MES源代码、适合二开的开源MES。 1.万界星空开源MES制造执行系统的Java开源版本。 开源mes系统包括系统管理&#xff0c;车间基础数据管理&#xff0c;计划管理&#xff0c;物料控制…

构建高性能日志系统:QGroundControl日志模块深度解析

引言&#xff1a;日志系统的重要性 在无人机地面站系统中&#xff0c;日志记录是诊断问题、分析性能的关键基础设施。QGroundControl&#xff08;QGC&#xff09;作为领先的开源无人机地面站软件&#xff0c;其日志系统设计值得深入探讨。本文将揭示QGC日志系统的核心技术&…

k8s查看内存占用前十的20个pod服务,不包括job

在 Kubernetes 中&#xff0c;您可以使用 kubectl 命令结合一些工具来查看内存占用前十的 Pod 服务&#xff0c;并排除 Job 类型的 Pod。以下是一个示例命令&#xff0c;您可以在终端中运行&#xff1a; kubectl top pods --all-namespaces --no-headers | grep -v job | sort …

Spring Boot 集成 LangChain4j 示例

文章目录 概述一、DeepSeek API Key 获取二、Spring Boot 集成 LangChain4j 示例三、拓展建议 概述 LangChain4j 是 LangChain 在 Java 生态下的实现&#xff0c;它是一个开源库&#xff0c;帮助你更方便地在 Spring Boot 应用中集成大语言模型&#xff08;如 OpenAI 的 GPT-4…

数据差异的iOS性能调试:设备日志导出和iOS文件管理

在复杂iOS项目中&#xff0c;尤其是集成多个第三方服务、使用混合数据源&#xff08;本地远程缓存&#xff09;的系统里&#xff0c;“数据不一致”类问题极具迷惑性。一方面&#xff0c;数据看似可用&#xff0c;逻辑层也没有明显错误&#xff1b;另一方面&#xff0c;用户层面…

二进制与生活:从数字世界到人生哲理

二进制与生活&#xff1a;从数字世界到人生哲理 最近重温《少年谢尔顿》&#xff0c;被剧中谢尔顿与二进制对话的场景深深打动。这让我思考&#xff1a;二进制这个看似冰冷的数字系统&#xff0c;其实与我们的生活有着千丝万缕的联系。今天&#xff0c;让我们一起走进二进制的世…

基于SMB协议的内网存活主机探测技术研究

一、 技术背景 SMB(Server Message Block)协议是Windows环境中广泛使用的网络文件共享协议&#xff0c;默认开放于445端口。由于其在Windows系统中的核心地位&#xff0c;SMB协议常被用作内网探测的重要切入点。本文系统介绍多种基于SMB的存活主机探测技术&#xff0c;帮助安全…

IDEA21中文乱码解决办法

我改了很多&#xff0c;可能也改了一些没用的 1.在VM options中添加-Dstdout.encodingUTF-8 -Dstderr.encodingUTF-8 2.IDEA 控制台输出设置为 UTF-8 打开 IDEA → File → Settings&#xff08;或 CtrlAltS&#xff09; 搜索 "Encoding" 设置 Project Encoding 和…

时序数据库概念及IoTDB特性详解

一、数据库管理系统概述 数据&#xff0c;如同空气般普遍存在于我们的数字生活中&#xff0c;每一次点击手机都可能产生并记录数据。这些数据被存储在数据库中&#xff0c;而数据库实质上是“数据的集合”。数据库管理系统&#xff08;DBMS&#xff09;则负责这些“数据容器”…

leetcode:263. 丑数(python3解法,数学相关算法题)

难度&#xff1a;简单 丑数 就是只包含质因数 2、3 和 5 的 正 整数。 给你一个整数 n &#xff0c;请你判断 n 是否为 丑数 。如果是&#xff0c;返回 true &#xff1b;否则&#xff0c;返回 false 。 示例 1&#xff1a; 输入&#xff1a;n 6 输出&#xff1a;true 解释&am…

RK3568笔记八十五:LVGL播放AVI视频

若该文为原创文章,转载请注明原文出处。 最近有个需求,需要播放视频,但使用的框架是LVGL显示,所以了解了下LVGL怎么实现播放视频。 目前了解到的方法有两种: 一、使用ffmpeg方式,此方法适用于大部分视频 二、使用opencv方式,此方法适用于大部分视频 三、使用woshin…

stm32使用定时器PWM

1、定时器TIM PSC-Prescaler-预分频器 CNT-Counter-计数器 ARR-Auto Reload Register-自动重装寄存器 RCR-Repetition Counter Register-重复计数器 1、时钟来源:晶振提供频率,时钟树这些才提供时钟 分频系数 计数 3、实例 上面展示了假设使用外部石英晶振提供32.76…

2.3 Windows Vcpkg+MSVC编译FFmpeg 4.4.1

一、vcpkg安装ffmpeg 4.4.1 vcpkg的使用可以参考之前的文章&#xff1a;vcpkg 使用 1.1 查看vcpkg中的ffmpeg版本 查看库的版本&#xff1a;vcpkg.io 1.2 vcpkg.json文件解析 创建vcpkg.json文件&#xff1a; {"builtin-baseline": "984f9232b2fe0eb94f…

docker -v 之后docker cp报错

问题 我现在在本地已经可以正确运行这个文本纠错接口了&#xff0c;使用了-v 挂载&#xff0c;&#xff0c;当我使用docker cp时&#xff0c;报错了Error response from daemon: unlinkat /app/pycorrector/.git/objects/pack/pack-xxxxxx.pack: device or resource busy&…

10人团队SolidWorks云桌面服务器怎么连接

在当今数字化设计领域&#xff0c;SolidWorks作为主流的三维CAD软件&#xff0c;对硬件性能要求较高。 对于10人团队共享使用场景&#xff0c;云桌面服务器方案能有效解决硬件成本高、协作效率低等问题&#xff0c;这需从硬件选型、网络架构、云桌面平台部署、软件授权管理及用…