该段代码主要实现从数据库和 Excel 文件中读取数据,并对两者进行字段匹配,最终找出 Excel 中未匹配到的数据库记录。功能如下:

  1. [sqlSelect()]:连接 MySQL 数据库并查询比价单及其商品信息。
  2. [BiJiaDaoChu()]:调用外部 API 导出 Excel 文件(注释中未被调用)。
  3. [read_excel_to_dict()]:将 Excel 文件读取为字典列表。
  4. [normalize_value()]:统一不同格式的值(如时间、空值、数字转字符串),便于后续比较。
  5. [match_list_to_list()]:根据字段映射匹配两个字典列表中的条目,允许时间差 2 秒。
  6. [find_unmatched_in_list_b()]:找出在 Excel 中没有匹配到的数据库记录。

最终输出:打印出数据库中在 Excel 中未找到匹配项的数据。

import jsonimport pandas as pd
import pymysql
import requests
import datetime
import numpy as np
from pymysql import Timestampdef sqlSelect():global result_skudb = pymysql.Connect(host='IP',port=3306,user='user',password='password',db='test',charset='utf8',cursorclass=pymysql.cursors.DictCursor)cur = db.cursor()sql = 'select * from aaa a join bbb b  on a.id=b.sheet_id where a.status in(1,2)'cur.execute(sql)result_sku = cur.fetchall()cur.close()db.close()# print(result_sku)return result_skudef BiJiaDaoChu():data = {"askSheetCode": None}headers = {"Authorization": "440d9854d7434d1f998081abc6785fab","Content-Type": "application/json"}url = 'http:test/export'response = requests.post(url=url, data=json.dumps(data), headers=headers)# 判断响应类型content_type = response.headers.get('Content-Type', '')if 'application/json' in content_type:try:print(response.json())  # 尝试解析 JSONexcept json.JSONDecodeError:print("无法解析 JSON 响应")elif 'application/octet-stream' in content_type or 'application/vnd.ms-excel' in content_type:with open("../data/exported_data_bijia_test.xls", "wb") as f:f.write(response.content)  # 保存 Excel 文件print("文件已保存为 exported_data_bijia_test.xls")else:print("未知响应类型:", content_type)print(response.text)def read_excel_to_dict(file_path):"""读取 Excel 文件并将数据以字典的形式返回。:param file_path: Excel 文件的路径:return: 包含数据的字典列表"""try:# 读取 Excel 文件df = pd.read_excel(file_path)# 将 DataFrame 转换为字典列表data = df.to_dict(orient='records')# print("Excel 数据读取成功", data)return dataexcept Exception as e:print(f"读取 Excel 文件时出错: {e}")return []def normalize_value(value):# 处理空值if value is None or (isinstance(value, float) and np.isnan(value)) or value == '':return None# 统一时间格式为 datetime.datetimeif isinstance(value, pd.Timestamp):return value.to_pydatetime()elif isinstance(value, datetime.datetime):return valueelif isinstance(value, datetime.date):return datetime.datetime.combine(value, datetime.time())# 统一数字类型为字符串if isinstance(value, (int, float)):return str(int(value)) if isinstance(value, float) else str(value)# 统一字符串类型:去除前后空格if isinstance(value, str):return value.strip()return valuedef match_list_to_list(list_a, list_b, field_mapping):"""比较两个字典列表,返回匹配成功的对。增加字段级调试打印 + 时间字段允许最多相差 2 秒。"""matched_pairs = []for a_item in list_a:for b_item in list_b:matched = Truefor key_a, key_b in field_mapping.items():val_a = normalize_value(a_item.get(key_a))val_b = normalize_value(b_item.get(key_b))# 如果都是时间类型,允许最多差 2 秒if isinstance(val_a, datetime.datetime) and isinstance(val_b, datetime.datetime):diff_seconds = abs((val_a - val_b).total_seconds())if diff_seconds <= 2:continue  # 允许匹配成功elif val_a != val_b:#print(f"[字段不匹配] {key_a}({val_a!r}) vs {key_b}({val_b!r})")matched = Falsebreakif matched:matched_pairs.append((a_item, b_item))#print("[匹配成功] 找到一对匹配项")break  # 可选:找到第一个就停止return matched_pairsdef find_unmatched_in_list_b(matched_pairs, list_b):# print("完整匹配对 matched_pairs:", matched_pairs)matched_keys = []for idx, (a_item, b_item) in enumerate(matched_pairs):# print(f"[{idx}] 提取 b.id: {b_item['b.id']}")  # 调试每条提取matched_keys.append(b_item['b.id'])# print("提取到的所有 b.id 列表:", matched_keys)unmatched_b_items = []for item in list_b:if item['b.id'] not in matched_keys:unmatched_b_items.append(item)return unmatched_b_itemsfile_path = "../data/exported_data_bijia_test.xls"
excel_data = read_excel_to_dict(file_path)
list_a = excel_data
list_b = sqlSelect()mapping = {'需求比价单号': 'sheet_sn', '业务分类': 'business_class', '报价开始时间': 'quotation_start_time','报价截止时间': 'quotation_end_time', '采购单位': 'purchase_unit', '联系人': 'lixiren', '联系方式': 'mobile','商品名称': 'goods_name', '品牌': 'pinpai', '计量单位': 'unit', '采购数量': 'number', '规格描述': 'specifications',
'技术标准': 'standard_code', '备注': 'remark', '其他信息': 'other_info'}matches = match_list_to_list(list_a, list_b, mapping)
# print("匹配结果:=========", matches)
# for a, b in matches:
#     print("匹配成功:")
#     print("  list_a 项:", a)
#     print("  list_b 项:", b)
# 查找未匹配的 list_b 数据
unmatched_b = find_unmatched_in_list_b(matches, list_a, list_b)# 打印出来
print("=== list_b 中未在 list_a 匹配到的数据 ===")
for item in unmatched_b:print(item)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/87119.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/87119.shtml
英文地址,请注明出处:http://en.pswp.cn/bicheng/87119.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

InnoDB索引

1、索引的建立 / 数据的存储 一条条数据存储到页中后&#xff0c;各个数据页组成了一个双向链表&#xff0c;而每个数据页中的记录会按照主键值从小到大的顺序组成一个单向链表。此时&#xff0c;如果我想根据主键值查询一条记录&#xff0c;只能从第一个数据页开始一个页一个页…

[考研408数据结构]王道大题暑假自用复习记录(每日更新...)

DAY1 2025年6月29日 雨转晴&#x1f327;&#x1f324; 第二章 线性表 2.2线性表的顺序表示 1、从顺序表中删除具有最小值的元素&#xff08;假设唯一&#xff09;并由函数返回被删元素的值。空出的位置由最后一个元素填补&#xff0c;若顺序表为空&#xff0c;则显示出错信…

vue2 el-select下拉选择框 点击其他位置或者弹窗关闭下拉框/点击取消时,下拉框变成之前的值

1.elSelect点击空白处无法收起下拉框&#xff08;失去焦点并隐藏&#xff09; // 定义指令 directives: {clickOutside: {bind: function (el, binding, vnode) {el.clickOutsideEvent function (event) { // here I check that click was outside the el and his childrensif…

MYSQL-JAVAweb1

1.登录 在黑框中输入 net start mysql // 启动mysql服务 net stop mysql // 停止mysql服务1.MySQL数据模型 关系型数据库&#xff1a; 关系型数据库是建立在关系模型基础上的数据库&#xff0c;简单说&#xff0c;关系型数据库是由多张能互相连接的 二维表 组成的数据库 如…

将POD指定具体机器上运行

在Kubernetes中&#xff0c;你可以通过多种方式将Pod调度到指定的节点&#xff08;机器&#xff09;上运行。以下是几种常用的方法及其适用场景&#xff1a; 1. NodeSelector&#xff08;简单标签匹配&#xff09; 通过标签选择器将Pod绑定到具有特定标签的节点。 步骤 为目…

eNSP实验一:IPv4编址及IPv4路由基础

一、实验目的&#xff1a; 配置各路由器上的物理接口的IP地址并实现互联互通配置各路由器的 Loopback 的IP地址并实现互联互通&#xff08;包括备份路由&#xff0c;默认路由&#xff09;图中三个路由器型号为 AR3620。 二、配置物理接口ip 基础配置 设备命名<Huawei>…

基于自然语言处理(NLP)的Twitter情感分析系统

本课题致力于构建一个基于自然语言处理&#xff08;NLP&#xff09;与机器学习技术的Twitter情感分析系统&#xff0c;旨在自动识别用户推文中的主观情绪倾向&#xff0c;如正面、负面或中性。研究过程中将对海量Twitter文本数据进行预处理&#xff0c;包括去除噪声、分词、词性…

H.264中片数据分割(Slice Data Partitioning)介绍

H.264中**片数据分割&#xff08;Slice Data Partitioning&#xff09;**的解码机制。让我为您详细解析&#xff1a; 1. 片数据&#xff08;Slice Data Partitioning&#xff09;分割的概念 片数据分割是H.264中的一种错误恢复机制&#xff0c;通过将片数据分成不同的部分&am…

muduo

好的&#xff0c;我们来深入剖析陈硕老师开发的著名C网络库——muduo。它以“简单、高效、易用”著称&#xff0c;是学习Linux C高性能网络编程的绝佳范本。我会尽量详细、通俗地讲解其核心思想、关键组件、源码结构和工作原理。 核心思想&#xff1a;Reactor 模式 (Non-block…

将目录下所有图像中非0像素值改为1或者255

图像二值化处理技术大纲 目标与背景 解释图像二值化的意义,分析将非零像素值统一调整为1或255的应用场景(如简化数据、增强特征、适配模型输入等)。 核心方法概述 列举常见图像格式(如PNG、JPEG)的像素值范围,说明非零像素的定义(RGB或灰度图像中的非黑像素)。 方…

Reactor ConnectableFlux支持多订阅者

在 Reactor 中&#xff0c;ConnectableFlux 是一种用于处理响应式流的机制&#xff0c;它允许你控制何时开始订阅和数据生成。通常情况下&#xff0c;订阅者&#xff08;subscriber&#xff09;在订阅时会立即开始接收数据&#xff0c;但有时你可能希望多个订阅者“会面”&…

vite + vue 项目下使用 tailwindcss

版本 node: > 18.0.0 vue: 3.5.13 vite: 6.3.1 tailwindcss: 4.1.6 tailwindcss/vite: 4.1.6 tailwindcss ✅ 细粒度类库 提供数千个原子级CSS类&#xff08;如 text-center、bg-blue-500、p-4&#xff09;&#x1f9e9; 组合式开发 通过类名组合构建完全自定义的UI&#x…

Hibernate中save与saveOrUpdate的差异解析

在Hibernate中&#xff0c;save()和saveOrUpdate()都是用于持久化对象的方法&#xff0c;但它们的适用场景和行为有显著差异&#xff1a; 1. save()方法 核心行为&#xff1a; 仅适用于瞬时态&#xff08;Transient&#xff09;对象&#xff08;即新创建、未与Session关联的对象…

香橙派3B学习笔记14:deb 打包程序_解包前后脚本运行

本文学习如何用deb打包的方式打包自己需要调用系统库的程序。 然后实现deb解包前后的脚本运行。 目录 承接上文&#xff1a; 删除上文遗留的.so文件&#xff1a; 终止ledlight进程&#xff1a; 目标解释&#xff1a; 创建项目结构&#xff1a; 创建control文件&#xff1a; 创…

nanoGPT复现——prepare拆解(自己构建词表 VS tiktoken)

在nanoGPT的data文件夹有两个很相似的文件夹结构&#xff1a;shakespeare和shakespeare-char&#xff0c;这两种都是对shakespeare数据集的处理&#xff0c;但是shakespeare使用的是tiktoken对文字进行编码&#xff0c;另一个则是使用自己构建的词表 一、shakespeare-char&…

macos 安装 xcode

在 macOS 上安装 Xcode&#xff08;或者 Xcode Command Line Tools&#xff09;的方法如下&#xff1a; 1. 安装 Xcode Command Line Tools&#xff08;轻量级&#xff0c;满足大部分编译需求&#xff09; 终端命令&#xff1a; xcode-select --install会弹出安装提示&#x…

大学专业科普 | 云计算、大数据

大数据专业是近年来随着信息技术发展而兴起的热门学科&#xff0c;专注于从海量、多样化的数据中提取有价值信息&#xff0c;为各行业提供数据驱动的决策支持。 专业定义 大数据专业旨在培养掌握大数据采集、存储、管理、分析和应用等核心技术的人才。该专业融合了计算机科学…

本地文件自动提交到仓库

背景 将本地目录做一个存储仓库&#xff0c;将归档的文件放入其中。自动同步到远程仓库。 仓库配置 省略 配置密钥 用户可以 git pull \ git push \ git commit 自动 拉取、更新 脚本 文件名&#xff1a;autosave.sh #!/bin/zsh# 设置变量 LOCAL_DIR$1# 进入工作目录 cd "…

Ubuntu中控制用户存储空间配置步骤

目的&#xff0c;限制用户磁盘空间占用&#xff0c;例如给用户限制100-150G容量 1.安装磁盘配额工具 sudo apt-get install -y quota 2.备份并修改/etc/fstab文件&#xff0c;使能支持quota sudo cp /etc/fstab /etc/fstab.bak vim /etc/fstab #写入如下,usrjquotaaquota.u…

【网络】Linux 内核优化实战 - net.ipv4.tcp_rmem 和 net.core.rmem_default 关系

net.ipv4.tcp_rmem 和 net.core.rmem_default 都是 Linux 内核中控制网络接收缓冲区的参数,但它们的作用范围、优先级和使用场景存在明显区别。以下是详细对比: 核心区别 参数net.ipv4.tcp_rmemnet.core.rmem_default作用协议仅针对 TCP 协议针对 所有网络协议(TCP、UDP 等…