文章概要

本文详细介绍 Pandas 的性能优化技术,包括:

  • 内存优化
  • 计算优化
  • 大数据处理
  • 实际应用示例

内存优化

数据类型优化

# 查看数据类型
df.dtypes# 查看内存使用情况
df.memory_usage(deep=True)# 优化数值类型
# 将 float64 转换为 float32
df['float_column'] = df['float_column'].astype('float32')# 将 int64 转换为 int32 或 int16
df['int_column'] = df['int_column'].astype('int32')# 优化分类数据
df['category_column'] = df['category_column'].astype('category')# 优化日期时间
df['datetime_column'] = pd.to_datetime(df['datetime_column'])

内存使用分析

# 查看每列的内存使用
def memory_usage_by_column(df):return df.memory_usage(deep=True).sort_values(ascending=False)# 查看数据类型分布
def dtype_distribution(df):return df.dtypes.value_counts()# 查看空值比例
def null_ratio(df):return df.isnull().sum() / len(df)# 内存使用分析报告
def memory_analysis_report(df):print("内存使用情况:")print(memory_usage_by_column(df))print("\n数据类型分布:")print(dtype_distribution(df))print("\n空值比例:")print(null_ratio(df))

内存清理

# 删除不需要的列
df = df.drop(['unused_column1', 'unused_column2'], axis=1)# 删除重复行
df = df.drop_duplicates()# 重置索引
df = df.reset_index(drop=True)# 清理内存
import gc
gc.collect()# 使用 inplace 操作
df.dropna(inplace=True)
df.fillna(0, inplace=True)

计算优化

向量化操作

# 避免循环,使用向量化操作
# 不推荐
for i in range(len(df)):df.loc[i, 'new_column'] = df.loc[i, 'column1'] + df.loc[i, 'column2']# 推荐
df['new_column'] = df['column1'] + df['column2']# 使用 apply 而不是循环
# 不推荐
for i in range(len(df)):df.loc[i, 'new_column'] = some_function(df.loc[i, 'column'])# 推荐
df['new_column'] = df['column'].apply(some_function)# 使用向量化函数
df['new_column'] = np.where(df['column'] > 0, 'positive', 'negative')

并行计算

# 使用 multiprocessing 进行并行计算
from multiprocessing import Pooldef process_chunk(chunk):# 处理数据块的函数return chunk.apply(some_function)def parallel_apply(df, func, n_cores=4):# 将数据分成多个块chunks = np.array_split(df, n_cores)# 创建进程池pool = Pool(n_cores)# 并行处理results = pool.map(process_chunk, chunks)# 合并结果return pd.concat(results)# 使用示例
result = parallel_apply(df, some_function)

分块处理

# 分块读取大文件
chunk_size = 10000
chunks = pd.read_csv('large_file.csv', chunksize=chunk_size)# 分块处理
results = []
for chunk in chunks:# 处理每个数据块processed_chunk = process_chunk(chunk)results.append(processed_chunk)# 合并结果
final_result = pd.concat(results)# 使用迭代器处理大文件
def process_large_file(file_path, chunk_size=10000):for chunk in pd.read_csv(file_path, chunksize=chunk_size):# 处理每个数据块yield process_chunk(chunk)

大数据处理

分块读取

# 分块读取 CSV 文件
def read_csv_in_chunks(file_path, chunk_size=10000):return pd.read_csv(file_path, chunksize=chunk_size)# 分块读取 Excel 文件
def read_excel_in_chunks(file_path, sheet_name=0, chunk_size=10000):return pd.read_excel(file_path, sheet_name=sheet_name, chunksize=chunk_size)# 分块读取 SQL 查询结果
def read_sql_in_chunks(query, connection, chunk_size=10000):return pd.read_sql(query, connection, chunksize=chunk_size)

增量处理

# 增量处理数据
def incremental_processing(df, window_size=1000):results = []for i in range(0, len(df), window_size):chunk = df.iloc[i:i+window_size]# 处理数据块processed_chunk = process_chunk(chunk)results.append(processed_chunk)return pd.concat(results)# 增量更新
def incremental_update(df, new_data, key_column):# 合并新数据df = pd.concat([df, new_data])# 删除重复项df = df.drop_duplicates(subset=[key_column], keep='last')return df

分布式处理

# 使用 Dask 进行分布式处理
import dask.dataframe as dd# 创建 Dask DataFrame
ddf = dd.from_pandas(df, npartitions=4)# 分布式计算
result = ddf.groupby('column').mean().compute()# 使用 PySpark 进行分布式处理
from pyspark.sql import SparkSession# 创建 SparkSession
spark = SparkSession.builder.getOrCreate()# 将 Pandas DataFrame 转换为 Spark DataFrame
spark_df = spark.createDataFrame(df)# 分布式计算
result = spark_df.groupBy('column').mean()

实际应用示例

示例1:大数据集处理优化

# 创建示例数据
import numpy as np
import pandas as pd# 生成大数据集
n_rows = 1000000
df = pd.DataFrame({'id': range(n_rows),'value1': np.random.randn(n_rows),'value2': np.random.randn(n_rows),'category': np.random.choice(['A', 'B', 'C', 'D'], n_rows)
})# 优化数据类型
df['id'] = df['id'].astype('int32')
df['value1'] = df['value1'].astype('float32')
df['value2'] = df['value2'].astype('float32')
df['category'] = df['category'].astype('category')# 分块处理
def process_chunk(chunk):# 计算统计量stats = chunk.groupby('category').agg({'value1': ['mean', 'std'],'value2': ['mean', 'std']})return stats# 使用分块处理
chunk_size = 100000
chunks = [df[i:i+chunk_size] for i in range(0, len(df), chunk_size)]
results = [process_chunk(chunk) for chunk in chunks]
final_result = pd.concat(results)

示例2:内存优化实践

# 创建示例数据
df = pd.DataFrame({'id': range(1000000),'float_col': np.random.randn(1000000),'int_col': np.random.randint(0, 100, 1000000),'category_col': np.random.choice(['A', 'B', 'C', 'D'], 1000000),'date_col': pd.date_range('2023-01-01', periods=1000000)
})# 内存使用分析
print("优化前内存使用:")
print(df.memory_usage(deep=True).sum() / 1024**2, "MB")# 优化数据类型
df['id'] = df['id'].astype('int32')
df['float_col'] = df['float_col'].astype('float32')
df['int_col'] = df['int_col'].astype('int16')
df['category_col'] = df['category_col'].astype('category')# 优化后的内存使用
print("优化后内存使用:")
print(df.memory_usage(deep=True).sum() / 1024**2, "MB")

总结

性能优化部分涵盖了:

  1. 内存优化(数据类型优化、内存使用分析、内存清理)
  2. 计算优化(向量化操作、并行计算、分块处理)
  3. 大数据处理(分块读取、增量处理、分布式处理)
  4. 实际应用示例

掌握性能优化技术对于处理大规模数据至关重要,它可以帮助我们:

  • 减少内存使用
  • 提高计算效率
  • 处理大规模数据
  • 优化代码性能

建议在实际项目中注意:

  • 选择合适的数据类型
  • 使用向量化操作
  • 合理使用分块处理
  • 考虑使用分布式计算
  • 定期进行性能分析
  • 及时清理内存
  • 优化代码结构

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/84517.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/84517.shtml
英文地址,请注明出处:http://en.pswp.cn/web/84517.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

c++系列之智能指针的使用

💗 💗 博客:小怡同学 💗 💗 个人简介:编程小萌新 💗 💗 如果博客对大家有用的话,请点赞关注再收藏 🌞 智能指针的使用及原理 AII(Resource Acquisition Is Initializatio…

知识蒸馏(Knowledge Distillation, KD)

知识蒸馏(Knowledge Distillation, KD)是一种模型压缩与知识迁移技术,通过让小型学生模型(Student)模仿大型教师模型(Teacher)的行为(如输出概率分布或中间特征表示)&…

chatGPT 会扩大失业潮吗?

击上方关注 “终端研发部” 设为“星标”,和你一起掌握更多数据库知识 对于部分人而言,失业是必然趋势。 这不,身后的一测试大哥,自从公司解散之后,已经在家待业半年了。。。 自打OpenAI推出了chatGPT3.0之后&#xff…

FPGA基础 -- Verilog行为级建模之时序控制

Verilog 行为级建模(Behavioral Modeling)中“时序控制”机制的系统化由浅入深培训内容,适用于初学者到进阶 FPGA 设计工程师的学习路径。 🎯 一、行为级建模的定位 行为级建模(Behavioral Modeling)是 Ve…

设计模式精讲 Day 7:桥接模式(Bridge Pattern)

【设计模式精讲 Day 7】桥接模式(Bridge Pattern) 文章简述 在软件系统中,类的继承关系往往会导致类爆炸,尤其是在需要组合多种功能或行为时。桥接模式(Bridge Pattern)通过将抽象部分与其实现部分分离&am…

Apipost 签约锐捷网络:AI赋能,共推 ICT 领域 API 生态智能化升级

日前,北京北极狐信息科技有限公司(简称 “北极狐科技”)与锐捷网络股份有限公司(简称 “锐捷网络”)正式签署合作协议,双方将聚焦 ICT 基础设施及解决方案领域,围绕 API 全链路管理与智能化研发…

RK3568笔记八十三:RTMP推流H264和PCM

若该文为原创文章,转载请注明原文出处。 前面有通过勇哥,实现了RTMP推流,但一直想加上音频,所以经过测试,写了一个demo, ffmpeg是使用ubuntu下安装测试的。 安装参考:Ubuntu20.4下x264、x265、fdk-aac和FFmpeg4.3源码编译安装_ubuntu安装libx264-CSDN博客 记录:实现从…

产业园智慧化升级中 DDC 楼宇自控系统的集成应用优势:多业态协同与能源可视化管控​

摘要​ 在产业园智慧化升级浪潮中,直接数字控制(DDC)系统凭借强大的集成能力,成为实现多业态协同与能源可视化管控的核心技术。本文深入剖析 DDC 系统在整合园区多元业态、优化能源管理方面的独特优势,通过系统集成打…

Vue 3瀑布流组件实现详解 - 图片展示方案

引言:瀑布流布局的魅力与应用场景 在当今富媒体内容主导的网络环境中,瀑布流布局已成为展示图片商品等内容的流行方式。它通过动态布局算法在有限空间内最大化内容展示,提供视觉连续性和流畅浏览体验。本文将深入探讨如何使用Vue 3实现一个功…

如何确保邮件内容符合反垃圾邮件规范?

一、遵守相关法规 美国《CAN-SPAM法案》规定,邮件头信息必须真实准确,要标明广告性质、提供有效地址,并在 10 个工作日内响应退订请求。 欧盟《通用数据保护条例》(GDPR)强调获得用户明确同意,数据使用要…

MQ解决高并发下订单问题,实现流量削峰

文章目录 示例:电商秒杀系统中的流量削峰1. 依赖引入(Maven)2. 消息队列配置(RabbitMQ)3. 生产者:订单服务(接收高并发请求)4. 消费者:库存服务(按系统容量处…

【二进制安全作业】250616课上作业2 - 栈溢出漏洞利用

文章目录 前言一、使用环境二、程序源码1. C语言源码2. 编译方式 三、源码分析四、反汇编分析1. 检查文件安全性2. 查找目标函数3. 计算偏移量4. 绕过 strlen5. 绕过 if 五、编写EXP结语 前言 直接进入正题 一、使用环境 处理器架构:x86_64 操作系统:U…

Python类型处理与推导式

欢迎来到啾啾的博客🐱。 记录学习点滴。分享工作思考和实用技巧,偶尔也分享一些杂谈💬。 有很多很多不足的地方,欢迎评论交流,感谢您的阅读和评论😄。 目录 1 引言2 类型处理3 高效操作AI开发常见数据结构3…

数据库char字段做trim之后查询很慢的解决方式

select * from TABLE0 where trim(column1):param 当表数据量大时,即使给column1字段加上索引,这条查询语句也会很慢。 因为使用trim函数后,column1的索引会失效,有两种处理方法: 1.给表加上trim(column1)函数索引 …

Kafka核心架构解析:从CAP理论到消息可靠性的设计哲学

摘要 本文从分布式系统CAP理论和消息可靠性两个视角深入解析Kafka的架构设计,通过概念关系图和组件交互图揭示其核心设计思想,并详细拆解各组件功能与协作机制。文章包含完整的交互流程分析和配置参数说明,是理解Kafka设计精髓的实用指南。 一…

LeetCode 275.H指数 II

题目: 给你一个整数数组 citations ,其中 citations[i] 表示研究者的第 i 篇论文被引用的次数,citations 已经按照 非降序排列 。计算并返回该研究者的 h 指数。 h 指数的定义:h 代表“高引用次数”(high citations&…

OV汽车摄像头cmos sensor 相关情况介绍

OV汽车摄像头cmos sensor 相关情况介绍 文章目录 OV汽车摄像头cmos sensor 相关情况介绍**1. 汽车摄像头三大场景应用****2. 车载CMOS SENSOR的核心技术****3. 两大车规认证:实现真正的车规可靠性****4. 最新产品**2022年,汽车智能化加码提速,被誉为“智能驾驶之眼”的车载摄…

Pinia在多步骤表单中的实践应用

引言 Pinia是Vue 3推荐的状态管理库,相比Vuex提供了更简洁的API、更好的TypeScript支持和更灵活的组合式风格。本文基于实际项目代码,详细介绍Pinia在多步骤表单场景中的应用方法。 1. Pinia Store的创建与设计 1.1 基础Store结构 在src/store/modul…

目标检测之YOLOV11的环境搭建

1 创建虚拟环境 conda create -n yolov11 python3.9 conda activate yolov112 安装ultralytics 默认是有cuda的情况下 # Install all packages together using conda conda install pytorch torchvision conda 还不能直接安装ultralytics,需要通过pip进行安装 …

Android 构建配置中的变量(通常在设备制造商或定制 ROM 的 AndroidProducts.mk 或产品配置文件中定义)

以下是 Android 构建系统中常见的用于产品配置、资源复制和构建规则的变量 1. PRODUCT_COPY_FILES 作用:指定需要从源码树复制到镜像的文件。示例:PRODUCT_COPY_FILES \device/manufacturer/device_name/file.conf:$(TARGET_COPY_OUT_VENDOR)/etc/file…