列出所有的python 库和 api
import pandas as pd
import numpy as np
就这两个库
pandas 库 - api | numpy 库 - api | matplotlib.pyplot - api |
pd.read_csv() | np.where(condition,x,y) | fillna(method='ffill',inplace=True) method='bfill', |
pd.read_excel() | np返回结果 series 对象 data['A列'].value_counts() | data.drop(colums=['数组字段A']) |
data.to_csv('xxx.csv',Index=False) 这个data 通常是之前处理过的数据,比如cleaned_data | 统计缺失值 data.isnull().sum | |
统计具体某列 pd.cut(data[列名], bins=bmi_bins, labels=bmi_labels) | 统计重复值 data.duplicated().sum() | |
1. groupby().apply(lambda) data.groupby(data['需要计算的源数据列名'])['过滤条件的列名'] (data['BMIRange'])['RiskLevel'].apply(lambda x: (x == '高风险患者').mean()) | 数据标准化 公式standard_A = (A - A.mean()) / A.std() data['PurchaseAmount'] = (data['PurchaseAmount'] - | |
2. groupby().agg(['数组元素A','数组元素B']) data.groupby('SensorType')['Value'].agg(['count', 'mean']) 写法2,gender_stats = data.groupby('Gender').agg({'Speed':'mean','TravelDistance':'mean','TravelTime':'mean'}) | 数据类型转换 data['Age'].astype(int) | |
3 groupby 过滤方式使用isin . isin(['数组元素A','数组元素B'])] groupby 之前是数据,所以这里要补全 [] | data['Age'].between(18, 70) |