技术文摘
11 个 Python Pandas 高效工作小技巧及代码实例
2024-12-31 12:23:06 小编
11 个 Python Pandas 高效工作小技巧及代码实例
在数据处理和分析领域,Python 的 Pandas 库是不可或缺的工具。掌握一些高效的小技巧能极大地提升工作效率。以下为您介绍 11 个实用技巧及相应的代码实例。
技巧 1:快速读取大型数据文件
使用 read_csv 函数时,指定 nrows 参数可以先读取部分数据进行预览。
import pandas as pd
df = pd.read_csv('data.csv', nrows=1000)
技巧 2:选取特定列
通过列名选取需要的列,减少数据量。
df = pd.read_csv('data.csv')
selected_columns = df[['col1', 'col2']]
技巧 3:数据筛选
使用条件筛选出符合要求的数据。
filtered_df = df[df['age'] > 18]
技巧 4:数据排序
按照指定列进行升序或降序排列。
sorted_df = df.sort_values('score', ascending=False)
技巧 5:处理缺失值
使用 fillna 方法填充缺失值。
df.fillna(0, inplace=True)
技巧 6:数据聚合
例如计算平均值、总和等。
aggregated_df = df.groupby('category')['price'].mean()
技巧 7:数据合并
通过 merge 函数将多个数据框合并。
df1 = pd.DataFrame({'id': [1, 2, 3], 'name': ['A', 'B', 'C']})
df2 = pd.DataFrame({'id': [2, 3, 4], 'age': [20, 25, 30]})
merged_df = pd.merge(df1, df2, on='id')
技巧 8:时间序列处理
方便地处理日期和时间数据。
df['date'] = pd.to_datetime(df['date'])
技巧 9:数据类型转换
将数据类型转换为合适的类型以节省内存和提高效率。
df['num'] = df['num'].astype(int)
技巧 10:数据采样
随机抽取部分数据进行分析。
sampled_df = df.sample(n=100)
技巧 11:性能优化
使用 inplace=True 参数直接修改原始数据框,避免创建新的副本。
掌握这些 Pandas 小技巧,能让您在数据处理工作中更加得心应手,提高数据分析的效率和质量。