pandas DataFrame 空值统计与填充方法

技术文摘

2024-12-28 22:41:32 小编

在数据分析中，pandas 的 DataFrame 是一个强大的工具。处理其中的空值是常见的操作之一。本文将详细介绍 pandas DataFrame 空值的统计与填充方法。

我们来了解如何统计 DataFrame 中的空值。可以使用 isnull() 方法结合 sum() 函数来实现。例如，如果我们有一个名为 df 的 DataFrame，要统计每列的空值数量，可以这样操作：

import pandas as pd

# 创建示例 DataFrame
data = {'A': [1, 2, None, 4],
        'B': [None, 2, 2, None],
        'C': [3, None, 5, 6]}
df = pd.DataFrame(data)

null_counts = df.isnull().sum()
print(null_counts)

这将为我们提供每列的空值数量。

接下来，探讨空值的填充方法。常见的填充策略有使用固定值、使用均值、中位数等。

使用固定值填充，比如用 0 来填充空值，可以这样做：

df_filled = df.fillna(0)

若要使用均值填充，可以先计算每列的均值，然后进行填充：

mean_values = df.mean()
df_filled_mean = df.fillna(mean_values)

对于中位数填充，方法类似：

median_values = df.median()
df_filled_median = df.fillna(median_values)

在实际应用中，选择哪种填充方法取决于数据的特点和分析的需求。

另外，还可以按列进行不同方式的填充。例如，对于列 A 使用 1 填充，列 B 使用 2 填充：

df.fillna({'A': 1, 'B': 2})

熟练掌握 pandas DataFrame 空值的统计与填充方法，能够有效地处理数据中的缺失值，为后续的数据分析和建模提供更准确和可靠的数据基础。无论是处理小规模的数据集还是大规模的数据分析任务，这些方法都具有重要的实用价值。

TAGS: python 数据操作 pandas DataFrame 空值统计 DataFrame 数据处理

万千站长工具

技术文摘

pandas DataFrame 空值统计与填充方法

欢迎使用万千站长工具！