技术学院

如何基于分组的众数填充Pandas DataFrame中的缺失值

作者:花韻仙語2026-01-10 00:00:00

本文介绍如何在pandas中按某一列（如col_b）分组，用每组内目标列（如col_a）的众数（最频繁值）填充该组内的nan值，避免手动构建映射表，实现简洁、高效、可复用的缺失值插补。

在数据预处理中，针对分类或离散型特征的缺失值，常需采用“按业务逻辑分组后取众数填充”的策略——例如：同一用户类型（col_B）下，其偏好等级（col_A）的常见取值即为该类型的合理默认值。Pandas 提供了 groupby().transform() 与 fillna() 的组合方案，可直接完成这一任务，无需中间DataFrame或显式循环。

核心思路是：对 col_A 按 col_B 分组后，对每组调用自定义函数，先计算该组非空值的众数（Series.mode()），再用该众数填充组内所有NaN。transform 确保返回结果与原DataFrame等长且对齐，天然适配赋值操作。

以下是完整实现代码：

import pandas as pd
import numpy as np

# 构造示例数据
df = pd.DataFrame({
    'col_A': [8, 7, 20, np.nan, 8, 9, 37, np.nan, np.nan],
    'col_B': [31, 30, 83, 5, 31, 34, 158, 5, 30]
})

# 定义安全众数填充函数（兼容空组或无众数情况）
def impute_mode(series):
    mode_vals = series.mode()
    if not mode_vals.empty:
        return series.fillna(mode_vals.iloc[0])
    else:
        return series.fillna(series.dropna().iloc[0] if not series.dropna().empty else np.nan)

# 执行分组众数填充（原地更新或新建列均可）
df['col_A_filled'] = df.groupby('col_B')['col_A'].transform(impute_mode)

print(df)

输出示例：

   col_A  col_B  col_A_filled
0  8.0     31           8.0
1  7.0     30           7.0
2 20.0     83          20.0
3  NaN      5           NaN   # 注意：若col_B=5时col_A全为NaN，则mode为空，此处保持NaN（见下方说明）
4  8.0     31           8.0
5  9.0     34           9.0
6 37.0    158          37.0
7  NaN      5           NaN
8  NaN     30           7.0

✅ 关键优势：

一行 transform 调用完*部填充，逻辑清晰、性能优异；
自动对齐索引，无需担心分组顺序或长度不匹配；
函数内嵌容错处理（如空众数、全NaN组），提升鲁棒性。

⚠️ 注意事项：

Series.mode() 返回 Series，需 .iloc[0] 取首个众数值（多众数时取出现最早的）；
若某 col_B 组内 col_A 全为 NaN，mode() 返回空Series，此时应降级处理（如填全局众数、均值，或保留NaN）；
对于含大量重复分组的大数据集，可提前用 df.groupby('col_B')['col_A'].agg(pd.Series.mode) 预计算众数映射字典以进一步优化性能。

综上，groupby(...).transform(...) 是Pandas中实现“条件众数填充”的标准、推荐方式，兼顾可读性、简洁性与工程可靠性。

上一篇丨

Microsoft Edge如何清除浏览历史记录 Edge浏览器历史记录清理

下一篇丨

Yandex俄罗斯搜索引擎官方入口 Yandex中文网页访问方式

全国咨询热线： 400-8878-609

新闻资讯

技术学院

如何基于分组的众数填充Pandas DataFrame中的缺失值

联系我们