技术学院

如何在 Pandas DataFrame 中仅对指定 ID 值去重

作者:聖光之護2026-01-08 00:00:00

本文介绍一种精准去重策略：仅对 dataframe 中特定 id（如 id == 1）的重复行进行删除，保留其他 id 的所有记录，利用布尔掩码与 `duplicated()` 灵活组合实现。

在实际数据分析中，全局去重（如 df.drop_duplicates(subset='ID')）往往过于粗放——它会抹除所有 ID 的后续重复项，而业务需求常要求“选择性克制”：只对某个关键 ID 去重，其余 ID 完全保留原貌。例如，你可能希望 ID=1 的首次出现有效，后续同 ID 行一律剔除；但 ID=2 或 ID=3 的重复（如多条记录、不同时间戳）需完整保留。

核心思路是构造一个条件化布尔掩码（conditional boolean mask），仅标记「既是目标 ID 又属于重复项」的行，再通过逻辑取反 ~mask 进行过滤：

import pandas as pd

df = pd.DataFrame({
    'ID': [1, 2, 3, 1, 2, 3],
    'Value': ['A', 'B', 'A', 'B', 'C', 'A']
})

# ✅ 关键一步：仅对 ID == 1 的重复行标记为 True
mask = df['ID'].eq(1) & df.duplicated(subset=['ID'])
result = df[~mask].reset_index(drop=True)

print(result)

输出：

   ID Value
0   1     A
1   2     B
2   3     A
3   2     C
4   3     A

? 分步解析掩码逻辑：

df['ID'].eq(1) → [True, False, False, True, False, False]：定位所有 ID=1 的位置；
df.duplicated(subset=['ID']) → [False, False, False, True, True, True]：标记从第二次出现起的每个重复 ID（按行顺序）；
二者 &（按位与）→ [False, False, False, True, False, False]：仅第 3 行（索引 3，ID=1 第二次出现）被标记为待删除；
df[~mask] 即排除该行，完美达成目标。

⚠️ 注意事项：

duplicated() 默认 keep='first'，即保留首次出现、标记后续重复项。若需保留最后一次，可改用 df.duplicated(subset=['ID'], keep='last')，但此时需同步调整逻辑（如结合 ~df.duplicated(..., keep='last')）；
若目标值是字符串或浮点数（如 'user_101' 或 1.0），确保类型一致，建议显式使用 df['col'].isin([target]) 替代 .eq() 提升可读性与兼容性；
此方法不修改原 DataFrame，符合函数式编程习惯，适合嵌入 pipeline。

总结：Pandas 的向量化布尔运算赋予了细粒度数据清洗强大能力。记住口诀——“条件筛选 + 重复标记 = 精准去重”，无需循环或 groupby，一行掩码即可优雅解题。

上一篇丨

Flask路由函数返回异常对象导致TypeError的解决方案

下一篇丨

谷歌浏览器怎么快速切换不同的用户个人资料_Chrome多用户配置及快速切换技巧

全国咨询热线： 400-8878-609

新闻资讯

技术学院

如何在 Pandas DataFrame 中仅对指定 ID 值去重

联系我们