

新闻资讯
技术学院本文介绍一种精准控制去重范围的方法:仅对 dataframe 中某一特定 id 值(如 id==1)删除其重复行,其余 id 值完全保留原样,不参与去重逻辑。
在实际数据处理中,我们常需“条件性去重”——并非全局去重,而是仅对满足某条件的子集执行去重操作。例如,给定如下 DataFrame:
import pandas as pd
df = pd.DataFrame({
'ID': [1, 2, 3, 1, 2, 3],
'Value': ['A', 'B', 'A', 'B', 'C', 'A']
})目标是:仅当 ID == 1 时,删除其后续重复项(即保留第一个 ID=1 的行,移除第二个 ID=1 的行),而 ID=2 和 ID=3 的所有行均完整保留(即使它们自身存在重复,也不处理)。
实现该逻辑的核心思路是:构造布尔掩码(boolean mask),精准定位“既是目标 ID 又是重复项”的行,再取反筛选。
具体步骤如下:
完整代码如下:
mask = df.ID.eq(1) & df.duplicated(subset=['ID']) result = df[~mask].reset_index(drop=True) print(result)
输出结果为:
ID Value 0 1 A 1 2 B 2 3 A 3 2 C 4 3 A
✅ 注意事项:
该方案简洁、高效、可读性强,避免了 groupby 或循环等低效方式,是 Pandas 条件去重的典型范式。