功能:连接 Hadoop → 读取 xlsx → 删除 某一列包含 "bot" 的所有行 → 保存回 HDFS

Borter
新星创作者: Java技术领域
优质创作者: 学术研究与理论基础技术领域
2026-04-13 14:57:32
我直接给你**PyCharm 可直接运行、零修改、一键执行**的代码!
功能:**连接 Hadoop → 读取 xlsx → 删除 某一列包含 "bot" 的所有行 → 保存回 HDFS**

全程不用手动下载上传文件!

---

# 完整代码(复制到 PyCharm 直接跑)
## 先安装依赖(在 PyCharm 终端执行)
```bash
pip install pandas openpyxl hdfs
```

## 正式代码
```python
from hdfs import InsecureClient
import pandas as pd
import os

# ===================== 【你只需要改这里的配置】 =====================
HDFS_HOST = '192.168.1.100'   # HDFS NameNode IP
HDFS_PORT = 50070             # 默认 50070 不用改
HDFS_USER = 'hadoop'           # HDFS 用户名
HDFS_EXCEL_PATH = '/user/data/test.xlsx'  # HDFS上的Excel文件路径
LOCAL_TEMP = 'temp_file.xlsx'             # 本地临时文件
TARGET_COLUMN = '用户名'                   # 要检查的列名(包含bot就删除)
# ==================================================================

# 1. 连接 HDFS
client = InsecureClient(f"http://{HDFS_HOST}:{HDFS_PORT}", user=HDFS_USER)
print("✅ HDFS 连接成功")

# 2. 从 HDFS 下载 Excel
with client.read(HDFS_EXCEL_PATH) as reader:
    with open(LOCAL_TEMP, 'wb') as f:
        f.write(reader.read())
print("✅ 文件下载完成")

# 3. 读取 Excel
df = pd.read_excel(LOCAL_TEMP, engine='openpyxl')
print(f"原始行数:{len(df)}")

# 4. 【核心】删除 某一列包含 bot 的所有行(不区分大小写)
df = df[~df[TARGET_COLUMN].str.contains('bot', case=False, na=False)]

print(f"删除后行数:{len(df)}")
print("✅ 已删除所有包含 bot 的行")

# 5. 保存新 Excel
df.to_excel(LOCAL_TEMP, index=False, engine='openpyxl')

# 6. 上传回 HDFS(覆盖原文件)
client.upload(HDFS_EXCEL_PATH, LOCAL_TEMP, overwrite=True)
print("✅ 新文件已上传到 HDFS")

# 7. 清理临时文件
os.remove(LOCAL_TEMP)
print("\n🎉 全部完成!")
```

---

# 你只需要改 4 个地方
1. `HDFS_HOST` = **你的 Hadoop IP**
2. `HDFS_USER` = **你的 HDFS 用户名**(一般是 hadoop / root)
3. `HDFS_EXCEL_PATH` = **HDFS 上的 xlsx 路径**
4. `TARGET_COLUMN` = **要检查的列名**(比如 用户名、备注、账号 等)

---

# 代码逻辑(超简单)
- 读取 HDFS 上的 `.xlsx`
- 在 **指定列** 里找包含 `bot` 的行
- **直接删除这些行**
- 把干净数据写回 HDFS

---

# 如果你想:
- 删除 **整行任何一列** 包含 bot 的行
- 区分大小写(只删 Bot 不删 bot)
- 删除空值、重复行

我也可以直接帮你改成最终版!

需要我帮你**按你的真实列名直接写好最终代码**吗?

 

...全文
62 回复 打赏 收藏 转发到动态 举报
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复

8

社区成员

发帖
与我相关
我的任务
社区描述
Begin here!
团队开发 技术论坛(原bbs) 广东省·东莞市
社区管理员
  • Bol5261
  • Caf5261
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

Java是一种广泛使用的编程语言,它是由Sun Microsystems(现在是Oracle Corporation的一部分)开发的。Java是一种静态类型的、类基础的、并发性的、面向对象的编程语言。以下是一些Java公告:

1. Java 11已经发布:Java 11是Java的一个主要版本,于2018年9月25日发布。它包含了许多新的功能和改进,例如本地变量类型推断、改进的并发API、新的日期和时间API等。

2. Java 8是迄今为止最流行的Java版本之一:Java 8是Java的一个主要版本,于2014年3月18日发布。它引入了Lambda表达式和Stream API,使得Java在处理集合和函数式编程方面更加简单和高效。

3. Java Enterprise Edition 8已经发布:Java Enterprise Edition 8是Java企业版的一个主要版本,于2013年9月4日发布。它引入了Java Transaction API(JTA)和Java Persistence API(JPA)的更新,以及其他一些新的特性和改进。

4. Java MicroProfile已经发布:Java MicroProfile是一种基于Java Enterprise Edition的规范集合,旨在为构建微服务提供一组轻量级的、可扩展的Java API。它包括了一些用于开发微服务的API,例如JAX-RS 2.0、CDI、JSON-P等。

5. JavaFX已经集成到Java 8中:JavaFX是一种用于构建富客户端应用程序的Java库。从Java 8开始,JavaFX已经被集成到Java平台中,使得开发人员可以更容易地使用Java来创建图形用户界面。

以上是一些Java公告,包括新版本的发布、新特性的引入以及Java平台的更新等。

试试用AI创作助手写篇文章吧