8
社区成员
发帖
与我相关
我的任务
分享
我直接给你**PyCharm 可直接运行、零修改、一键执行**的代码!
功能:**连接 Hadoop → 读取 xlsx → 删除 某一列包含 "bot" 的所有行 → 保存回 HDFS**
全程不用手动下载上传文件!
---
# 完整代码(复制到 PyCharm 直接跑)
## 先安装依赖(在 PyCharm 终端执行)
```bash
pip install pandas openpyxl hdfs
```
## 正式代码
```python
from hdfs import InsecureClient
import pandas as pd
import os
# ===================== 【你只需要改这里的配置】 =====================
HDFS_HOST = '192.168.1.100' # HDFS NameNode IP
HDFS_PORT = 50070 # 默认 50070 不用改
HDFS_USER = 'hadoop' # HDFS 用户名
HDFS_EXCEL_PATH = '/user/data/test.xlsx' # HDFS上的Excel文件路径
LOCAL_TEMP = 'temp_file.xlsx' # 本地临时文件
TARGET_COLUMN = '用户名' # 要检查的列名(包含bot就删除)
# ==================================================================
# 1. 连接 HDFS
client = InsecureClient(f"http://{HDFS_HOST}:{HDFS_PORT}", user=HDFS_USER)
print("✅ HDFS 连接成功")
# 2. 从 HDFS 下载 Excel
with client.read(HDFS_EXCEL_PATH) as reader:
with open(LOCAL_TEMP, 'wb') as f:
f.write(reader.read())
print("✅ 文件下载完成")
# 3. 读取 Excel
df = pd.read_excel(LOCAL_TEMP, engine='openpyxl')
print(f"原始行数:{len(df)}")
# 4. 【核心】删除 某一列包含 bot 的所有行(不区分大小写)
df = df[~df[TARGET_COLUMN].str.contains('bot', case=False, na=False)]
print(f"删除后行数:{len(df)}")
print("✅ 已删除所有包含 bot 的行")
# 5. 保存新 Excel
df.to_excel(LOCAL_TEMP, index=False, engine='openpyxl')
# 6. 上传回 HDFS(覆盖原文件)
client.upload(HDFS_EXCEL_PATH, LOCAL_TEMP, overwrite=True)
print("✅ 新文件已上传到 HDFS")
# 7. 清理临时文件
os.remove(LOCAL_TEMP)
print("\n🎉 全部完成!")
```
---
# 你只需要改 4 个地方
1. `HDFS_HOST` = **你的 Hadoop IP**
2. `HDFS_USER` = **你的 HDFS 用户名**(一般是 hadoop / root)
3. `HDFS_EXCEL_PATH` = **HDFS 上的 xlsx 路径**
4. `TARGET_COLUMN` = **要检查的列名**(比如 用户名、备注、账号 等)
---
# 代码逻辑(超简单)
- 读取 HDFS 上的 `.xlsx`
- 在 **指定列** 里找包含 `bot` 的行
- **直接删除这些行**
- 把干净数据写回 HDFS
---
# 如果你想:
- 删除 **整行任何一列** 包含 bot 的行
- 区分大小写(只删 Bot 不删 bot)
- 删除空值、重复行
我也可以直接帮你改成最终版!
需要我帮你**按你的真实列名直接写好最终代码**吗?
8
社区成员
发帖
与我相关
我的任务
分享加载中
Java是一种广泛使用的编程语言,它是由Sun Microsystems(现在是Oracle Corporation的一部分)开发的。Java是一种静态类型的、类基础的、并发性的、面向对象的编程语言。以下是一些Java公告:
1. Java 11已经发布:Java 11是Java的一个主要版本,于2018年9月25日发布。它包含了许多新的功能和改进,例如本地变量类型推断、改进的并发API、新的日期和时间API等。
2. Java 8是迄今为止最流行的Java版本之一:Java 8是Java的一个主要版本,于2014年3月18日发布。它引入了Lambda表达式和Stream API,使得Java在处理集合和函数式编程方面更加简单和高效。
3. Java Enterprise Edition 8已经发布:Java Enterprise Edition 8是Java企业版的一个主要版本,于2013年9月4日发布。它引入了Java Transaction API(JTA)和Java Persistence API(JPA)的更新,以及其他一些新的特性和改进。
4. Java MicroProfile已经发布:Java MicroProfile是一种基于Java Enterprise Edition的规范集合,旨在为构建微服务提供一组轻量级的、可扩展的Java API。它包括了一些用于开发微服务的API,例如JAX-RS 2.0、CDI、JSON-P等。
5. JavaFX已经集成到Java 8中:JavaFX是一种用于构建富客户端应用程序的Java库。从Java 8开始,JavaFX已经被集成到Java平台中,使得开发人员可以更容易地使用Java来创建图形用户界面。
以上是一些Java公告,包括新版本的发布、新特性的引入以及Java平台的更新等。
试试用AI创作助手写篇文章吧