如何对文本数据进行预处理，以便用于机器学习或深度学习模型？

安特托昆博博博 2025-04-10 09:58:33

...全文

320 1 打赏收藏转发到动态举报

写回复

用AI写文章

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

weixin_38498942 04-10

打赏
举报

对文本数据进行预处理是将原始文本转化为适合机器学习或深度学习模型输入的重要步骤。以下是一系列常见的文本预处理操作：

1. 数据收集与整合

首先要从各种渠道收集文本数据，像网页、文档、数据库等。若数据分散在多个文件或数据源中，需要将它们整合到一个统一的数据集中。

2. 数据清洗

去除特殊字符和标点符号：特殊字符和标点符号通常对文本的语义理解影响不大，还可能干扰模型的训练，因此可以使用正则表达式将其去除。例如在Python中：
```
import re
text = "Hello! How are you?"
cleaned_text = re.sub(r'[^\w\s]', '', text)
print(cleaned_text)
```

处理HTML标签（针对网页文本）：如果文本来源于网页，其中可能包含HTML标签，可使用BeautifulSoup库来去除这些标签。示例如下：

from bs4 import BeautifulSoup
html_text = "<p>Hello, <b>world</b>!</p>"
soup = BeautifulSoup(html_text, "html.parser")
cleaned_text = soup.get_text()
print(cleaned_text)

处理停用词：停用词是指在文本中频繁出现但对语义表达贡献不大的词汇，如“的”“是”“在”等。可以使用nltk库中的停用词列表进行去除。示例代码：

import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
nltk.download('stopwords')
nltk.download('punkt')
text = "This is a sample sentence."
stop_words = set(stopwords.words('english'))
word_tokens = word_tokenize(text)
filtered_text = [w for w in word_tokens if not w.lower() in stop_words]
print(filtered_text)

3. 分词

分词是将文本拆分成单个的词语或标记（token）。不同语言的分词方法有所不同，对于英文，可直接按空格分割；对于中文，可使用jieba等库进行分词。示例如下：

import jieba
chinese_text = "我爱自然语言处理"
words = jieba.lcut(chinese_text)
print(words)

4. 词干提取和词形还原

词干提取：将词语还原为其词干形式，例如将“running”“runs”还原为“run”。可使用nltk库中的PorterStemmer进行词干提取。示例：

from nltk.stem import PorterStemmer
stemmer = PorterStemmer()
words = ["running", "runs", "run"]
stemmed_words = [stemmer.stem(word) for word in words]
print(stemmed_words)

词形还原：将词语还原为其字典形式，即词元。可使用nltk库中的WordNetLemmatizer进行词形还原。示例：

from nltk.stem import WordNetLemmatizer
nltk.download('wordnet')
lemmatizer = WordNetLemmatizer()
words = ["better", "running", "mice"]
lemmatized_words = [lemmatizer.lemmatize(word) for word in words]
print(lemmatized_words)

5. 文本编码

独热编码（One - Hot Encoding）：将每个词语表示为一个二进制向量，向量的长度等于词汇表的大小，只有对应词语的位置为1，其余为0。
词嵌入（Word Embedding）：将词语映射到低维向量空间，使得语义相近的词语在向量空间中距离较近。常见的词嵌入方法有Word2Vec、GloVe和FastText等。在Python中，可使用gensim库训练Word2Vec模型。示例：
```
from gensim.models import Word2Vec
sentences = [["hello", "world"], ["goodbye", "world"]]
model = Word2Vec(sentences, min_count = 1)
vector = model.wv['hello']
print(vector)
```

6. 构建数据集

将编码后的文本数据划分为训练集、验证集和测试集，一般按照70% - 15% - 15%或80% - 10% - 10%的比例进行划分。在Python中，可使用sklearn库的train_test_split函数进行划分。示例：

from sklearn.model_selection import train_test_split
import numpy as np
X = np.array([[1, 2], [3, 4], [5, 6], [7, 8]])
y = np.array([0, 1, 0, 1])
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 42)
print(X_train, y_train, X_test, y_test)