sql 分词以及高频次统计

一叶道人 2017-12-04 10:17:33

看了好几篇大数据从歌词分析歌坛变化的，可是自己上手就，，，所学知识完全不能用。

大神们，求助。SQL能实现吗，求源码。

...全文

720 3 打赏收藏转发到动态举报

写回复

3 条回复

切换为时间正序

请发表友善的回复…

发表回复

薛定谔的DBA 2017-12-13

打赏
举报

回复

分词可以用 python 的 jieba，可以将句子进行不同词语的拆分，可汇总各个词的数量。到时共享结果看看哈~~

道素 2017-12-12

打赏
举报

回复

你要从基础一步一步，一开始搞简单点的，先理解各种基本概念和原理

吉普赛的歌 2017-12-05

打赏
举报

回复

分词不是数据库的强项，你研究一下 Elasticsearch 吧。

本文档所涉及的大作业，是围绕着Spark平台进行的词频统计分析项目，内容涵盖了源码、设计报告以及相关sql文件，为读者提供了一个全面的学习和实践案例。首先，Spark作为当前最为流行的开源大数据处理框架之一，其...

Pyspark提供了一系列统计分析函数，如`count`, `distinct`, `groupBy`等，可以对预处理后的数据进行词汇频次统计、词云生成等操作。 4. **NLP任务** 虽然NLTK不直接支持分布式计算，但可以通过收集部分结果并本地...

使用jieba对垃圾短信数据集进行分词，然后统计其中的单词出现的个数，找到出现频次最高的top100个词。

Hive中提供了类似于SQL语言的查询语言——HiveQL，可以通过 HiveQL语句快速实现简单的 MapReduce统计， Hive 自身可以将 HiveQL 语句快速转换成 MapReduce 任务进行运行，而不必开发专门的 MapReduce 应用程序，...

相信小伙伴们在学习 Spring Cloud 微服务的过程中涉及到搜索相关的，你...如果中小项目中一些简单的分词搜索，可以试试 MySQL 分词查询，本章节跟着博主深入探讨 MySQL 的分词查询技术，从基础使用到中文处理全面解析。

27,580

社区成员

68,545

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章