hbase 正则表达式

大王有金角111111111111111 2017-12-07 06:04:19

有以下rowkey
549_268_421_16_284_TD0159290
549_268_423_16_284_TD0159290
549_268_424_16_284_TD0159290
549_263_424_16_284_TD0159290
。。。。。。。。

hbase的正则表达式查询要求在第二个_和第3个_之间任意匹配
效果：查出满足 549_268_全部匹配_16_284

怎么做到！！！！
549_268_421_16_284_TD0159290
549_268_423_16_284_TD0159290
549_268_424_16_284_TD0159290

请教各位大神怎么做到

...全文

548 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

Mr_ZZzw 2019-08-20

打赏
举报

回复

使用RowFilter 正则比较器如：在shell中可以 scan 'table',{STARTROW=>'549', STOPROW=>'550',FILTER=>"RowFilter(=,'regexstring:^549_268_..._16_284.*')"}

ETL 数据基本清洗包括以下分类： 1.日期时间； 2.数值； 3.字符串； 4.字符； 5.金钱； 6.数据库（mysql、postgresql、mongodb、hbase、hdfs、memcached）； 7.加解密（md5、sha、base64、aes、rsa）； 8.文件； 9.http服务； 10.正则表达式； 11.个人信息：身份证号、手机号、姓名清洗和扩展；后期会不断更新，望大家指正。

财经新闻搜索引擎从财经新闻网页数据开始，进行正文提取、中文分词、倒排索引构建、执行搜索和UI。要求技术：MapReduce或Spark；执行搜索和UI采用Spark或Java 步骤：（1）新闻正文提取，采用正则表达式提取指定网站栏目新闻的标题、正文和发表时间。评分标准：一个栏目15分（多一个栏目+5分）（25分）；使用通用算法提取不固定格式正文（不算很难）40分（2）中文分词（worldcount），将正文进行中文分词，保存每个新闻的URL、标题、正文等数据评分标准：分词并将正文存储到文件15分；存储到HBase（本地）+5分（3）倒排索引构建，将词汇、次数和文章ID构建成倒排索引和对应的TF值评分标准：计算倒排索引并存储到文本文件15分；存储到HBase（本地）+5分；计算TF值5分（4）执行搜索，对用户搜索词进行分词，从倒排索引读取对应词汇，读取TF值，读取数据计算IDF值，根据IF×IDF值对词汇对应的文章进行排序，显示排序后的正文摘要评分标准：25分，有交互式UI（如网页）+10分（5）优化和执行评分标准：shuffle优化并做对比测试+10分；第（2）

HBase的原型是Google的BigTable论文，受到了该论文思想的启发，目前作为Hadoop的子项目来开发维护，用于支持结构化的数据存储.HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBASE技术可在廉价...

爬虫（Web Crawler）是一种自动化程序，用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储，以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。爬虫的工作流程包括以下几个关键步骤： URL收集：爬虫从一个或多个初始URL开始，递归或迭代地发现新的URL，构建一个URL队列。这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。请求网页：爬虫使用HTTP或其他协议向目标URL发起请求，获取网页的HTML内容。这通常通过HTTP请求库实现，如Python中的Requests库。解析内容：爬虫对获取的HTML进行解析，提取有用的信息。常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据，如文本、图片、链接等。数据存储：爬虫将提取的数据存储到数据库、文件或其他存储介质中，以备后续分析或展示。常用的存储形式包括关系型数据库、NoSQL数据库、JSON文件等。遵守规则：为避免对网站造成过大负担或触发反爬虫机制，爬虫需要遵守网站的robots.txt协议，限制访问频率和深度，并模拟人类访问行为，如设置User-Agent。反爬虫应对：由于爬虫的存在，一些网站采取了反爬虫措施，如验证码、IP封锁等。爬虫工程师需要设计相应的策略来应对这些挑战。爬虫在各个领域都有广泛的应用，包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而，使用爬虫需要遵守法律和伦理规范，尊重网站的使用政策，并确保对被访问网站的服务器负责。

mybus 实现MySQL数据库到Redis,以及HBASE的全量，以及增量同步支持通过正则表达式指定需要导出的db以及表 bus程序无状态，每一行有自己的位置点，位置点信息存储在下游db中增量同步通过解析MySQL的行复制日志，完成增量数据的同步通过编写so，实现转换的业务逻辑上下游ip，端口，需要导出的schema信息都存储在configservice中，configservice是一个用redis作为存储的基于django的pythonweb程序程序作为基础组件，在新浪以及微博的数据运维中，其可靠性得到了充分验证使用方式如下：一. 编译程序代码中包含了链接mysql以及hbase的库，目前支持centos5/centos6,centos7暂不支持进入mybus目录，执行make命令，如果make失败，请将结果贴出来二. 启动configservice 2. red

1,092

社区成员

968

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章