几千万个文本（1TB左右）需要根据规则计算做结构化，用什么大数据架构比较合适？

lix511 2019-08-28 12:09:27

目前有几千万个文本（1TB左右）的数据存储在sqlserver中。
需求是需要根据业务上的规则（位置，前后关键字，语法匹配等方式）对文本进行分析计算，将文本中的信息提取出来，生成结构化数据。
另外数据也是不断的在增长，每天增量在10~100万。

问题：
1. 规则需要不断调整迭代，文本分析要反复进行，所以希望每次处理的时间尽量快一些，因此想采用分布式计算的方案。但具体使用什么架构比较好？hadoop，spark，storm等等，该如何选型，更适合当前的业务场景？
2. 数据是否要从sqlserver导入到hadoop平台？用什么方案存储比较好？
3. 生成的结构化数据是否可以写回到sqlserver中，前端程序改动较小，但不知道这样的话sqlserver是否会成为瓶颈？有没有什么解决方案？

...全文

70 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

西門吹牛__Linux 2019-08-28

打赏
举报

回复

1. 你不做实时分析，storm先放着。 2. HDFS按天存储文件。 3. Spark on Yarn跑批。 4. sqlserver导入导出可以用ETL工具。

大数据必然无法用单台的计算机进行处理，必须采用分布式计算架构。它的特色在于对海量数据进行分布式数据挖掘（SaaS），但它必须依托云计算的分布式处理、分布式数据库（PaaS）和云存储、虚拟化技术（IaaS）。大数据...

大数据的三个发展方向，平台搭建/优化/运维/监控、大数据开发/ 设计/ 架构、数据分析/挖掘。请不要问我哪个容易，哪个前景好，哪个钱多。先扯一下大数据的4V特征：数据量大，TB->PB 数据类型繁多，结构化、...

大数据参考架构和关键技术 1、大数据参考架构 大数据作为一种新兴技术，目前尚未形成完善、达成共识的技术标准...“一个概念体系”是指它为大数据参考架构中使用的概念提供了一个构件层级分类体系,即“角色—活动...

导读：如何存储、如何利用大规模的服务器集群处理计算才是大数据技术的核心。作者：李智慧来源：大数据DT（ID：hzdashuju）大数据技术其实是分布式技术在数据处理领域的创新性应用，其本质...

互联网二次革命的移动互联网时代，如何吸引用户、...通过各类大数据对用户进行研究，以数据驱动产品是解决这个课题的主要手段，携程的大数据团队也由此应运而生；经过几年的努力，大数据的相关技术为业务带来了惊人

Hadoop生态社区

20,808

社区成员

4,690

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章