win10大数据环境搭建 es、presto、Hadoop、hive

Mr_bigbird 2020-10-13 11:31:38

win10Es单机版环境搭建

前提windows下已经安装好了jdk8的版本,配置好环境变量
https://mirrors.huaweicloud.com/elasticsearch
华为镜像站下载es

1 下载解压后在 config目录下的elasticsearch.yml文件添加

 xpack.ml.enabled: false

2 运行bin目录下的 elasticsearch.bat 文件
3 浏览器中访问127.0.0.1:9200 返回以下结果表示启动成功

{



 "name" : "node-1",



 "cluster_name" : "compass",



 "cluster_uuid" : "Zuj5FBMUTjuHQXlAHreGvA",



 "version" : {



  "number" : "5.5.3",



  "build_hash" : "9305a5e",



  "build_date" : "2017-09-07T15:56:59.599Z",



  "build_snapshot" : false,



  "lucene_version" : "6.6.0"



 },



 "tagline" : "You Know, for Search"



}

idea调试presto
1 https://github.com/prestosql/presto下载项目使用idea打开
2 在运行项目的时候，出现例如在presto-parser模块`Cannot resolve symbol 'SqlBaseParser`缺少代码的错误，这是因为源码不带anltr4的生成代码。在prestp-parser项目中找到如下插件运行生成anltr4代码

3 在执行命令完成后，错误依旧没有消失，我们可以看看项目的结构。File -> Project Structure -> Modules -> presto-parser，将presto-parser的target -> generated-sources ->anltr4设置为Sources

4 按下图进行配置
Main Class: com.facebook.presto.server.PrestoServer
VM Options: -ea -XX:+UseG1GC -XX:G1HeapRegionSize=32M -XX:+UseGCOverheadLimit -XX:+ExplicitGCInvokesConcurrent -Xmx2G -Dconfig=etc/config.properties -Dlog.levels-file=etc/log.properties
Working directory: $MODULE_DIR$
Use classpath of module: presto-main

5 注释presto-main模块PrestoSystemRequirements类的如下代码，相关代码片段用IDEA搜索功能查找

// failRequirement("Presto requires Linux or Mac OS X (found %s)", osName);

修改文件描述符大小限制(手动改成10000)：

private static OptionalLong getMaxFileDescriptorCount()

    {

        try {

            MBeanServer mbeanServer = ManagementFactory.getPlatformMBeanServer();

            //Object maxFileDescriptorCount = mbeanServer.getAttribute(ObjectName.getInstance(OPERATING_SYSTEM_MXBEAN_NAME), "MaxFileDescriptorCount");

            Object maxFileDescriptorCount = 10000;

            return OptionalLong.of(((Number) maxFileDescriptorCount).longValue());

        }

        catch (Exception e) {

            return OptionalLong.empty();

        }

    }

接下来，把PluginManager类的代码注释掉，

 /*for (File file : listFiles(installedPluginsDir)) {

            if (file.isDirectory()) {

                loadPlugin(file.getAbsolutePath());

            }

        }



        for (String plugin : plugins) {

            loadPlugin(plugin);

        }*/

然后把presto-main模块中的etc/catalog的配置文件全部改名为

.properties.bak

6 在presto-client项目pom文件中添加如下依赖

<dependency>

            <groupId>com.squareup.okio</groupId>

            <artifactId>okio</artifactId>

            <version>2.8.0</version>

        </dependency>

最后运行PrestoServer。

搭建Hadoop环境
https://www.jianshu.com/p/aa8cfaa26790

安装hive
1 https://mirrors.tuna.tsinghua.edu.cn/apache/hive 下载hive解压到本地

2 https://www.bjjem.com/article-5545-1.html下载总附件包然后解压覆盖原来hive安装目录下的bin目录

3 **下载mysql-connector-java-5.1.26-bin.jar（或其他jar版本）放在hive目录下的lib文件夹**

4.**hive配置**

hive的配置文件放在$HIVE_HOME/conf下，里面有4个默认的配置文件模板

hive-default.xml.template 默认模板

hive-env.sh.template hive-env.sh默认配置

hive-exec-log4j.properties.template exec默认配置

hive-log4j.properties.template log默认配置

可不做任何修改hive也能运行，默认的配置元数据是存放在Derby数据库里面的，大多数人都不怎么熟悉，我们得改用mysql来存储我们的元数据，以及修改数据存放位置和日志存放位置等使得我们必须配置自己的环境，下面介绍如何配置。

（1）创建配置文件

$HIVE_HOME/conf/hive-default.xml.template -> $HIVE_HOME/conf/hive-site.xml

$HIVE_HOME/conf/hive-env.sh.template -> $HIVE_HOME/conf/hive-env.sh

$HIVE_HOME/conf/hive-exec-log4j.properties.template -> $HIVE_HOME/conf/hive-exec-log4j.properties

$HIVE_HOME/conf/hive-log4j.properties.template -> $HIVE_HOME/conf/hive-log4j.properties

（2）修改 hive-env.sh

export HADOOP_HOME=F:\hadoop\hadoop-2.7.2
export HIVE_CONF_DIR=F:\hadoop\apache-hive-2.1.1-bin\conf
export HIVE_AUX_JARS_PATH=F:\hadoop\apache-hive-2.1.1-bin\lib

（3）修改 hive-site.xml

<!--修改的配置-->



<property>



<name>hive.metastore.warehouse.dir</name>



<!--hive的数据存储目录，指定的位置在hdfs上的目录-->



<value>/user/hive/warehouse</value>



<description>location of default database for the warehouse</description>



</property>



<property>



<name>hive.exec.scratchdir</name>



<!--hive的临时数据目录，指定的位置在hdfs上的目录-->



<value>/tmp/hive</value>



<description>HDFS root scratch dir for Hive jobs which gets created with write all (733) permission. For each connecting user, an HDFS scratch dir: ${hive.exec.scratchdir}/<username> is created, with ${hive.scratch.dir.permission}.</description>



</property>



<property>



<name>hive.exec.local.scratchdir</name>



<!--本地目录-->



<value>F:/hadoop/apache-hive-2.1.1-bin/hive/iotmp</value>



<description>Local scratch space for Hive jobs</description>



</property>



<property>



<name>hive.downloaded.resources.dir</name>



<!--本地目录-->



<value>F:/hadoop/apache-hive-2.1.1-bin/hive/iotmp</value>



<description>Temporary local directory for added resources in the remote file system.</description>



</property>



<property>



<name>hive.querylog.location</name>



<!--本地目录-->



<value>F:/hadoop/apache-hive-2.1.1-bin/hive/iotmp</value>



<description>Location of Hive run time structured log file</description>



</property>



<property>



<name>hive.server2.logging.operation.log.location</name>



<value>F:/hadoop/apache-hive-2.1.1-bin/hive/iotmp/operation_logs</value>



<description>Top level directory where operation logs are stored if logging functionality is enabled</description>



</property>



<!--mysql配置-->



<property>



<name>javax.jdo.option.ConnectionURL</name>



<value>jdbc:mysql://localhost:3306/hive?characterEncoding=UTF-8</value>



</property>



<property>



<name>javax.jdo.option.ConnectionDriverName</name>



<value>com.mysql.jdbc.Driver</value>



</property>



<property>



<name>javax.jdo.option.ConnectionUserName</name>



<value>root</value>



</property>



<property>



<name>javax.jdo.option.ConnectionPassword</name>



<value>root</value>



</property>



<!-- 解决 Required table missing : "`VERSION`" in Catalog "" Schema "". DataNucleus requires this table to perform its persistence operations. Either your MetaData is incorrect, or you need to enable "datanucleus.autoCreateTables"  -->



<property>



<name>datanucleus.autoCreateSchema</name>



<value>true</value>



</property>



<property>



<name>datanucleus.autoCreateTables</name>



<value>true</value>



</property>



<property>



<name>datanucleus.autoCreateColumns</name>



<value>true</value>



</property>



<!-- 解决 Caused by: MetaException(message:Version information not found in metastore. )  -->



<property>



<name>hive.metastore.schema.verification</name>



<value>false</value>



<description>



    Enforce metastore schema version consistency.



    True: Verify that version information stored in metastore matches with one from Hive jars.  Also disable automatic



          schema migration attempt. Users are required to manully migrate schema after Hive upgrade which ensures



          proper metastore schema migration. (Default)



    False: Warn if the version information stored in metastore doesn't match with one from in Hive jars.



</description>



</property>

5.MySQL设置
在mysql中执行SQL语句创建hive:

create database hive default character set latin1;

6启动
（1）启动hadoop：start-all.cmd
（2）启动metastore服务：hive --service metastore
（3）启动Hive：hive
若Hive成功启动，Hive本地模式安装完成。

...全文

978 3 打赏收藏转发到动态举报

写回复

用AI写文章

3 条回复

切换为时间正序

请发表友善的回复…

发表回复

tianfang 2020-10-13

打赏
举报

这里是论坛，提问用的

Mr_bigbird 2020-10-13

打赏
举报

引用 1 楼 tianfang 的回复:

内容不错，但是最好写在blog博客中

什么意思

tianfang 2020-10-13

打赏
举报

内容不错，但是最好写在blog博客中

大数据-全笔记最全的大数据面试文章指南从入门到架构！目录大纲功能说明导演了解數據采集 Flume、Logstash、Canal Maxwell、Databus、NIFI数据同步 DataX、Sqoop、Kettle FlinkX悲痛 HDFS、HBase、Kudu、MongoDB、Elasticsearch、MySql TiDB、IotDB、數據計算 MapReduce、Hive、Spark、 Flink Pig、Storm、Tez数据中间件 Kafka、RabbitMQ、Redis、Apache RocketMQ Alluxio、ActiveMQ、、Memcached联机分析处理 ClickHouse、Kylin、Druid、Presto Impala、Hawq、Greenplum、Doris任务调度 Azkaban、Dolphinscheduler Airflow、Oozie市场监控 Grafana、Cloudera Manager Zabbix、Ganglia、Ambari风险管理阿特拉斯权限管理游骑兵、阿帕奇哨兵数据质量管理

HAProxy配置：针对Hadoop，大数据，NoSQL，Docker，Elasticsearch，SolrCloud，HBase，MySQL，PostgreSQL，Apache Drill，Hive，Presto，Impala，Hue，ZooKeeper，SSH，RabbitMQ，Redis，Riak，Cloudera的80多个HAProxy配置，OpenTSDB，InfluxDB，Prometheus，Kibana，Graphite，Rancher等

450+ AWS，Hadoop，云，Kafka，Docker，Elasticsearch，RabbitMQ，Redis，HBase，Solr，Cassandra，ZooKeeper，HDFS，Yarn，Hive，Presto，Drill，Impala，Consul，Spark，Jenkins，Travis CI，Git，MySQL ，Linux，DNS，Whois，SSL证书，Yum安全更新，Kubernetes，Cloudera等...高级Nagios插件集合git.io/nagios-plugins最大，最先进的生产级Nagios监视代码集合（超过450个程序）。由前Clouderan（Cloudera是第一家Hadoop Big Data供应商）和前Hortonworks顾问编写的，适用于AWS，Hadoop，Big Data和NoSQL技术的专用插件。支持大多数主要的开源NoSQL技术，Pub-Sub /消息总线，CI，

一、环境搭建 1 Ambari简介 2 环境准备 3 安装HDP 3.1 安装数据库(mysql与达梦dm) 3.2 部署Ambari-server 3.3 部署Hadoop集群 3.4 部署HBase 3.5 部署Hive + Tez 3.6 部署Spark 3.7 部署Kafka 3.8 部署Oozie 3.9 部署Ranger 3.10 部署Sqoop 3.11 部署 DataX 3.12 部署Azkaban 3.13 部署Presto 3.14 部署Elasticsearch 3.15 卸载Ambari集群 3.16 故障排除二 hadoop技术验证(鲲鹏) 1 数据同步性能（sqoop\datax） 2 ETL加工性能(hive\spark) 3 数据查询性能(hive\spark\presto) 4 Hive数据同步到Clickhouse 5 测试问题三 ... 四 Oozie技术验证五 hadoop技术验证(华为) 1 数据同步性能 2 ETL加工性能 3 数据查询性能 4 Hive数据同步到Clickhouse

Java

51,402

社区成员

85,918

社区内容

发帖

与我相关

我的任务

javaspring bootspring cloud 技术论坛（原bbs）

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章