要成为一名大数据开发工程师必备哪些技能?

发布网友

我来回答

共8个回答

懂视网

安装

虚拟机（centos7）

Master：192.168.0.228

Slave：192.168.0.207

软件

apache-hive-1.2.1-bin.tar.gz

hadoop-2.6.0-cdh5.4.8.tar.gz

jdk-8u65-linux-x.tar.gz

mysql-connector-java-5.1.31-bin.jar

hbase-0.98.15-hadoop2-bin.tar

zookeeper-3.4.6.tar

1.关闭防火墙

Systemctl disable firewalld.service

Systemctl stop firewalld.service

Setenforce 0

Vim /etc/selinux/config 永久关闭

将SELINUX=enforce改为SELINUX=disable

2.配置主机名

192.168.0.228: echo “master” > /etc/hostname

192.168.0.207: echo “slave” > /etc/hostname

3.主机间解析

在两台机器/etc/hosts文件下添加ip地址和主机名

4.配置SSH互信

master

yum -y install sshpass

ssh-keygen 一路回车

ssh-copy-id -i ~/.ssh/id_rsa.pub root@192.168.0.220

slave

yum -y install sshpass

ssh-keygen 一路回车

ssh-copy-id -i ~/.ssh/id_rsa.pub root@192.168.0.201

如图，OK

5.安装JDK

两台机器都需要配置

tar zxvf jdk-8u65-linux-x.tar.gz

mv jdk1.8.0_65 /usr/jdk

设置环境变量

Vim /etc/profile

export JAVA_HOME=/usr/jdk

export JRE_HOME=/usr/jdk/jre

export CLASSPATH=.:$CLASSPATH:$JAVA_HOME/lib:$JRE_HOME/lib

export PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin

执行 source /etc/profile

测试

java -version，如图

6.安装Hadoop

tar zxvf hadoop-2.6.0-cdh5.4.8.tar.gz

mv hadoop-2.6.0-cdh5.4.8 /usr/hadoop

cd /usr/hadoop

mkdir -p dfs/name

mkdir -p dfs/data

mkdir -p tmp

6.1编辑配置文件

Salves

yarn-env.sh

Yarn-site.xml

mapred-site.xml

hdfs-env.sh

core-site.xml

Hadoop-env.sh

cd /usr/hadoop/etc/hadoop

vim slaves

192.168.0.220 #添加slaveIP

vim hadoop-env.sh / vim yarn-env.sh

export JAVA_HOME=/usr/jdk #加入java变量

Vim core-site.xml

<name>fs.defaultFS</name>

</property>

<name>io.file.buffer.size</name>

</property>

<name>hadoop.tmp.dir</name>

<value>file:/usr/hadoop/tmp</value>

</property>

<name>hadoop.proxyuser.hadoop.hosts</name>

</property>

<name>hadoop.proxyuser.hadoop.groups</name>

</property>

</configuration>

Vim hdfs-site.xml

<name>dfs.namenode.name.dir</name>

<value>:/usr/hadoop/dfs/name</value>

</property>

<name>dfs.datanode.data.dir</name>

<value>:/usr/hadoop/dfs/data</value>

</property>

<name>dfs.replication</name>

</property>

<name>dfs.namenode.secondary.http-address</name>

</property>

<name>dfs.webhdfs.enabled</name>

</property>

</configuration>

Vim mapred-site.xml

<name>mapreduce.framework.name</name>

</property>

<name>mapreduce.jobhistory.address</name>

</property>

<name>mapreduce.jobhistory.webapp.address</name>

</property>

</configuration>

Vim yarn-site.xml

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

<name>yarn.nodemanager.auxservices.mapreduce.shuffle.class</name>

<value>org.apache.hadoop.mapred.ShuffleHandler</value>

</property>

<name>yarn.resourcemanager.address</name>

</property>

<name>yarn.resourcemanager.scheduler.address</name>

</property>

<name>yarn.resourcemanager.resource-tracker.address</name>

</property>

<name>yarn.resourcemanager.admin.address</name>

</property>

<name>yarn.resourcemanager.webapp.address</name>

</property>

<name>yarn.nodemanager.resource.memory-mb</name>

</property>

</configuration>

把目录拷贝到slave机器上

scp -r /usr/hadoop root@192.168.0.207:/usr/

格式化namenode

./bin/hdfs namenode -format

启动hdfs

./sbin/start-dfs.sh ./sbin/start-yarn.sh

使用jps测试

访问192.168.0.228:50070

192.168.0.228:8088

安装MySQL和Hive

本地模式：这种模式是将元数据保存在本地数据库中（一般是MySQL）。这样可以支持多用户，多会话。

MySQL：

wget http://dev.mysql.com/get/mysql-community-release-el7-5.noarch.rpm

rpm -ivh mysql-community-release-el7-5.noarch.rpm

yum -y install mysql-community-server

systemctl start mysql 启动

mysqladmin -uroot password ‘password’为root设置密码

mysql -uroot -ppassword

Create database hive; 创建hive库

grant all on hive.* to ‘hive‘@‘localhost‘ identified by ‘hive’; 授权

Hive

tar zxf apache-hive-1.2.1-bin.tar.gz

mv apache-hive-1.2.1-bin/ /usr/hadoop/hive

配置变量

vim /etc/profile

export HIVE_HOME=/usr/hadoop/hive

export PATH=$HIVE_HOME/bin:$HIVE_HOME/conf:$PATH

执行 source /etc/profile

mv mysql-connector-java-5.1.31-bin.jar /usr/hadoop/hive/lib

将JDBC驱动包拷贝到hive的lib下

cd /usr/hadoop/hive/conf

Cp hive-default.xml.template hive-site.xml

Vim hive-site.xml 更改配置文件

Cd /usr/hadoop/hive/bin/

启动Hive

安装zookeeper和Hbase

1.Zookeeper

Master配置如下：

tar zxf zookeeper-3.4.6.tar

mv zookeeper-3.4.6 /usr/hadoop/zookeeper

更改文件的拥有者

Chown -R root:root /usr/hadoop/zookeeper

cd /usr/hadoop/zookeeper

mkdir data 创建zookeeper数据存储目录

配置变量 vim /etc/profile

加入export ZOOKEEPER_HOME=/usr/hadoop/zookeeper

export PATH=$PATH:$ZOOKEEPER_HOME/bin

执行 source /etc/profile

配置文件存放在conf/目录下，将zoo_sample.cfd文件名称改为zoo.cfg, 配置如下：

Cp zoo_sample.cfd zoo.cfg

Vim zoo.cfg

tickTime=2000

initLimit=10

syncLimit=5

dataDir=/usr/hadoop/zookeeper/data

clientPort=2181

输入master和slave的ip地址或主机名：

server.1=192.168.0.228:2888:3888

server.2=192.168.0.207:2888:3888

mkdir data/myid 创建myid文件

Vim myid

填写zoo.cfg中本机ip前面server.后边的数字

将文件拷贝器slave节点

scp -r /usr/hadoop/zookeeper/ root@192.168.0.207:/root/hadoop/

Slave配置：

配置变量 vim /etc/profile

加入export ZOOKEEPER_HOME=/usr/hadoop/zookeeper

export PATH=$PATH:$ZOOKEEPER_HOME/bin

执行 source /etc/profile

Cd /usr/hadoop/zookeeper/data

mkdir data/myid 创建myid文件

Vim myid

填写zoo.cfg中本机ip前面server.后边的数字

启动:

　　[root@master bin]# /usr/hadoop/zookeeper/bin/zkServer.sh start

　　输入jps查看，如图

　　安装Hbase

　　 1、tar解压hbase安装包

2、配置hbase

a、/conf/hbase-env.sh

export JAVA_HOME= /usr/jdk

export HBASE_MANAGES_ZK=false (可以启用hbase自带的zookeeper，这样也不用单独安装zookeeper了，如单独安装了，配为false)

b、conf/hbase-site.xml

该配置采用了hbase自带的zookeeper

<name>hbase.rootdir</name> s

<value>hdfs://master:9000/hbase</value>

</property>

<name>hbase.cluster.distributed</name>

</property>

<name>hbase.zookeeper.quorum</name>

<value>slave1,slave2,slave3</value>

</property>

<name>dfs.replication</name>

</description>

</property>

</configuration>

单独安装的zookeeper采用如下配置

regionservers<configuration>

<name>hbase.rootdir</name>

<value>hdfs://master:9000/hbase</value>

</property>

<name>hbase.cluster.distributed</name>

</property>

<name>hbase.zookeeper.quorum</name>

<value>master,slave1,slave2,slave3</value>

</property>

<name>dfs.replication</name>

</description>

</property>

<name>hbase.zookeeper.property.dataDir</name>

<value>

/home/hadoop/zk</value>

</description>

</property>

</configuration>注意hbase.rootdir配置需要与hadoop的配置一致。

c、conf/regionservers

slave1

slave2

slave3

到此hbase的配置已完成，用scp命令复制到slave1~salve3中。

启动hbase，

start-hbase.sh

用jps观看是否启动正常，或通过浏览器查看，master:60010。

Hadoop+Hive（MySQL）+Hbase+zookeeper

标签：hadoop mysql hive

热心网友

首先我们要了解Java语言和Linux操作系统，这两个是学习大数据的基础，学习的顺序不分前后。

大数据

Java ：只要了解一些基础即可，做大数据不需要很深的Java 技术，学java SE 就相当于有学习大数据基础。

Linux：因为大数据相关软件都是在Linux上运行的，所以Linux要学习的扎实一些，学好Linux对你快速掌握大数据相关技术会有很大的帮助，能让你更好的理解hadoop、hive、hbase、spark等大数据软件的运行环境和网络环境配置，能少踩很多坑，学会shell就能看懂脚本这样能更容易理解和配置大数据集群。还能让你对以后新出的大数据技术学习起来更快。

Hadoop：这是现在流行的大数据处理平台几乎已经成为大数据的代名词，所以这个是必学的。Hadoop里面包括几个组件HDFS、MapRece和YARN，HDFS是存储数据的地方就像我们电脑的硬盘一样文件都存储在这个上面，MapRece是对数据进行处理计算的，它有个特点就是不管多大的数据只要给它时间它就能把数据跑完，但是时间可能不是很快所以它叫数据的批处理。

Zookeeper：这是个万金油，安装Hadoop的HA的时候就会用到它，以后的Hbase也会用到它。它一般用来存放一些相互协作的信息，这些信息比较小一般不会超过1M，都是使用它的软件对它有依赖，对于我们个人来讲只需要把它安装正确，让它正常的run起来就可以了。

Mysql：我们学习完大数据的处理了，接下来学习学习小数据的处理工具mysql数据库，因为一会装hive的时候要用到，mysql需要掌握到什么层度那?你能在Linux上把它安装好，运行起来，会配置简单的权限，修改root的密码，创建数据库。这里主要的是学习SQL的语法，因为hive的语法和这个非常相似。

Sqoop：这个是用于把Mysql里的数据导入到Hadoop里的。当然你也可以不用这个，直接把Mysql数据表导出成文件再放到HDFS上也是一样的，当然生产环境中使用要注意Mysql的压力。

Hive：这个东西对于会SQL语法的来说就是神器，它能让你处理大数据变的很简单，不会再费劲的编写MapRece程序。有的人说Pig那?它和Pig差不多掌握一个就可以了。

Oozie：既然学会Hive了，我相信你一定需要这个东西，它可以帮你管理你的Hive或者MapRece、Spark脚本，还能检查你的程序是否执行正确，出错了给你发报警并能帮你重试程序，最重要的是还能帮你配置任务的依赖关系。我相信你一定会喜欢上它的，不然你看着那一大堆脚本，和密密麻麻的crond是不是有种想屎的感觉。

Hbase：这是Hadoop生态体系中的NOSQL数据库，他的数据是按照key和value的形式存储的并且key是唯一的，所以它能用来做数据的排重，它与MYSQL相比能存储的数据量大很多。所以他常被用于大数据处理完成之后的存储目的地。

Kafka：这是个比较好用的队列工具，队列是干吗的?排队买票你知道不?数据多了同样也需要排队处理，这样与你协作的其它同学不会叫起来，你干吗给我这么多的数据(比如好几百G的文件)我怎么处理得过来，你别怪他因为他不是搞大数据的，你可以跟他讲我把数据放在队列里你使用的时候一个个拿，这样他就不在抱怨了马上灰流流的去优化他的程序去了，因为处理不过来就是他的事情。而不是你给的问题。当然我们也可以利用这个工具来做线上实时数据的入库或入HDFS，这时你可以与一个叫Flume的工具配合使用，它是专门用来提供对数据进行简单处理，并写到各种数据接受方(比如Kafka)的。

Spark：它是用来弥补基于MapRece处理数据速度上的缺点，它的特点是把数据装载到内存中计算而不是去读慢的要死进化还特别慢的硬盘。特别适合做迭代运算，所以算法流们特别稀饭它。它是用scala编写的。Java语言或者Scala都可以操作它，因为它们都是用JVM的。

热心网友

想要学习大数据开发，第一件事并不是要找书籍或者是找视频教程，而是要了解一下大数据行业前景，了解一下成为大数据工程师需要具备什么样的能力，掌握哪些技能我当初学习大数据之前也有过这样的问题，作为一个过来人，今天就跟大家聊下大数据人才应该具备的技能。
首先我们要知道对于大数据开发工程师需要具备的技能，下面我们分别来说明：

用人单位对于大数据开发人才的能力要求有
技能要求：
1.精通JAVA开发语言，同时熟悉Python、Scala开发语言者优先；
2.熟悉Spark或Hadoop生态圈技术，具有源码阅读及二次开发工作经验；精通Hadoop生态及高性能缓存相关的各种工具，有源码开发实战经验者优先；
3.熟练使用SQL，熟悉数据库原理，熟悉至少一种主流关系型数据库；熟悉Linux操作系统，熟练使用常用命令，熟练使用shell脚本；熟悉ETL开发，能熟练至少一种ETL（talend、kettle、ogg等）转化开源工具者优先；
4.具有清晰的系统思维逻辑，对解决行业实际问题有浓厚兴趣，具备良好的沟通协调能力及学习能力。
以上就是想要成为大数据人才需要具备的技能
那么如何具备这些能力，怎么学习了，对于大多数人来说，目前只有通过参加大数据的学习，才能够系统的掌握以上的大数据技能，从而胜任大数据工程师的工作。

热心网友

你好！很高兴能为你解答，看到及时采纳喔！谢谢！
1、掌握至少一种数据库开发技术:Oracle、Teradata、DB2、Mysql等，灵活运用SQL实现海量数据ETL加工处理;
2、熟悉Linux系统常规shell处理命令，灵活运用shell做的文本处理和系统操作;

3、有从事分布式数据存储与计算平台应用开发经验，熟悉Hadoop生态相关技术并有相关实践经验着优先，重点考察Hdfs、Maprece、Hive、Hbase;

4、熟练掌握一门或多门编程语言，并有大型项目建设经验者优先，重点考察Java、Python、Perl;

5、熟悉数据仓库领域知识和技能者优先，包括但不局限于:元数据管理、数据开发测试工具与方法、数据质量、主数据管理;

6、掌握实时流计算技术，有storm开发经验者优先。

热心网友

1、HBase – Hadoop Database，HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。
2、Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapRece任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapRece统计，不必开发专门的MapRece应用，十分适合数据仓库的统计分析。
3、Spark是UC Berkeley AMP lab所开源的类Hadoop MapRece的通用并行框架，Spark，拥有Hadoop MapRece所具有的优点；但不同于MapRece的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapRece的算法。
4、Scala是一门多范式的编程语言，一种类似java的编程语言，设计初衷是实现可伸缩的语言、并集成面向对象编程和函数式编程的各种特性。
5、R语言是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件，它是一个用于统计计算和统计制图的优秀工具。
6、Python是一种面向对象、解释型计算机程序设计语言，Python是纯粹的自由软件，源代码和解释器CPython遵循GPL（GNU General Public License）协议。Python语法简洁清晰，特色之一是强制用空白符（white space）作为语句缩进。
7、ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件，提供的功能包括：配置维护、域名服务、分布式同步、组服务等。
8、Apache Hadoop YARN是一种新的 Hadoop 资源管理器，它是一个通用资源管理系统，可为上层应用提供统一的资源管理和调度，它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。
9、HDFS分布式文件系统被设计成适合运行在通用硬件（commodity hardware）上的分布式文件系统。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束，来实现流式读取文件系统数据的目的。
10、团队协作能力，大数据工程师往往是一个团队，它意味着从数据的收集、整理展现、分析和商业洞察、以至于市场转化的全过程。这个团队中可能包括数据工程师、分析师、产品专员、市场专员和商业决策者等角色，共同完成从原始数据到商业价值的转换。
11、对数据的好奇心，学历并不是最主要的因素，能有大规模处理数据的经验并且有喜欢在数据海洋中寻宝的好奇心会更适合这个工作。如果你具备了以上的技能，那么你将成为一名优秀的大数据工程师，成为企业争抢的人才。
以上就是大数据工程师必备的技能，想要成为大数据工程师但是却不具备这些技能的朋友，快速学习技能，抓住大数据的风口，科多大数据祝你成功！

热心网友

用人单位对于大数据开发人才的技能要求：

1. 精通Java技术知识，熟悉Spark、kafka、Hive、HBase、zookeeper、HDFS、MR等应用设计及开发；

2. 了解python/shell等脚本语言；。

3. 熟悉大数据平台架构，对ETL、数据仓库等有一定了解；。

4. 有数据可视化、数据分析、数学模型建立相关经验者优先考虑。

5. 有爬虫系统开发经验者优先。

热心网友

人工智能数据采集是指在人工智能领域，根据特定项为训练机器学习数学模型所使用的的训练数据集的要求，在一定的既定标准下收集和衡量数据和信息的过程，并输出一套有序的数据。澳鹏提供的数据采集服务，提升规模化机器学习。作为训练数据服务的行业领先者，我们能够快速交付涵盖多种数据类型大量优质数据，包括图像、视频、语音、音频和文本，以满足客户特定 AI 项目的需求

热心网友

大数据时下热度不减，物联网、云计算、大数据、人工智能紧密相连。物联网的正常运行是通过大数据传输信息给云计算平台处理，然后人工智能提取云计算平台存储的数据进行活动。
大数据需要特殊的技术以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术，包括大规模的并行处理数据库、数据挖掘、分布式文件系统、分布式数据可、云计算平台、互联网和可扩展的存储系统。公司发展布局的需要催生出了一大批与大数据处理相关的职业，通过对数据的挖掘分析来影响企业的商业决策。
一个大数据工程师到底应该会什么?
关于这个问题最终还是要落实到企业需求上。每家公司对大数据工作的要求不尽相同：有的强调数据库编程、有的突出应用数学和统计学知识、有的则要求有咨询公司或投行相关的经验、有些是希望能找到懂得产品和市场的应用型人才。
由于目前大数据人才匮乏，对于公司来说，很难招聘到合适的人才—既要有高学历，同时最好还有大规模数据处理经验。因此很多企业会通过内部挖掘。
目前长期从事数据库管理、挖掘、编程工作的人，包括传统的量化分析师、Hadoop方面的工程师，以及任何在工作中需要通过数据来进行判断决策的管理者，比如某些领域的运营经理等，都可以尝试大数据工程师职位。
关于大数据工程师需要掌握的知识，不妨从以下7个方面入手：
Java语言基础：
Java开发介绍、熟悉Eclipse开发工具、Java语言基础、Java流程控制、Java字符串、Java数组与类和对象、数字处理类与核心技术、I/O与反射、多线程、Swing程序与集合类
HTML、CSS与JavaScript
PC端网站布局、HTML5+CSS3基础、WebApp页面布局、原生JavaScript交互功能开发、Ajax异步交互、jQuery应用
JavaWeb和数据库
数据库、JavaWeb开发核心、JavaWeb开发内幕
Linux&Hadoopt体系
Linux体系、Hadoop离线计算大纲、分布式数据库Hbase、数据仓库Hive、数据迁移工具Sqoop、Flume分布式日志框架
数据处理
数据获取、数据处理、数据分析、数据展现、数据应用
Spark生态体系
Python编程语言、Scala编程语言、Spark大数据处理、Spark—Streaming大数据处理、Spark—Mlib机器学习、Spark—GraphX 图计算
大数据分析 —AI(人工智能)
Data Analyze工作环境准备&数据分析基础、数据可视化、Python机器学习1、Python机器学习2、图像识别&神经网络、自然语言处理&社交网络处理、实战项目：户外设备识别分析
国内IT、通讯、行业招聘中，有10%都是和大数据相关，且比例还在上升。巨大的人才缺口直接导致各企业纷纷以高薪聘请大数据人才。

全部栏目

要成为一名大数据开发工程师必备哪些技能?