大数据主要学什么内容?

发布网友

共11个回答

热心网友

大数据开发工程师是大数据领域一个比较热门的岗位，有大量的传统应用需要进行大数据改造，因此岗位有较多的人才需求。这个岗位需要掌握的知识结构包括大数据平台体系结构，比如目前常见的Hadoop、Spark平台，以及众多组件的功能和应用，另外还需要掌握至少一门编程语言，比如Java、Python、Scala等。

大数据分析师是大数据领域非常重要的岗位，大数据分析师需要掌握的知识结构包括算法设计、编程语言以及呈现工具，算法设计是大数据分析师需要掌握的重点内容，而编程语言的作用则是完成算法的实现。另外，大数据分析师还需要掌握一些常见的分析工具。

大数据运维工程师的主要工作内容是搭建大数据平台、部署大数据功能组件、配置网络环境和硬件环境、维护大数据平台，大数据运维工程师需要具备的知识结构包括计算机网络、大数据平台体系结构、编程语言（编写运维脚本）等，通常情况下，大数据运维工程师也需要对数据库有深入的了解。

热心网友

一般来说，在一线城市，以BAT来说它们企业给应届毕业生的起薪并不高，但只要工作拼命、能力出众，事实上入职后的2、3年里就很容易拿到15万元以上的年薪。而在三线互联网公司，同等条件下，普通技术员工的年薪一般能达到15万元左右。而准二线的互联网公司的普通员工薪水基本也能达到或超过20万元，与许多传统行业相比，这样的收入水平绝对令人艳羡。工作经验超过5年后，互联网企业中的收入差距就会拉大。

如此诱人的薪资，肯定是人人都想加入的。但加入的条件就在于需要掌握一定的技能，综合很多大数据公司的要求统计如下：
1、熟练使用SQL语言；
2、熟练使用Hadoop、M/R、Hive、Storm等开发工具；
3、熟悉Linux命令及Shell编程；
4、对数据敏感，良好的逻辑分析能力，良好沟通能力和团队精神；
5、熟悉Impala、Druid、Mdrill、ElasticSearch等大数据工具者优先；
根据企业对大数据工程师的要求，你需要学习的技术如下：
阶段一、大数据基础——java语言基础方面
（1）Java语言基础
（2） HTML、CSS与JavaScript
（3）JavaWeb和数据库
阶段二、 Linux&Hadoop生态体系
Linux体系、Hadoop离线计算大纲、分布式数据库Hbase、数据仓库Hive、数据迁移工具Sqoop、Flume分布式日志框架
阶段三、分布式计算框架和Spark&Strom生态体系
（1）分布式计算框架
Python编程语言、Scala编程语言、Spark大数据处理、Spark—Streaming大数据处理、Spark—Mlib机器学习、Spark—GraphX 图计算、实战一：基于Spark的推荐系统（某一线公司真实项目）、实战二：新浪网（www.sina.com.cn）
（2）storm技术架构体系
Storm原理与基础、消息队列kafka、Redis工具、zookeeper详解、实战一：日志告警系统项目、实战二：猜你喜欢推荐系统实战
阶段四、大数据项目实战（一线公司真实项目）
数据获取、数据处理、数据分析、数据展现、数据应用
阶段五、大数据分析 —AI（人工智能）
Data Analyze工作环境准备&数据分析基础、数据可视化、Python机器学习
1、Python机器学习2、图像识别&神经网络、自然语言处理&社交网络处理、实战项目：户外设备识别分析

热心网友

大数据(big data,mega data)或称巨量资料，指的是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样的捷径，而采用所有数据进行分析处理。大数据的5V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值密度)、Veracity（真实性）。
大数据的价值体现在以下几个方面：
1)对大量消费者提供产品或服务的企业可以利用大数据进行精准营销
2) 做小而美模式的中长尾企业可以利用大数据做服务转型[15]
3) 面临互联网压力之下必须转型的传统企业需要与时俱进充分利用大数据的价值

热心网友

你好，大数据开发学习的内容，按照顺序学习就可以了，希望你早日学有所成！

Java核心

JavaWeb前后端交互

Java高级框架

常用工具和环境

Hadoop生态体系

Spark生态体系

Flink生态体系

前沿技术

热心网友

hadoop 体系 hive hbase 等等还有基础的sql、java、python 总之需要的技术蛮多，还有spark、scala等等

热心网友

大数据具体学习内抄容有六个方面，分别如下：
基础阶段：Linux、Docker、KVM、MySQL基础、Oracle基础、MongoDB、redis。
hadoop maprece hdfs yarn：hadoop：Hadoop 概念、版本、历史，HDFS工作原理，YARN介绍及组件介绍。
大数袭据存储阶段：hbase、hive、sqoop。
大数据架构设计阶段：Flume分布式、Zookeeper、Kafka。
大数据实时计算阶段：Mahout、Spark、storm。
大数据数据采集阶段：Python、Scala。
大数据商业实战阶段：实操企业大数据处理业务场景，分析需求、解决方案实施，综合技术实战应用。

热心网友

1阶段：Java

2阶段：JavaEE核心

3阶段：Hadoop生态体系

4阶段：大数据spark生态体系

热心网友

分布式计算
什么是分布式计算？分布式计算研究的是如何把一个需要非常巨大的计算能力才能解决的问题分成许多小的部分，然后把这些部分分配给许多服务器进行处理，最后把这些计算结果综合起来得到最终的结果。

举个栗子，就像是组长把一个大项目拆分，让组员每个人开发一部分，最后将所有人代码merge，大项目完成。听起来好像很简单，但是真正参与过大项目开发的人一定知道中间涉及的内容可不少。

分布式计算目前流行的工具有：

离线工具Spark，MapRece等

实时工具Spark Streaming，Storm，Flink等

这几个东西的区别和各自的应用场景我们之后再聊。

分布式存储
传统的网络存储系统采用的是集中的存储服务器存放所有数据，单台存储服务器的io能力是有限的，这成为了系统性能的瓶颈，同时服务器的可靠性和安全性也不能满足需求，尤其是大规模的存储应用。

分布式存储系统，是将数据分散存储在多*立的设备上。采用的是可扩展的系统结构，利用多台存储服务器分担存储负荷，利用位置服务器定位存储信息，它不但提高了系统的可靠性、可用性和存取效率，还易于扩展。

主流的分布式数据库有很多hbase，mongoDB，GreenPlum，redis等等等等，没有孰好孰坏之分，只有合不合适，每个数据库的应用场景都不同，其实直接比较是没有意义的，后续我也会有文章一个个讲解它们的应用场景原理架构等。

分布式调度与管理
现在人们好像都很热衷于谈"去中心化"，也许是区块链带起的这个潮流。但是"中心化"在大数据领域还是很重要的，至少目前来说是的。

分布式的集群管理需要有个组件去分配调度资源给各个节点，这个东西叫yarn;

需要有个组件来解决在分布式环境下"锁"的问题，这个东西叫zookeeper；

需要有个组件来记录任务的依赖关系并定时调度任务，这个东西叫azkaban。

当然这些“东西”并不是唯一的，其实都是有很多替代品的，本文只举了几个比较常用的例子。

热心网友

大数据技术的学习内容有很多，包括：
基础阶段：Linux、Docker、KVM、MySQL基础、Oracle基础、MongoDB、redis。
hadoop maprece hdfs yarn：hadoop：Hadoop 概念、版本、历史，HDFS工作原理，YARN介绍及组件介绍。
大数据存储阶段：hbase、hive、sqoop。
大数据架构设计阶段：Flume分布式、Zookeeper、Kafka。
大数据实时计算阶段：Mahout、Spark、storm。
大数据数据采集阶段：Python、Scala。
大数据商业实战阶段：实操企业大数据处理业务场景，分析需求、解决方案实施，综合技术实战应用。

热心网友

要说Java与Python的区别，java是“纯手工”的创造，而Python是利用现有工具的创造，所以python在现实应用层面被广泛推荐。但是如果遇到的问题无法用现有工具解决怎么办？这时就需要用到底层语言进行从无到有的解决问题。(问题是:人生苦短，现有的工具已经可以解决大部分问题了。)目前需要更多的是踩在牛顿上的人。如果你需要创造一个从无到有的事物，想在人工智能某领域开先河。那么整体深入的技术学习是必需的。所以职业里面既存在python开发工程师，也有java,c工程师。它们只会共存，共同进步。
可以到这边看看，毕竟互联网it学校

热心网友

很多初学者，对大数据分析的概念都是模糊不清的，大数据分析是什么，能做什么，学的时候，该按照什么线路去学习，学完往哪方面发展，很多人对于大数据分析师的印象就是坐在办公室对着电脑噼里啪啦的敲键盘，跟程序员差不多，这种想法是错误的，其实大数据分析师是一个很高大上的职业，大数据分析师通过获取必要的数据，分析这些数据，然后从数据中发现一些问题提出自己的想法，这就是一个大数据分析师的基本工作内容。

大数据工程师工作内容取决于你工作在数据流的哪一个环节。从数据上游到数据下游，大致可以分为：

数据采集 -> 数据清洗 -> 数据存储 -> 数据分析统计 -> 数据可视化等几个方面

大数据分析工作内容当然就是使用工具组件(Spark、Flume、Kafka等)或者代码(Java、Scala等)来实现上面几个方面的功能。具体说说如下：

一、数据采集

业务系统的埋点代码时刻会产生一些分散的原始日志，可以用Flume监控接收这些分散的日志，实现分散日志的聚合，即采集。

二、数据清洗

原始的日志，数据是千奇百怪的

一些字段可能会有异常取值，即脏数据。为了保证数据下游的"数据分析统计"能拿到比较高质量的数据，需要对这些记录进行过滤或者字段数据回填。

一些日志的字段信息可能是多余的，下游不需要使用到这些字段做分析，同时也为了节省存储开销，需要删除这些多余的字段信息。

一些日志的字段信息可能包含用户敏感信息，需要做脱敏处理。如用户姓名只保留姓，名字用'*'字符替换。

三、数据存储

清洗后的数据可以落地入到数据仓库(Hive)，供下游做离线分析。如果下游的"数据分析统计"对实时性要求比较高，则可以把日志记录入到kafka。

四、大数据分析统计

大数据分析是数据流的下游，消费来自上游的数据。其实就是从日志记录里头统计出各种各样的报表数据，简单的报表统计可以用sql在kylin或者hive统计，复杂的报表就需要在代码层面用Spark、Storm做统计分析。一些公司好像会有个叫BI的岗位是专门做这一块的。

五、数据可视化

用数据表格、数据图等直观的形式展示上游"大数据分析统计"的数据。一般公司的某些决策会参考这些图表里头的数据。当然，大数据平台(如CDH、FusionInsight等)搭建与维护，也可能是大数据工程师工作内容的一部分。

大数据分析师工作的流程简单分为两部分，第一部分就是获取数据，第二部分就是对数据进行处理。那么怎么获得数据呢?首先，我们要知道，获取相关的数据，是数据分析的前提。每个企业，都有自己的一套存储机制。因此，基础的SQL语言是必须的。具备基本SQL基础，再学习下其中细节的语法，基本就可以到很多数据了。当每个需求明确以后，都要根据需要，把相关的数据获取到，做基础数据。

获得了数据以后，才能够进行数据处理工作。获取数据，把数据处理成自己想要的东西，是一个关键点。很多时候，有了数据不是完成，而是分析的开始。大数据分析师最重要的工作就是把数据根据需求处理好，只有数据跟需求结合起来，才能发挥数据的价值，看到需求的问题和本质所在。如果连数据都没处理好，何谈从数据中发现问题呢?

就目前而言，大数据分析日益成为研究行业的重要研究目标。面对其高数据量、*度与异构化的特点，以及分析方法思路的扩展，传统统计工具已经难以应对。所以我们要使用专业的大数据分析工具。大数据分析工具都有Excel、SPSS、SAS等工具。Excel、SPSS、SAS 这三者对于大数据分析师来说并不陌生。但是这三种大数据分析工具应对的数据分析的场景并不是相同的，一般来说，SPSS 轻量、易于使用，但功能相对较少，适合常规基本统计分析。而SPSS和SAS作为商业统计软件，提供研究常用的经典统计分析处理。由于SAS 功能丰富而强大，且支持编程扩展其分析能力，适合复杂与高要求的统计性分析。

以上的内容就是小编为大家讲解的大数据分析师的工作内容了，大数据分析师的工作是比较繁琐的，但是也是比较高大上的。大家在了解大数据分析工作内容的时候可以参考这篇文章，这样可以更好的理解大数据分析行业，最后感谢大家的阅读。

全部频道

大数据主要学什么内容?