首页 热点资讯 义务教育 高等教育 出国留学 考研考公

大数据工程师的工作内容是什么?

发布网友 发布时间:2022-04-22 19:03

我来回答

3个回答

懂视网 时间:2022-05-22 15:02

    大数据开发工程师要做什么呢,接下来就来为大家介绍有关于大数据开发工程师工作内容,一起来看看吧。

    大数据开发工程师需要针对不同行为的用户进行有针对性营销,能聚焦客户,进行个性化精准营销,主要做的是分析数据找出已经发生的事情的特征、预测未来可能发生的事情、找出最优化的结果。

    分析数据找出已经发生的事情的特征:这是大数据工程师重要的工作之一,通过已经发生的事件的进行数据分析,并找出特征。企业更好地认识消费者。通过分析用户以往的行为轨迹,就能够了解这个人,并预测他的行为。

    预测未来可能发生的事情:通过引入关键因素,大数据工程师可以预测未来的消费趋势。

    找出最优化的结果:根据不同企业的业务性质,通过数据分析来达到不同的目的。

    大数据开发有两种,一种需要编写Spark、Hadoop的应用程序,另一种需要开发大数据处理系统本身。大数据开发工程师的职责是负责公司大数据平台的开发和维护、网络日志大数据分析、实时计算和流式计算等技术的研发和网络安全业务主题建模等工作。

    以上就是为大家介绍的大数据开发工程师工作内容,希望对大家有所帮助

热心网友 时间:2022-05-22 12:10

1、数据采集:


业务系统的埋点代码时刻会产生一些分散的原始日志,可以用Flume监控接收这些分散的日志,实现分散日志的聚合,即采集。


2、数据清洗:


一些字段可能会有异常取值,即脏数据。为了保证数据下游的"数据分析统计"能拿到比较高质量的数据,需要对这些记录进行过滤或者字段数据回填。


一些日志的字段信息可能是多余的,下游不需要使用到这些字段做分析,同时也为了节省存储开销,需要删除这些多余的字段信息。


一些日志的字段信息可能包含用户敏感信息,需要做脱敏处理。如用户姓名只保留姓,名字用'*'字符替换。


3、数据存储:


清洗后的数据可以落地入到数据仓库(Hive),供下游做离线分析。如果下游的"数据分析统计"对实时性要求比较高,则可以把日志记录入到kafka。


4、数据分析统计:


数据分析是数据流的下游,消费来自上游的数据。其实就是从日志记录里头统计出各种各样的报表数据,简单的报表统计可以用sql在kylin或者hive统计,复杂的报表就需要在代码层面用Spark、Storm做统计分析。一些公司好像会有个叫BI的岗位是专门做这一块的。


5、数据可视化:


用数据表格、数据图等直观的形式展示上游"数据分析统计"的数据。一般公司的某些决策会参考这些图表里头的数据。

热心网友 时间:2022-05-22 13:28

1、数据采集:

业务系统的埋点代码时刻会产生一些分散的原始日志,可以用Flume监控接收这些分散的日志,实现分散日志的聚合,即采集。

2、数据清洗:

一些字段可能会有异常取值,即脏数据。为了保证数据下游的"数据分析统计"能拿到比较高质量的数据,需要对这些记录进行过滤或者字段数据回填。

一些日志的字段信息可能是多余的,下游不需要使用到这些字段做分析,同时也为了节省存储开销,需要删除这些多余的字段信息。

一些日志的字段信息可能包含用户敏感信息,需要做脱敏处理。如用户姓名只保留姓,名字用'*'字符替换。

3、数据存储:

清洗后的数据可以落地入到数据仓库(Hive),供下游做离线分析。如果下游的"数据分析统计"对实时性要求比较高,则可以把日志记录入到kafka。

4、数据分析统计:

数据分析是数据流的下游,消费来自上游的数据。其实就是从日志记录里头统计出各种各样的报表数据,简单的报表统计可以用sql在kylin或者hive统计,复杂的报表就需要在代码层面用Spark、Storm做统计分析。一些公司好像会有个叫BI的岗位是专门做这一块的。

5、数据可视化:

用数据表格、数据图等直观的形式展示上游"数据分析统计"的数据。一般公司的某些决策会参考这些图表里头的数据

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com