大數(shù)據(jù)開發(fā)工程師以后可以從事哪些崗位?
大數(shù)據(jù)開發(fā)工程師可以從事以下崗位:
1. 大數(shù)據(jù)工程師:負(fù)責(zé)搭建大數(shù)據(jù)平臺(tái)、開發(fā)和優(yōu)化數(shù)據(jù)處理系統(tǒng)和數(shù)據(jù)倉庫。
2. 數(shù)據(jù)架構(gòu)師:負(fù)責(zé)設(shè)計(jì)和管理企業(yè)的數(shù)據(jù)架構(gòu),確保數(shù)據(jù)在系統(tǒng)中的完整性和一致性。
3. 數(shù)據(jù)倉庫架構(gòu)師:負(fù)責(zé)設(shè)計(jì)和開發(fā)數(shù)據(jù)倉庫,使商業(yè)智能系統(tǒng)從中獲取可靠數(shù)據(jù)以支持業(yè)務(wù)決策。
4. 數(shù)據(jù)科學(xué)家:利用數(shù)據(jù)分析和統(tǒng)計(jì)技術(shù)幫助企業(yè)發(fā)現(xiàn)數(shù)據(jù)中的重要信息,提供商業(yè)洞察。
5. 機(jī)器學(xué)習(xí)工程師:建立機(jī)器學(xué)習(xí)系統(tǒng)以自動(dòng)化數(shù)據(jù)分析和預(yù)測,提供高效率和精度。
6. 數(shù)據(jù)分析師:負(fù)責(zé)分析和解釋數(shù)據(jù),評(píng)估業(yè)務(wù)決策并提供指導(dǎo)建議。
7. 數(shù)據(jù)治理專員:開發(fā)和執(zhí)行數(shù)據(jù)治理策略,確保數(shù)據(jù)質(zhì)量和信息安全。
8. 數(shù)據(jù)質(zhì)量工程師:負(fù)責(zé)創(chuàng)建和執(zhí)行數(shù)據(jù)質(zhì)量檢查和驗(yàn)證規(guī)則,保證數(shù)據(jù)準(zhǔn)確性和完整性。
9. 數(shù)據(jù)基礎(chǔ)架構(gòu)工程師:管理和優(yōu)化企業(yè)數(shù)據(jù)基礎(chǔ)設(shè)施的表現(xiàn)和可靠性,以支持各種業(yè)務(wù)用例。
10. 大數(shù)據(jù)系統(tǒng)管理員:監(jiān)測和維護(hù)大數(shù)據(jù)平臺(tái)性能,并對(duì)系統(tǒng)中的錯(cuò)誤進(jìn)行排除,確保系統(tǒng)滿足業(yè)務(wù)需求。
大數(shù)據(jù)都有哪些就業(yè)方向?
很多大學(xué)生不想畢業(yè)即失業(yè),看中了大數(shù)據(jù)的前景。都想報(bào)考大數(shù)據(jù)來進(jìn)行提升自己,而很多學(xué)員對(duì)于其就業(yè)方向不是很了解。1 2 5在職研究生先來給大家分析一下大數(shù)據(jù)的就業(yè)方向,具體如下:
1、Hadoop開發(fā)工程師
Hadoop是一個(gè)分布式文件系統(tǒng)(Hadoop Distributed File System),簡稱HDFS。Hadoop是一個(gè)能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理的軟件框架, 以一種可靠、高效、可伸縮的方式進(jìn)行數(shù)據(jù)處理。
2、數(shù)據(jù)分析師
數(shù)據(jù)分析師是數(shù)據(jù)師的一種,指的是不同行業(yè)中,專門從事行業(yè)數(shù)據(jù)搜集、整理、分析,并依據(jù)數(shù)據(jù)做出行業(yè)研究、評(píng)估和預(yù)測的專業(yè)人員。在工作中通過運(yùn)用工具,提取、分析、呈現(xiàn)數(shù)據(jù),實(shí)現(xiàn)數(shù)據(jù)的商業(yè)意義。
3、數(shù)據(jù)挖掘工程師
做數(shù)據(jù)挖掘要從海量數(shù)據(jù)中發(fā)現(xiàn)規(guī)律,這就需要一定的數(shù)學(xué)知識(shí),基本的比如線性代數(shù)、高等代數(shù)、凸優(yōu)化、概率論等。
大數(shù)據(jù)工程師的日常工作內(nèi)容有哪些?
1 寫 SQL (很多入職一兩年的大數(shù)據(jù)工程師主要的工作就是寫 SQL )
2 為集群搭大數(shù)據(jù)環(huán)境(一般公司招大數(shù)據(jù)工程師環(huán)境都已經(jīng)搭好了,公司內(nèi)部會(huì)有現(xiàn)成的大數(shù)據(jù)平臺(tái),但我這邊會(huì)私下搞一套測試環(huán)境,畢竟公司內(nèi)部的大數(shù)據(jù)系統(tǒng)權(quán)限限制很多,嚴(yán)重影響開發(fā)效率)
3 維護(hù)大數(shù)據(jù)平臺(tái)(這個(gè)應(yīng)該是每個(gè)大數(shù)據(jù)工程師都做過的工作,或多或少會(huì)承擔(dān)“運(yùn)維”的工作)
4 數(shù)據(jù)遷移(有部分公司需要把數(shù)據(jù)從傳統(tǒng)的數(shù)據(jù)庫 Oracle、MySQL 等數(shù)據(jù)遷移到大數(shù)據(jù)集群中,這個(gè)是比較繁瑣的工作,吃力不討好)
5 應(yīng)用遷移(有部分公司需要把應(yīng)用從傳統(tǒng)的數(shù)據(jù)庫 Oracle、MySQL 等數(shù)據(jù)庫的存儲(chǔ)過程程序或者SQL腳本遷移到大數(shù)據(jù)平臺(tái)上,這個(gè)過程也是非常繁瑣的工作,無聊,高度重復(fù)且麻煩,吃力不討好)
6 數(shù)據(jù)采集(采集日志數(shù)據(jù)、文件數(shù)據(jù)、接口數(shù)據(jù),這個(gè)涉及到各種格式的轉(zhuǎn)換,一般用得比較多的是 Flume 和 Logstash)
7 數(shù)據(jù)處理
7.1 離線數(shù)據(jù)處理(這個(gè)一般就是寫寫 SQL 然后扔到 Hive 中跑,其實(shí)和第一點(diǎn)有點(diǎn)重復(fù)了)
7.2 實(shí)時(shí)數(shù)據(jù)處理(這個(gè)涉及到消息隊(duì)列,Kafka,Spark,F(xiàn)link 這些,組件,一般就是 Flume 采集到數(shù)據(jù)發(fā)給 Kafka 然后 Spark 消費(fèi) Kafka 的數(shù)據(jù)進(jìn)行處理)
8 數(shù)據(jù)可視化(這個(gè)我司是用 Spring Boot 連接后臺(tái)數(shù)據(jù)與前端,前端用自己魔改的 echarts)
9 大數(shù)據(jù)平臺(tái)開發(fā)(偏Java方向的,大概就是把開源的組件整合起來整成一個(gè)可用的大數(shù)據(jù)平臺(tái)這樣,常見的是各種難用的 PaaS 平臺(tái))
10 數(shù)據(jù)中臺(tái)開發(fā)(中臺(tái)需要支持接入各種數(shù)據(jù)源,把各種數(shù)據(jù)源清洗轉(zhuǎn)換為可用的數(shù)據(jù),然后再基于原始數(shù)據(jù)搭建起寬表層,一般為了節(jié)省開發(fā)成本和服務(wù)器資源,都是基于寬表層查詢出業(yè)務(wù)數(shù)據(jù))
11 搭建數(shù)據(jù)倉庫(這里的數(shù)據(jù)倉庫的搭建不是指 Hive ,Hive 是搭建數(shù)倉的工具,數(shù)倉搭建一般會(huì)分為三層 ODS、DW、DM 層,其中DW是最重要的,它又可以分為DWD,DWM,DWS,這個(gè)層級(jí)只是邏輯上的概念,類似于把表名按照層級(jí)區(qū)分開來的操作,分層的目的是防止開發(fā)數(shù)據(jù)應(yīng)用的時(shí)候直接訪問底層數(shù)據(jù),可以減少資源,注意,減少資源開銷是減少 內(nèi)存 和 CPU 的開銷,分層后磁盤占用會(huì)大大增加,磁盤不值錢所以沒什么關(guān)系,分層可以使數(shù)據(jù)表的邏輯更加清晰,方便進(jìn)一步的開發(fā)操作,如果分層沒有做好會(huì)導(dǎo)致邏輯混亂,新來的員工難以接手業(yè)務(wù),提高公司的運(yùn)營成本,還有這個(gè)建數(shù)倉也分為建離線和實(shí)時(shí)的)
總之就是離不開寫 SQL ...