本教學(xué)大綱涵蓋了企業(yè)大數(shù)據(jù)專家級(jí)認(rèn)證考試(Enterprise Big Data Professional examination)。 它基于大數(shù)據(jù)框架網(wǎng)站(www.bigdataframework.org )上發(fā)布的第一版企業(yè)大數(shù)據(jù)專家指南(“文本”),適用于參加考試的所有考生。教學(xué)大綱的主要目的是為參與大數(shù)據(jù)解決方案和服務(wù)的人員提供認(rèn)證的基礎(chǔ),它描述了與使用大數(shù)據(jù)框架相關(guān)的學(xué)習(xí)成果,并描述了各個(gè)認(rèn)證級(jí)別所期望考生達(dá)到的學(xué)習(xí)成果的范圍。
認(rèn)證針對(duì)參與企業(yè)大數(shù)據(jù)分析的人員,需要了解大數(shù)據(jù)背后原理的工作知識(shí),并需要知道相關(guān)術(shù)語和實(shí)踐背后的一些理論;
因此,企業(yè)大數(shù)據(jù)專家級(jí)認(rèn)證的目標(biāo)受眾包括:
數(shù)據(jù)分析師(Data Analysts)/業(yè)務(wù)分析師(Business Analysts)/IT 顧問(IT Advisors)/IT 專家(IT Professionals)。
1) 企業(yè)大數(shù)據(jù)專家級(jí)認(rèn)證目的是衡量考生是否對(duì)大數(shù)據(jù)框架有足夠的知識(shí)和理解,以及考生是否能夠理解基本數(shù)據(jù)處理技術(shù)和算法,并以此解決實(shí)際問題;
2) 經(jīng)過認(rèn)證的企業(yè)大數(shù)據(jù)專家能分析實(shí)踐和并掌握技術(shù)概念,這些概念包括當(dāng)前大數(shù)據(jù)環(huán)境和工具中的特征。
-- 大數(shù)據(jù)概念和關(guān)鍵驅(qū)動(dòng)因素;
-- 大數(shù)據(jù)框架;
-- 大數(shù)據(jù)戰(zhàn)略;
-- 大數(shù)據(jù)架構(gòu);
-- 大數(shù)據(jù)算法;
-- 大數(shù)據(jù)流程;
-- 大數(shù)據(jù)職能;
-- 人工智能。
學(xué)習(xí)內(nèi)容
大數(shù)據(jù)的定義
大數(shù)據(jù)的四個(gè)特征的名稱
兩類機(jī)器學(xué)習(xí)的名稱和通常與之相關(guān)的技術(shù)
監(jiān)督式 - 分類和回歸
非監(jiān)督式 - 聚類和關(guān)聯(lián)
大數(shù)據(jù)的起源和三類大數(shù)據(jù)發(fā)展階段的特點(diǎn):
大數(shù)據(jù)的四個(gè)特征以及它們?nèi)绾螀^(qū)分大數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)分析
1. Volume – 體量 2. Velocity – 速率 3. Variety- 多樣性 4. Veracity – 可信度
四種識(shí)別模式
1.analysis - 分析 2.analytics- 解析 3.business intelligence - 商業(yè)智能 4.Big Data - 大數(shù)據(jù)
不同類型的解析目的
1. descriptive - 描述性 2. diagnostic - 診斷性 3. predictive - 預(yù)測(cè)性 4. prescriptive - 規(guī)范性
大數(shù)據(jù)環(huán)境中元數(shù)據(jù)的功能
三類數(shù)據(jù)類型的特征
1. Structured - 結(jié)構(gòu)化 2. Unstructured - 非結(jié)構(gòu)化 3. Semi-structured - 半結(jié)構(gòu)化
Hadoop 在分布式存儲(chǔ)和分布式處理中的作用
了解兩類機(jī)器學(xué)習(xí),并能夠識(shí)別相關(guān)樣
1.Supervised - 監(jiān)督式 2.Unsupervised - 非監(jiān)督式
大數(shù)據(jù)框架六種能力的名稱
如何建立大數(shù)據(jù)組織的六大數(shù)據(jù)框架能力的相關(guān)性
大數(shù)據(jù)成熟度模型的不同層次
Level 1 - Analytically Impaired – 分析能力有損級(jí)
Level 2 - Localized Analytics – 分析能力本地級(jí)
Level 3 - Analytical Operation - 分析能力運(yùn)營級(jí)
Level 4 - Analytical Enterprise - 分析能力企業(yè)級(jí)
Level 5 - Data Driven Enterprise - 數(shù)據(jù)驅(qū)動(dòng)企業(yè)級(jí)
制定大數(shù)據(jù)戰(zhàn)略的五個(gè)步驟及其順序
制定大數(shù)據(jù)戰(zhàn)略所需要的六個(gè)業(yè)務(wù)驅(qū)動(dòng)影響因素,以及如何使用大數(shù)據(jù)來產(chǎn)生競(jìng)爭(zhēng)優(yōu)勢(shì)
優(yōu)先級(jí)矩陣
1. 目的 2. 結(jié)構(gòu)
制定大數(shù)據(jù)戰(zhàn)略五個(gè)步驟中的每一步所涉及的活動(dòng):
步驟1 - 定義業(yè)務(wù)目標(biāo)
步驟2 - 評(píng)估當(dāng)前現(xiàn)狀
步驟3 - 識(shí)別用例并排優(yōu)先級(jí)
步驟4 - 制定大數(shù)據(jù)路線圖
步驟5 - 通過變更管理植入
指導(dǎo)性架構(gòu)與其目標(biāo)
NIST 大數(shù)據(jù)參考架構(gòu)的主要特點(diǎn)
整體結(jié)構(gòu)(5 個(gè)邏輯角色和2個(gè)維度)
角色名稱
維度名稱
信息如何在不同角色之間流動(dòng)
Hadoop 架構(gòu)下核心組件的名稱
NameNode – 名字節(jié)點(diǎn)
MapReduce – 映射歸約
SlaveNode - 從屬節(jié)點(diǎn)
Job tracker – 工作跟蹤器
HDFS - 分布式文件系統(tǒng)
使用大數(shù)據(jù)參考架構(gòu)的收益
與參考架構(gòu)中的邏輯角色相關(guān)聯(lián)的職能和活動(dòng)
System Orchestrator - 系統(tǒng)編配器
Data Provider - 數(shù)據(jù)提供者
Big Data Application Provider - 大數(shù)據(jù)應(yīng)用提供者
Big Data Framework Provider - 大數(shù)據(jù)框架提供者
Data Consumer - 數(shù)據(jù)消費(fèi)者
本地式處理和分布式存儲(chǔ)處理的區(qū)別
面對(duì)海量數(shù)據(jù)的三種大數(shù)據(jù)存儲(chǔ)系統(tǒng)
Direct Attached Storage (DAS)- 直接附加存儲(chǔ)
Network Attached Storage (NAS) - 網(wǎng)絡(luò)附加存儲(chǔ)
Storage Area Network (SAN) - 存儲(chǔ)區(qū)域網(wǎng)絡(luò)
大數(shù)據(jù)存儲(chǔ)機(jī)制
File systems - 文件系統(tǒng)
NoSQL databases - NoSQL 數(shù)據(jù)庫
Parallel programming models - 并行編程模型
大數(shù)據(jù)實(shí)證分析體系結(jié)構(gòu)
Real time analysis- 實(shí)時(shí)分析
Off-line analysis - 離線分析
Hadoop 在大數(shù)據(jù)環(huán)境中的功能
以下 Hadoop 組件的角色
NameNode – 名字節(jié)點(diǎn)
MapReduce – 映射歸約
SlaveNode - 從屬節(jié)點(diǎn)
Job tracker – 工作跟蹤器
HDFS – 分布式文件系統(tǒng)
什么是描述性統(tǒng)計(jì)信息
關(guān)聯(lián)的關(guān)鍵要素
什么是關(guān)聯(lián)(correlation
兩種用于關(guān)聯(lián)的變量類型
關(guān)于Pearson皮爾遜關(guān)聯(lián)系數(shù)的關(guān)鍵要素
分類的關(guān)鍵要素
它能做什么?
機(jī)器學(xué)習(xí)的形式是什么?
對(duì)于每種類型的描述性統(tǒng)計(jì),了解每個(gè)統(tǒng)計(jì)操作/分布措施或顯示
Central tendency statistics - 集中趨勢(shì)統(tǒng)計(jì)
Dispersion statistics and – 離散統(tǒng)計(jì)
Distribution Shapes – 分布形態(tài)
偏度特征
Positive - 正偏度
Negative – 負(fù)偏度
大數(shù)據(jù)計(jì)算中為什么要標(biāo)準(zhǔn)化
識(shí)別和計(jì)算描述性統(tǒng)計(jì)的示例
不同類型的分布式圖形的不同類型特征
1.Frequency - 頻率分布 2.Probability - 概率分布 3.Sampling – 抽樣分布 4.Normal – 正態(tài)分布
為什么分布式圖形對(duì)大數(shù)據(jù)和數(shù)據(jù)科學(xué)很重要
Probability - 概率分布
Sampling – 抽樣分布
Normal – 正態(tài)分布
Skew – 偏度
人口、抽樣和偏倚對(duì)大數(shù)據(jù)的影響
如何在大數(shù)據(jù)中使用關(guān)聯(lián),并識(shí)別這些示例
關(guān)聯(lián)與回歸的區(qū)別
識(shí)別分類算法的示例
聚類的關(guān)鍵特性
它能做什么?
大多數(shù)聚類算法的典型著眼點(diǎn)
如何在大數(shù)據(jù)的上下文中使用異常檢測(cè)
每個(gè)可視化技術(shù)的關(guān)鍵特性以及每種技術(shù)是如何使用的
1. 柱形圖 2. 直方圖 3. 散點(diǎn)圖 4. 雙標(biāo)圖 5. 箱型圖 6.正態(tài)分布Q-Q圖 7.餅狀圖
用于大數(shù)據(jù)中三個(gè)的主要流程及其主要特征
在數(shù)據(jù)分析流程中的步驟是通常使用的下列工具/技術(shù)以及它們?cè)谠摬襟E中的應(yīng)用方式
1.數(shù)據(jù)識(shí)別圖 2.數(shù)據(jù)可視化技術(shù) 3. 算法
形成大數(shù)據(jù)項(xiàng)目業(yè)務(wù)目標(biāo)的六類問題的特點(diǎn)
1.描述性 2.探索性 3.推理性 4.預(yù)測(cè)性 5.因果性 6.機(jī)理性
數(shù)據(jù)分析流程中每個(gè)步驟的重要性以及每個(gè)步驟中發(fā)生的情況
1.確定目標(biāo) 2.數(shù)據(jù)識(shí)別 3.數(shù)據(jù)收集和采購 4.數(shù)據(jù)評(píng)審 5.數(shù)據(jù)清洗 6.模型建立 7.數(shù)據(jù)處理 8.溝通結(jié)果
數(shù)據(jù)治理流程中每個(gè)步驟的重要性以及每個(gè)步驟中發(fā)生的情況
1.制定數(shù)據(jù)質(zhì)量戰(zhàn)略 2.評(píng)審合規(guī)性和隱私性需求 3.制定數(shù)據(jù)治理政策 4.分配角色和職責(zé)
數(shù)據(jù)管理流程中每個(gè)步驟的重要性以及每個(gè)步驟中發(fā)生的情況
1.指定指標(biāo)和績效指標(biāo) 2.監(jiān)控和管理企業(yè)數(shù)據(jù) 3.數(shù)據(jù)改進(jìn)和驗(yàn)證 4.對(duì)數(shù)據(jù)管理人員進(jìn)行溝通和培訓(xùn)
卓越的大數(shù)據(jù)中心的五大支柱名稱和每個(gè)支柱的關(guān)鍵特征:
1.大數(shù)據(jù)團(tuán)隊(duì) 2.大數(shù)據(jù)實(shí)驗(yàn)室 3.概念驗(yàn)證 4.敏捷方法 5.計(jì)費(fèi)模型
卓越的大數(shù)據(jù)中心的收益
大數(shù)據(jù)團(tuán)隊(duì)中關(guān)鍵角色的典型職責(zé)和技能
1.大數(shù)據(jù)分析師 2.大數(shù)據(jù)科學(xué)家 3.大數(shù)據(jù)工程師
大數(shù)據(jù)組織的六個(gè)成功因素
基于圖靈測(cè)試的智能化的實(shí)用型定義
關(guān)于認(rèn)知分析的關(guān)鍵因素
1.什么是認(rèn)知分析 2.認(rèn)知分析與其他形式的分析之間差異的兩個(gè)主要特征
考試內(nèi)容:EBDP官方認(rèn)證考試。
暫無開班信息
人工智能訓(xùn)練師(三級(jí))進(jìn)階
隨著人工智能技術(shù)的快速發(fā)展,社會(huì)對(duì)相關(guān)專業(yè)人才的需求不斷增加。上海交通大學(xué)憑借其在人工智能領(lǐng)域的學(xué)科優(yōu)勢(shì)和科研實(shí)力,開展人工智能訓(xùn)練師培訓(xùn)項(xiàng)目,旨在培養(yǎng)適應(yīng)市場(chǎng)需求的專業(yè)技術(shù)人才。
開課時(shí)間:暫無
人工智能訓(xùn)練師(三級(jí))基礎(chǔ)
隨著人工智能技術(shù)的快速發(fā)展,社會(huì)對(duì)相關(guān)專業(yè)人才的需求不斷增加。上海交通大學(xué)憑借其在人工智能領(lǐng)域的學(xué)科優(yōu)勢(shì)和科研實(shí)力,開展人工智能訓(xùn)練師培訓(xùn)項(xiàng)目,旨在培養(yǎng)適應(yīng)市場(chǎng)需求的專業(yè)技術(shù)人才。
開課時(shí)間:暫無
DeepSeek核心技術(shù)原理和本地部署微調(diào)實(shí)戰(zhàn)
隨著人工智能技術(shù)的快速發(fā)展,智能助手(如DeepSeek-V3)在多模態(tài)理解、個(gè)性化交互、知識(shí)推理等領(lǐng)域的應(yīng)用日益廣泛。DeepSeek-V3作為深度求索公司推出的第三代智能助手,憑借其先進(jìn)的核心技術(shù)(如大規(guī)模預(yù)訓(xùn)練、多模態(tài)理解、上下文感知等),在智能客服、內(nèi)容創(chuàng)作、教育、醫(yī)療等領(lǐng)域展現(xiàn)了強(qiáng)大的潛力。
開課時(shí)間:暫無