江蘇自學考試12577智能數(shù)據(jù)處理_第1頁
江蘇自學考試12577智能數(shù)據(jù)處理_第2頁
江蘇自學考試12577智能數(shù)據(jù)處理_第3頁
江蘇自學考試12577智能數(shù)據(jù)處理_第4頁
江蘇自學考試12577智能數(shù)據(jù)處理_第5頁
已閱讀5頁,還剩13頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、高綱1543江蘇省高等教育自學考試大綱12577智能數(shù)據(jù)處理 南京信息工程大學編江蘇省高等教育自學考試委員會辦公室 課程性質(zhì)及課程目標一、課程性質(zhì)和特點本課程是針對物聯(lián)網(wǎng)工程專業(yè)開設的專業(yè)必修課,是為從事科學研究、理論研究、工程實踐提供基本知識儲備和基本訓練的基礎理論性課程。本課程以工程化手段為特點介紹設計處理、分析和應用方法及技術,是物聯(lián)網(wǎng)工程學科的重要內(nèi)容、核心及趨勢。課程以“設計-知識-服務”為主線,以數(shù)據(jù)的智能處理、分析和服務的代表性方法及技術為重點。圍繞著主線,重點講述了關系數(shù)據(jù)庫的設計及查詢優(yōu)化,信息檢索及搜索引擎、數(shù)據(jù)管理、數(shù)據(jù)挖掘及數(shù)據(jù)倉庫、服務等。通過本課程內(nèi)容的學習,能夠使

2、學生對數(shù)據(jù)的處理、分析和服務的工程化方法有較為系統(tǒng)和完整的理解。以這些內(nèi)容作為對智能數(shù)據(jù)處理技術的代表和延伸,旨在傳遞概念、方法和技術內(nèi)涵及理論,為學生進一步學習和研究面向數(shù)據(jù)科學的方法和技術提供支撐。 本課程的目的主要是培養(yǎng)學生對數(shù)據(jù)科學研究的興趣和數(shù)據(jù)處理的初步能力。培養(yǎng)學生分析數(shù)據(jù)及處理數(shù)據(jù)的基本能力,并提高數(shù)據(jù)服務實踐應用的能力。通過本課程的學習,將使得學生能夠從工程的角度理解數(shù)據(jù)科學:它包括了數(shù)據(jù)處理技術,以及數(shù)據(jù)分析技術和數(shù)據(jù)服務技術;既有數(shù)據(jù)查詢和優(yōu)化、事務和工作流管理及數(shù)據(jù)庫架構等基層內(nèi)容,也包括數(shù)據(jù)挖掘及知識發(fā)現(xiàn)、時空數(shù)據(jù)、元數(shù)據(jù)和社會數(shù)據(jù)分析等經(jīng)典問題,另外還包括概率數(shù)據(jù)、

3、云計算和大數(shù)據(jù)管理等前言課題。最后,通過本課程的學習,還將加深物聯(lián)網(wǎng)工程專業(yè)的學生對本專業(yè)基本理論的理解及科學解決各專業(yè)相關問題的能力。二、課程目標1. 要求學生能夠全面、深入理解和熟練掌握數(shù)據(jù)處理的基本技術,掌握結構化、半結構化和結構化數(shù)據(jù)的存儲、查詢和優(yōu)化方法。了解數(shù)據(jù)挖掘、知識發(fā)現(xiàn)和數(shù)據(jù)倉庫的概念和結構。了解服務的基本概念。2. 要求學生把握數(shù)據(jù)科學領域的前沿,通過課程的學習能夠嘗試追蹤層出不窮、內(nèi)涵日益豐富、熱點不斷演變的數(shù)據(jù)科學。3. 要求學生能夠從工程化的角度去掌握數(shù)據(jù)科學,對“數(shù)據(jù)()知識()服務()”這一數(shù)據(jù)科學及工程領域研究和應用的趨勢和主線能夠有清晰的認識。了解信息技術的核

4、心和未來發(fā)展的方向即為基于數(shù)據(jù)的網(wǎng)絡信息服務。三、及相關課程的聯(lián)系及區(qū)別本課程先修課程應涉及計算機文化基礎、計算機程序設計、數(shù)據(jù)結構、管理信息系統(tǒng)、數(shù)據(jù)庫原理及應用、計算機網(wǎng)絡等。后繼課程有算法設計、信息系統(tǒng)分析及設計、操作系統(tǒng)、軟件工程等。本課程及其他課程的區(qū)別為:本課程立足于理論,且及實際環(huán)節(jié)緊密結合,需要更多關注各種網(wǎng)絡應用及新技術。四、課程的重點和難點課程的重點之一是關系數(shù)據(jù)庫查詢優(yōu)化技術,包括數(shù)據(jù)庫設計、面向復雜應用的數(shù)據(jù)查詢、基于索引的查詢優(yōu)化、基于數(shù)據(jù)庫模式反規(guī)范化和視圖物化的查詢優(yōu)化、基于數(shù)據(jù)查詢語句重寫的查詢優(yōu)化;重點之二是信息檢索,包括信息檢索的基本原理、信息檢索模型的形式

5、、布爾模型、向量空間模型、經(jīng)典概率模型、文本信息檢索中的文本洗預處理、文本信息的倒排索引、布爾檢索、相關反饋和提問式擴展、信息檢索、信息檢索評價指標;課程的次重點是數(shù)據(jù)管理,包括簡介、數(shù)據(jù)模型和解析;次重點之二是數(shù)據(jù)挖掘,包括數(shù)據(jù)挖掘概念和數(shù)據(jù)清理;次重點之三是數(shù)據(jù)倉庫,包括數(shù)據(jù)倉庫概念和體系結構。課程的一般重點是服務,包括服務的基本概念和服務技術架構等。課程的難點是幾種信息檢索模型、文本信息檢索和信息檢索。 考核目標本大綱在考核目標中,按照識記、領會、簡單應用和綜合應用四個層次規(guī)定其應達到的能力層次要求。四個能力層次是遞升的關系,后者必須建立在前者的基礎上。各能力層次的含義是:識記():要求

6、考生能夠識別和記憶本課程中有關數(shù)據(jù)處理(包括數(shù)據(jù)庫、信息檢索、數(shù)據(jù)管理)、數(shù)據(jù)分析(包括數(shù)據(jù)挖掘、數(shù)據(jù)倉庫)、數(shù)據(jù)服務()的概念性內(nèi)容(如基本概念、定義、定理、背景知識、特性等),并能夠根據(jù)考核的不同要求,做正確的表述、選擇和判斷。領會():要求考生能夠領會和理解本課程中關于關系數(shù)據(jù)庫查詢優(yōu)化、信息檢索、數(shù)據(jù)挖掘和數(shù)據(jù)倉庫的概念及特性的內(nèi)涵及外延,理解數(shù)據(jù)庫設計的概念、信息檢索的原理,語法基本知識、數(shù)據(jù)模型和解析,能夠鑒別關于概念和特性的似是而非的說法;理解相關知識的區(qū)別和聯(lián)系,并能根據(jù)考核的不同要求分析各種不同領域所使用的數(shù)據(jù)處理和分析技術。簡單應用():要求考生能夠根據(jù)已知的計算機知識和數(shù)

7、據(jù)庫技術對模型進行處理,轉(zhuǎn)化為關系模型;能夠?qū)谒饕牟樵儍?yōu)化、基于數(shù)據(jù)庫模式反規(guī)范化和視圖物化的查詢優(yōu)化、基于數(shù)據(jù)查詢語句重寫的查詢優(yōu)化進行簡單分析,考慮其性能優(yōu)劣和可靠性。能夠利用搜索引擎的基本原理來分析其關鍵技術,對其中的信息檢索的性能進行初步的評估。此外,還可運用本課程中的少量知識點,利用簡單的模型分析和解決一般應用問題,如簡單的計算和驗證檢索效率及其他性能指標等。綜合應用():要求考生能夠處理具體、實際的數(shù)據(jù)處理技術,能探究解決問題的方法,并進行推導。對數(shù)據(jù)庫查詢優(yōu)化,能夠綜合三種優(yōu)化方法,選擇合適的優(yōu)化途徑;對信息檢索,能夠利用文本信息檢索中的倒排索引和布爾索引的方法來分析文本信

8、息檢索的解決途徑。在深入理解和熟練掌握數(shù)據(jù)庫查詢優(yōu)化內(nèi)容和信息檢索內(nèi)容的基礎上,能夠在數(shù)據(jù)處理的基礎上提升到數(shù)據(jù)分析和數(shù)據(jù)服務的層面,能夠?qū)?shù)據(jù)處理技術舉一反三。 課程內(nèi)容及考核要求第1章關系數(shù)據(jù)庫查詢優(yōu)化一、學習目的及要求本章主要學習數(shù)據(jù)處理中的數(shù)據(jù)庫設計方法和優(yōu)化技術,針對查詢進行數(shù)據(jù)庫性能優(yōu)化。本章以數(shù)據(jù)查詢優(yōu)化為主線,以數(shù)據(jù)的具體用途為出發(fā)點,討論幾種有代表性的關系數(shù)據(jù)庫查詢優(yōu)化方法:索引的創(chuàng)建和選擇、數(shù)據(jù)庫模式的反規(guī)范化和視圖物化以及查詢語句的重寫。通過本章的學習,要求學生重點關注和掌握四個問題,首先是對索引的創(chuàng)建和選擇問題,要求學生清楚何時、在何屬性上創(chuàng)建索引;其次是數(shù)據(jù)庫模式的反

9、規(guī)范化問題,要求學生以代價最小化為目標,根據(jù)數(shù)據(jù)的使用模式對良構關系進行合理的合并調(diào)整;第三是視圖物化問題,要求學生掌握針對頻繁查詢進行視圖反復完全實體化的方法,根據(jù)數(shù)據(jù)操作的類型和頻度考慮將視圖對應的查詢結構存儲到磁盤上,提高查詢效率;最后是查詢語句的重寫,要求學生能夠針對實際查詢中執(zhí)行比預計的慢得多的情況,能夠分析數(shù)據(jù)庫管理系統(tǒng)查詢執(zhí)行計劃性能低下的原因,并定位到查詢語句編寫方面的問題。學生需要理解在結果相同的前提下對查詢語句的結構進行調(diào)整的方法。本章是課程的重點,要求學生重視本章知識內(nèi)容的熟悉和掌握2、 課程內(nèi)容1. 領會數(shù)據(jù)庫設計的基本概念2. 掌握模型和關系模型3. 掌握從模型到關系

10、模型的轉(zhuǎn)換4. 了解關系規(guī)范化概念5. 領會連接查詢、嵌套查詢和集合查詢6. 領會視圖、存儲過程和觸發(fā)器的作用7. 掌握基于索引的查詢優(yōu)化8. 掌握數(shù)據(jù)庫模式反規(guī)范化查詢優(yōu)化方法9. 領會視圖物化的查詢優(yōu)化方法10.掌握數(shù)據(jù)查詢語句重寫的查詢優(yōu)化三、考核知識點及考核要求1. 數(shù)據(jù)庫設計識記:(1)數(shù)據(jù)庫設計的基本概念和設計步驟、模型、關系模型、關系規(guī)范化的概念;(2)關系數(shù)據(jù)模型中的完整性約束,外鍵是否為空的判定準則,良構關系的的判斷標準;(3)第1范式、第2范式、第3范式的概念。領會: 模型到關系模型的轉(zhuǎn)換、不滿足第2范式時存在的問題。2. 面向復雜應用的數(shù)據(jù)查詢識記:(1)連接查詢、嵌套查

11、詢和集合查詢的概念和連接語法;(2)視圖、存儲過程和觸發(fā)器的概念、語法、適用場所。領會:(1)連接查詢、嵌套查詢和集合查詢的性能表現(xiàn)及相互關系。重點考核連接查詢在查詢操作中的代表作用;(2)視圖、存儲過程和觸發(fā)器的作用、性能表現(xiàn)及相互關系,觸發(fā)器的優(yōu)點,存儲過程的優(yōu)點。3. 查詢優(yōu)化識記:(1)索引的基本概念、索引的類型、索引創(chuàng)建的語法、索引的使用方法;(2)數(shù)據(jù)庫模式反規(guī)范化概念、視圖物化概念。領會:(1)基于索引的查詢優(yōu)化性能影響、代價、權衡;(2)聚集索引和非聚集索引在創(chuàng)建時間、刪除時間、存儲空間三個方面的性能比較,覆蓋索引有意義所需要滿足的條件,索引選擇和應用的一般原則,以存儲和處理為

12、中心的系統(tǒng)整體開銷、索引選擇的基本原則和規(guī)律、構建新索引時考慮的三個基本要素和步驟;(3)規(guī)范化的關系模式對查詢操作在性能上的影響、關系模式反規(guī)范化的一般步驟、選擇反規(guī)范化的查詢優(yōu)化方案的基本原則、實施反規(guī)范化時確保數(shù)據(jù)同步、一致性、維護數(shù)據(jù)庫完整性所使用的三種方法;(4)理解視圖物化的兩個角度;(5)基于數(shù)據(jù)查詢語句重寫的查詢優(yōu)化中,幾種典型的查詢重寫方法。四、本章重點、難點本章重點為面向復雜應用的數(shù)據(jù)查詢和查詢優(yōu)化,本章難點為面向復雜應用的數(shù)據(jù)查詢。第2章信息檢索一、學習目的及要求本章主要學習數(shù)據(jù)處理中的信息檢索技術。信息檢索是一個具有鮮明交叉研究特性、及數(shù)據(jù)科學相關的學科領域,本章從計算

13、機科學領域的視角,面向信息檢索工具的原理及方法,針對信息檢索領域中的三個關鍵問題,討論信息檢索建模、系統(tǒng)設計及實現(xiàn)的支持技術。通過本章學習,要求學生熟悉三個方面的知識:首先掌握如何從信息檢索問題的核心和本質(zhì)出發(fā),忽略實現(xiàn)細節(jié),構建以信息分析為中心的模型,這是信息檢索建模問題,也即信息檢索的基礎;其次學會根據(jù)自然語言文本中詞匯的頻率和分布情況進行文本信息的預處理、構建檢索模型、實現(xiàn)高效準確的文本檢索,這是文本信息檢索問題,這部分內(nèi)容是信息檢索和搜索引擎的主要組成部分;第三是針對當前以用戶為中心的2.0時代,資源具有海量數(shù)據(jù)、分散無序、動態(tài)變化、形式多樣、非結構化或半結構、質(zhì)量控制缺乏、使用方式個

14、性化等特點,要求學生學會構建有效的搜索引擎,這是信息檢索問題,也是信息檢索技術的重要應用領域;最后,要求學生熟悉衡量檢索系統(tǒng)效率的性能指標,了解各種檢索技術優(yōu)劣的性能比較法、理解改進現(xiàn)有檢索系統(tǒng)和開發(fā)新興應用領域的技術,這是信息檢索評價問題,也是信息檢索領域一項有前景的研究內(nèi)容。本章是課程的重點和難點所在,要求學生高度重視本章知識內(nèi)容的熟悉和掌握。對相關知識從識記概念到領會技術和算法內(nèi)涵到掌握計算方法進行應用處理都要全面深入學習和掌握。二、課程內(nèi)容1. 掌握信息檢索的基本概念和基本原理2. 領會信息檢索的相關性學科和研究內(nèi)容3. 領會信息檢索的發(fā)展史4. 掌握信息檢索系統(tǒng)的形式表示5. 掌握信

15、息檢索中的布爾模型和向量空間模型6. 領會經(jīng)典概率模型7. 掌握文本信息檢索中詞匯的頻率域數(shù)量分布規(guī)律8. 掌握文本信息預處理9. 掌握文本信息的倒排索引10.掌握布爾檢索11.領會相關反饋和提問式擴展12.掌握信息搜索的概念13.掌握搜索引擎的工作原理14.掌握搜索引擎的關鍵技術15.掌握信息檢索評價指標16.掌握單個查詢的評價指標17.掌握多個查詢的評價指標18.領會面向用戶的評價指標19.領會搜索引擎性能評價指標20.領會評測三、考核知識點及考核要求1. 信息檢索概述識記:信息檢索的基本概念、信息檢索的基本原理、信息檢索的基本流程(兩個步驟)。領會:信息檢索的主要研究內(nèi)容、信息檢索的發(fā)展

16、史。2. 信息檢索模型識記:信息檢索系統(tǒng)的形式表示(四元組和解釋)、詞頻的概念、匹配函數(shù)的概念。領會:匹配函數(shù)的選擇所考慮的原則、布爾模型的思想、布爾模型的優(yōu)缺點、詞的分布、向量空間模型的優(yōu)點、經(jīng)典概率模型的基本思想、經(jīng)典概率模型的基本假設、概率模型的優(yōu)點。應用:布爾模型中利用析取范式和匹配函數(shù)求及提問式相關的文檔、求解包含若干個文檔的索引詞集所對應的向量文檔、詞的權重、匹配函數(shù)的計算及檢索結果的確定及排序。3. 文本信息檢索識記:詞匯頻率及齊普夫分布模型,齊普夫定律、詞匯數(shù)量及分布模型、倒排文件的概念、布爾邏輯運算符、檢索提問式等價處理方法。領會:文本信息預處理操作、文本信息的倒排索引、倒排

17、索引的建立、倒排索引的使用、倒排索引的維護、多種布爾運算符下,檢索系統(tǒng)進行檢索運算的規(guī)則、逆波蘭式處理的基本思想、相關反饋的步驟。應用:倒排索引的使用(利用倒排索引查找單詞)。4. 信息檢索識記:信息搜索的概念、的概念。領會:搜索引擎的工作原理、數(shù)據(jù)收集和預處理的過程、數(shù)據(jù)檢索和信息挖掘的過程、數(shù)據(jù)預處理中的網(wǎng)頁去重(發(fā)現(xiàn)重復或近似網(wǎng)頁對搜索引擎的好處、網(wǎng)頁去重所包含的技術要點、網(wǎng)頁去重方法分類)、使用方法判斷重復網(wǎng)頁的步驟、數(shù)據(jù)檢索中的結果排序、基于網(wǎng)頁鏈接結構分析的相關排序、算法(特點、基本觀點、計算公式)、算法(兩類網(wǎng)頁、基本思想、的不足之處)、算法和算法的比較(相似、差異)。應用:基于

18、計算各個網(wǎng)頁的值。5. 信息檢索評價指標識記:信息檢索評價的基本步驟、單個查詢的評價指標及公式(查全率和查準率、查全率查準率曲線、調(diào)和平均數(shù)、E測度指標)、多個查詢的評價指標及公式(平均查準率、平均查準率均值、微平均查準率)、面向用戶的評價指標(覆蓋率、新穎率、相對查全率、查全努力)。領會:評價和比較檢索系統(tǒng)的檢索性能時所需要的條件、搜索引擎性能評價指標、評測。應用:單個查詢的查全率計算、單個查詢的查準率計算、多個查詢的平均查準率均值計算、多個查詢的微平均查準率計算。四、本章重點、難點本章重點為信息檢索模型中的布爾模型、向量空間模型,文本信息檢索中的文本信息預處理、文本信息的倒排索引、布爾檢索

19、,信息檢索中搜索引擎的工作原理和關鍵技術、信息檢索評價指標、單個查詢和多個查詢的評價指標。本章難點為信息檢索模型中的布爾模型、向量空間模型,文本信息檢索中的文本信息預處理、文本信息的倒排索引、布爾檢索。第3章數(shù)據(jù)管理一、學習目的及要求本章主要學習數(shù)據(jù)處理中的數(shù)據(jù)管理。作為萬維網(wǎng)上信息表示、信息傳輸和交換的基本形式,主要進行半結構化的數(shù)據(jù)處理,本身是一種標記語言,有特色的數(shù)據(jù)類型、表達式和函數(shù)庫等語法。本章針對數(shù)據(jù)管理的模型和編程基礎及具體任務,討論數(shù)據(jù)建模、語法和數(shù)據(jù)處理的代表性支撐技術。通過本章學習,要求學生掌握半結構化數(shù)據(jù)的結構,熟悉的基本概念,簡單了解的語法,掌握數(shù)據(jù)模型中的半結構化數(shù)據(jù)

20、以及數(shù)據(jù)模型,了解數(shù)據(jù)處理部分的解析內(nèi)容,熟悉數(shù)據(jù)庫性能評測的性能基準,了解性能評測數(shù)據(jù)集。領會關于數(shù)據(jù)管理的兩個問題:第一,如何構建一種具有一般性的邏輯模型,以描述半結構化數(shù)據(jù)的結構、約束和操作,這是數(shù)據(jù)建模問題,是半結構化數(shù)據(jù)存儲、查詢及應用的基礎;第二,從數(shù)據(jù)庫的角度,如何有效地進行數(shù)據(jù)庫的存儲、索引、查詢、及優(yōu)化,這是數(shù)據(jù)處理問題,是數(shù)據(jù)管理的具體任務,也是數(shù)據(jù)庫系統(tǒng)研究的主要內(nèi)容。本章是數(shù)據(jù)處理中針對半結構化數(shù)據(jù)進行處理的技術,考核要求較低。相對其他兩類數(shù)據(jù)處理,即基于結構化數(shù)據(jù)處理和信息檢索,本章以基本概念的識記、基本模型及技術的領會為主。二、課程內(nèi)容1. 領會數(shù)據(jù)管理前言概述2.

21、 熟悉語法簡介3. 了解文檔結構中的基本語法要素4. 了解和查詢語言的基本概念5. 領會數(shù)據(jù)模型,掌握結構化、半結構化和非結構化數(shù)據(jù)的概念6. 了解數(shù)據(jù)處理匯總的解析7. 了解數(shù)據(jù)庫性能評測三、考核知識點及考核要求1. 語法識記:基本概念、定義、基本語法要素。領會:文檔的基本組成部分,的主要優(yōu)點,在實際應用中具有的性質(zhì)和用途、和查詢語言。2. 數(shù)據(jù)模型識記:結構化、半結構化、非結構化的數(shù)據(jù)。領會:半結構化數(shù)據(jù)的特點、對象交換模型、半結構化數(shù)據(jù)和數(shù)據(jù)、數(shù)據(jù)模型三要素。3. 數(shù)據(jù)處理識記:四類解析技術。領會:、。4. 數(shù)據(jù)庫性能評測識記:兩類數(shù)據(jù)庫性能基準。四、本章重點、難點本章重點為基本概念、文

22、檔結構中的語法要素、半結構化數(shù)據(jù)、數(shù)據(jù)模型、解析、數(shù)據(jù)庫性能評測。本章難點為半結構化數(shù)據(jù)、數(shù)據(jù)模型、解析。第4章數(shù)據(jù)挖掘一、學習目的及要求本章主要學習數(shù)據(jù)分析中的數(shù)據(jù)挖掘,以數(shù)據(jù)挖掘過程和算法為主線,介紹數(shù)據(jù)挖掘的概念、代表性預處理和挖掘方法。數(shù)據(jù)挖掘建立在多個學科的基礎之上,是人工智能和數(shù)據(jù)庫領域的重要內(nèi)容。傳統(tǒng)的數(shù)據(jù)挖掘主要針對趨勢和行為自動預測、關聯(lián)、聚類、關聯(lián)規(guī)則、特征、變化和偏差分析以及挖掘等方法,而本章迎合當前數(shù)據(jù)挖掘方法和技術不斷向支持大數(shù)據(jù)分析方向發(fā)展、衍生的趨勢,針對非結構化數(shù)據(jù)大量出現(xiàn)的實際情況,數(shù)據(jù)分析和處理技術上,增加了這部分數(shù)據(jù)的挖掘方法和技術的內(nèi)容。預處理、挖掘、評

23、估和應用,是數(shù)據(jù)挖掘的基本流程。在學習中,要把握住數(shù)據(jù)挖掘的主線進行研究及掌握。通過本章學習,要求學生數(shù)據(jù)挖掘的概念,了解數(shù)據(jù)挖掘的內(nèi)涵,領會數(shù)據(jù)挖掘的任務,掌握數(shù)據(jù)挖掘的過程,領會數(shù)據(jù)清理的基本思想,掌握數(shù)據(jù)清理的三個步驟,領會相似重復數(shù)據(jù)、不完整數(shù)據(jù)、錯誤數(shù)據(jù)的數(shù)據(jù)清理方法,了解數(shù)據(jù)分析的兩種方法,了解數(shù)據(jù)分類分析和數(shù)據(jù)聚類分析的概念和目的??傮w來說,要了解以下四個問題:第一,通過填補數(shù)據(jù)、消除異常數(shù)據(jù)、平滑噪聲數(shù)據(jù)以及糾正不一致的數(shù)據(jù),來保證數(shù)據(jù)質(zhì)量,這是數(shù)據(jù)清理問題,是數(shù)據(jù)挖掘和數(shù)據(jù)倉庫構建預處理的重要內(nèi)容;第二,在給定其他變量的條件下對感興趣的未知變量值做出預測,這是數(shù)據(jù)的分類問題;

24、第三,將數(shù)據(jù)對象分解或劃分為多個類或簇,使同一個類中的數(shù)據(jù)對象之間具有較高的相似度、但及其他類中的數(shù)據(jù)又有較大的差異,這是句聚類問題;第四,通過實驗來測試數(shù)據(jù)挖掘算法的性能,驗證算法的有效性和有用性,這是算法評價問題。本章屬于數(shù)據(jù)科學的前沿知識部分,涉及到多個交叉學科和多種基礎知識,作為數(shù)據(jù)處理的延伸性內(nèi)容,對學生的考核要求不高,以基本概念、基本知識的識記,相關技術的簡單領會為主。二、課程內(nèi)容1. 領會數(shù)據(jù)挖掘前言2. 領會數(shù)據(jù)挖掘基本的內(nèi)涵和任務3. 掌握數(shù)據(jù)挖掘的過程4. 了解數(shù)據(jù)質(zhì)量管理的基本思想5. 領會數(shù)據(jù)清理流程6. 掌握數(shù)據(jù)清理的三個步驟7. 領會相似重復數(shù)據(jù)、不完整數(shù)據(jù)、錯誤數(shù)

25、據(jù)的數(shù)據(jù)清理方法7. 了解數(shù)據(jù)分析的兩種方法8. 了解數(shù)據(jù)分類分析的概念和目的9. 了解數(shù)據(jù)聚類分析的概念和目的三、考核知識點及考核要求1. 數(shù)據(jù)挖掘概述識記:數(shù)據(jù)挖掘的過程。領會:數(shù)據(jù)挖掘的內(nèi)涵、數(shù)據(jù)挖掘的幾類主要任務、數(shù)據(jù)挖掘的過程中確定分析對象、數(shù)據(jù)準備、數(shù)據(jù)挖掘、結果評價、結果應用、數(shù)據(jù)預處理的幾個步驟。2. 數(shù)據(jù)清理識記:數(shù)據(jù)質(zhì)量、全面數(shù)據(jù)質(zhì)量管理及其四個環(huán)節(jié)的任務。領會:影響數(shù)據(jù)質(zhì)量的幾個方面因素、數(shù)據(jù)清理的步驟、 數(shù)據(jù)清理方法中的相似重復數(shù)據(jù)清理(問題提出、識別、清理算法)、不完整數(shù)據(jù)清理(問題、填充方法及舉例)、錯誤數(shù)據(jù)清理(問題、清理步驟)。3. 數(shù)據(jù)分析識記:聚類的概念、分

26、類的概念。領會:數(shù)據(jù)分類的目的、聚類的目的。四、本章重點、難點本章重點為數(shù)據(jù)挖掘的過程,數(shù)據(jù)清理流程和數(shù)據(jù)清理方法。難點為相似重復數(shù)據(jù)、不完整數(shù)據(jù)、錯誤數(shù)據(jù)的數(shù)據(jù)清理方法。第5章數(shù)據(jù)倉庫一、學習目的及要求本章主要學習數(shù)據(jù)分析中的數(shù)據(jù)倉庫,以數(shù)據(jù)倉庫的構建和應用為主線,學習數(shù)據(jù)倉庫的概念、體系結構技術。數(shù)據(jù)倉庫主要為現(xiàn)實應用提供數(shù)據(jù)支持,并為縮小數(shù)據(jù)和信息之間的鴻溝提供橋梁,它是企業(yè)信息集成和輔助決策應用的關鍵技術之一。通過數(shù)據(jù)倉庫基礎知識的學習,學生要對數(shù)據(jù)分析的前言知識有一些簡單的了解,對云計算、移動通信及海量數(shù)據(jù)管理技術及電子商務應用之間的發(fā)展和相輔相成的關系有一些基本的認識,為解決數(shù)據(jù)和

27、信息之間的孤島、數(shù)據(jù)處理的高級應用和數(shù)據(jù)科學的理論研究作鋪墊。通過本章的學習,要求學生熟悉數(shù)據(jù)倉庫的基本概念、領會操作性系統(tǒng)和信息型系統(tǒng)的概念并掌握兩者的差異,領會數(shù)據(jù)倉庫體系結構,對一般的兩層結構、獨立數(shù)據(jù)集市的數(shù)據(jù)倉庫體系結構、依賴數(shù)據(jù)集市和操作型數(shù)據(jù)存儲體系結構的三層結構、邏輯數(shù)據(jù)集市和實時數(shù)據(jù)倉庫體系結構有較為清晰的認識,了解聯(lián)機分析處理的基本概念??傮w而言,要領會三個方面的問題:第一,熟悉數(shù)據(jù)庫及數(shù)據(jù)倉庫、操作型處理及分析型處理,闡述這些概念的本質(zhì)、區(qū)別及聯(lián)系,這是數(shù)據(jù)倉庫定義問題;第二,不同數(shù)據(jù)源中的數(shù)據(jù)流入數(shù)據(jù)倉庫后進行分析處理,提供多樣的數(shù)據(jù)應用,數(shù)據(jù)及在數(shù)據(jù)倉庫內(nèi)的數(shù)據(jù)轉(zhuǎn)換和

28、流動過程,可以認為是數(shù)據(jù)倉庫的“流水線”,根據(jù)實際需求和分析任務設計數(shù)據(jù)流入流出數(shù)據(jù)倉庫的架構,是數(shù)據(jù)倉庫構建和體系結構問題,也是數(shù)據(jù)倉庫相關應用的基礎和關鍵。第三,數(shù)據(jù)倉庫的真正價值體現(xiàn)在基于數(shù)據(jù)倉庫的數(shù)據(jù)應用,根據(jù)不同的系統(tǒng)架構及存儲模式進行數(shù)據(jù)的檢索和處理以完成客戶提出的數(shù)據(jù)分析任務,是聯(lián)機分析處理問題,也是實現(xiàn)報表展示、即席查詢、數(shù)據(jù)挖掘和數(shù)據(jù)分析等應用的基礎。本章旨在提升學生數(shù)據(jù)處理的能力。作為數(shù)據(jù)處理的延伸性內(nèi)容,對學生的考核要求中等偏低,以基本概念、基本知識的識記,相關技術的了解和領會為主。二、課程內(nèi)容1. 了解數(shù)據(jù)倉庫的基本概念2. 領會操作型系統(tǒng)和信息型系統(tǒng)3. 領會數(shù)據(jù)倉庫

29、體系結構,對一般的兩層結構、獨立數(shù)據(jù)集市的數(shù)據(jù)倉庫體系結構、依賴數(shù)據(jù)集市和操作型數(shù)據(jù)存儲體系結構的三層結構、邏輯數(shù)據(jù)集市和實時數(shù)據(jù)倉庫體系結構有較為清晰的認識,重點把握依賴數(shù)據(jù)集市和操作型數(shù)據(jù)存儲體系結構的三層結構、邏輯數(shù)據(jù)集市和實時數(shù)據(jù)倉庫體系結構兩種結構4. 了解聯(lián)機分析處理的概念三、考核知識點及考核要求1.數(shù)據(jù)倉庫概述識記:數(shù)據(jù)倉庫的基本概念、數(shù)據(jù)倉庫的四個重要特征。領會:從操作性系統(tǒng)到信息型系統(tǒng)、數(shù)據(jù)倉庫的工具包括的功能部件。2 .數(shù)據(jù)倉庫體系結構識記:數(shù)據(jù)集市的概念、依賴數(shù)據(jù)集市的概念、邏輯數(shù)據(jù)集市的概念、操作型數(shù)據(jù)存儲的概念、邏輯數(shù)據(jù)集市的概念。領會:一般的兩層體系結構的四個基本步

30、驟、基于數(shù)據(jù)集市的數(shù)據(jù)倉庫體系結構、基于依賴數(shù)據(jù)集市的操作型數(shù)據(jù)存儲體系結構-三層結構、邏輯數(shù)據(jù)集市和實時數(shù)據(jù)倉庫體系結構(兩個角度出發(fā)的特征)、數(shù)據(jù)倉庫和數(shù)據(jù)集市在不同方面的區(qū)別。3.聯(lián)機分析處理識記:的概念。四、本章重點、難點本章重點為數(shù)據(jù)倉庫的體系結構,包括一般的兩層結構、獨立數(shù)據(jù)集市的數(shù)據(jù)倉庫體系結構、依賴數(shù)據(jù)集市和操作型數(shù)據(jù)存儲體系結構的三層結構、邏輯數(shù)據(jù)集市和實時數(shù)據(jù)倉庫體系結構。難點為依賴數(shù)據(jù)集市和操作型數(shù)據(jù)存儲體系結構的三層結構、邏輯數(shù)據(jù)集市和實時數(shù)據(jù)倉庫體系結構。第6章服務一、學習目的及要求本章主要學習數(shù)據(jù)服務中的服務。是數(shù)據(jù)服務的一種典型應用,目前對服務的研究和應用,從底層

31、的分布式計算和互聯(lián)網(wǎng)協(xié)議、到中間層的服務部署及發(fā)布、再到上層的服務組合及應用集成,具有豐富的內(nèi)容。本章以面向應用的服務管理為出發(fā)點,圍繞自動服務發(fā)現(xiàn)及組合的支撐計算,在中間層之上討論服務的架構及技術。本章的學習目標是通過服務的學習,對數(shù)據(jù)處理的最終目標數(shù)據(jù)服務有較為清晰的理解,熟悉服務的特點:面向應用、高綜合性和高集成度;了解服務研究及應用中的關鍵問題是服務質(zhì)量以及自動服務發(fā)現(xiàn)及組合。此外通過服務中計算和技術的融合,體會數(shù)據(jù)處理和數(shù)據(jù)服務之間的關系。通過本章的學習,要求學生了解的基本概念,熟悉基于服務的電子商務應用集成模式,領會技術架構,了解的簡介,領會服務質(zhì)量中,幾種的度量尺度,了解服務安全

32、問題,了解安全標準模型中安全機制概述內(nèi)容??傮w而言,要領會以下三個問題:第一,在基于服務的模型中,可以清晰地區(qū)分服務提供者、服務請求者和服務代理,這些參及者之間通過標準的協(xié)議進行通信,服務之間也具有高度的獨立性和松散耦合性,各參及者的內(nèi)部結構、協(xié)議及底層信息對用戶透明,這是服務的技術架構和標準協(xié)議問題,是服務應用的基礎;第二,在基于現(xiàn)有的計算資源開發(fā)基于服務的應用時,如何衡量服務的好壞,如何選擇可用的、合適的服務,這是服務質(zhì)量問題;第三,在服務的組合和協(xié)調(diào)中,需要保證服務的安全性,建立安全模型,使安全保證成為服務中一個自動完成的部分,這是服務安全問題。本章內(nèi)容屬于數(shù)據(jù)服務部分,屬于數(shù)據(jù)處理的應

33、用領域,旨在提升學生數(shù)據(jù)處理的能力。作為數(shù)據(jù)處理的延伸性內(nèi)容,對學生的考核要求中等偏高,在基本概念、基本知識的識記之外,對相關技術的領會也有較多要求。二、課程內(nèi)容1. 了解企業(yè)應用集成及電子商務中的需求及挑戰(zhàn)2. 領會基于服務的電子商務應用集成模式3. 了解服務技術架構中面向服務的架構4. 了解服務技術架構中服務體系結構5. 了解服務協(xié)議棧6. 了解服務開發(fā)的生命周期和開發(fā)方案7. “軟件即服務”理念8. 了解、和的基本概念9. 了解服務質(zhì)量中幾種的幾種度量尺度10. 熟悉服務質(zhì)量度量方法的基本思想11.了解服務安全問題12. 領會服務安全標準和模型中服務安全機制概述三、考核知識點及考核要求1

34、. 服務識記:面向服務的架構()、服務體系結構的三個參及者及三種基本操作、“軟件即服務”定義。領會: 服務的基本概念、基于服務的電子商務應用集成模式(代價、優(yōu)越性)、服務技術架構(面向服務的架構、服務體系結構、服務協(xié)議棧、服務開發(fā)的生命周期和開發(fā)方案、“軟件即服務”理念)、服務及基于的應用程序的差異、服務的主要特點。2. 服務的標準協(xié)議識記:簡介(基本屬性)、定義、簡介。領會:的簡介、使用的分布式應用。3. 服務質(zhì)量識記:服務質(zhì)量概念。領會:的度量尺度、服務質(zhì)量度量(基本思想等)。4. 服務安全識記:服務安全機制。領會:服務安全問題(問題、安全性威脅)、安全性標準、服務安全性模型和體系結構。四

35、、本章重點、難點本章重點為服務技術架構、服務安全。本章難點為服務技術架構。第7章數(shù)據(jù)密集型計算(不作考核要求) 有關說明和實施要求一、自學考試大綱的目的和作用課程自學考試大綱是根據(jù)專業(yè)自學考試計劃的要求,結合自學考試的特點而確定。其目的是對個人自學、社會助學和課程考試命題進行指導和規(guī)定。課程自學考試大綱明確了課程學習的內(nèi)容以及深廣度,規(guī)定了課程自學考試的范圍和標準。因此,它是編寫自學考試教材和輔導書的依據(jù),是社會助學組織進行自學輔導的依據(jù),是自學者學習教材、掌握課程內(nèi)容知識范圍和程度的依據(jù),也是進行自學考試命題的依據(jù)。二、課程自學考試大綱及教材的關系課程自學考試大綱是進行學習和考核的依據(jù),教材

36、是學習掌握課程知識的基本內(nèi)容及范圍,教材的內(nèi)容是大綱所規(guī)定的課程知識和內(nèi)容的擴展及發(fā)揮。課程內(nèi)容在教材中可以體現(xiàn)一定的深度或難度,但在大綱中對考核的要求一定要適當。大綱及教材所體現(xiàn)的課程內(nèi)容應基本一致;大綱里面的課程內(nèi)容和考核知識點,教材里一般也要有。反過來教材里有的內(nèi)容,大綱里就不一定體現(xiàn)。(注:如果教材是推薦選用的,其中有的內(nèi)容及大綱要求不一致的地方,應以大綱規(guī)定為準。)三、關于自學教材本課程使用教材為:數(shù)據(jù)工程處理、分析及服務,岳昆編著,清華大學出版社,2013年12月第一版。四、關于自學要求和自學方法的指導本大綱的課程基本要求是依據(jù)專業(yè)考試計劃和專業(yè)培養(yǎng)目標而確定的。課程基本要求還明確

37、了課程的基本內(nèi)容,以及對基本內(nèi)容掌握的程度。基本要求中的知識點構成了課程內(nèi)容的主體部分。因此,課程基本內(nèi)容掌握程度、課程考核知識點是高等教育自學考試考核的主要內(nèi)容。為有效地指導個人自學和社會助學,本大綱已指明了課程的重點和難點,在章節(jié)的基本要求中一般也指明了章節(jié)內(nèi)容的重點和難點。本課程共6學分(包括實驗內(nèi)容學分)根據(jù)學習對象成人在職業(yè)余自學的情況,并結合本專業(yè)的要求、本課程的特點,本大綱提出如下學習方法:1.在全面系統(tǒng)學習的基礎上,從工程化的角度把握數(shù)據(jù)處理、數(shù)據(jù)分析、數(shù)據(jù)服務的基本概念、基礎知識、基本方法和技能。本課程內(nèi)容涉及到數(shù)據(jù)科學三個方面,知識范圍比較廣泛。自學者應在全面系統(tǒng)學習各章節(jié)

38、內(nèi)容,深刻領會從數(shù)據(jù)處理到數(shù)據(jù)分析到數(shù)據(jù)服務逐步擴充的理論;識記其中的基本概念、基礎知識、基本方法和技能,并能夠進行初級的應用。2.本教材共7章,其中納入考核要求的為前六章,各章內(nèi)容相對獨立又有一定的關聯(lián),大致分為數(shù)據(jù)處理篇、數(shù)據(jù)分析篇和數(shù)據(jù)服務篇三部分。關系數(shù)據(jù)庫查詢優(yōu)化、信息檢索和數(shù)據(jù)管理這三章屬于數(shù)據(jù)服務篇;數(shù)據(jù)挖掘和數(shù)據(jù)倉庫屬于數(shù)據(jù)分析篇;服務和數(shù)據(jù)密集型計算屬于數(shù)據(jù)服務篇。建議學生在自學時一個知識模塊所涉及的幾個章節(jié)時,應該串起來學習,以便加強整體上的把握和理解。此外,數(shù)據(jù)密集型計算屬于高級應用部分,不納入考核范圍之內(nèi)。3.智能數(shù)據(jù)處理是一門理論性為基礎,實踐性為內(nèi)核的課程。因此,自

39、學時應注重理論及實踐的結合,借助基礎知識和實踐背景知識以增強對本課程的感性認識,切忌死記硬背,在關系數(shù)據(jù)庫查詢優(yōu)化中通過應用實踐操作來更深刻地領會教材內(nèi)容,將知識內(nèi)容轉(zhuǎn)化為自身的素質(zhì),以提高自己數(shù)據(jù)處理和應用的綜合能力。五、應考指導1.如何學習。很好的計劃和組織是學習成功的法寶。如果自學者正在接受培訓學習,一定要跟緊課程并完成作業(yè)。為了在考試中作出滿意的回答,必須對所學課程內(nèi)容有很好的理解。使用“行動計劃表”來監(jiān)控學習進展。閱讀課本時可以做讀書筆記。如有需要重點注意的內(nèi)容,可以用彩筆來標注。如:紅色代表重點;綠色代表需要深入研究的領域;黃色代表可以運用在工作之中??梢栽诳瞻滋幱涗浵嚓P資料、文章

40、。另外,本課程有較多新穎的內(nèi)容,涉及數(shù)據(jù)科學的方方面面,考生可以適當借助因特網(wǎng)工具或文獻工具,查閱及課程相關的背景知識和前沿領域的最新發(fā)展。2.如何考試。卷面整潔非常重要。書寫工整,段落及間距合理,卷面賞心悅目有助于教師評分,教師只能為他能看懂的內(nèi)容打分?;卮鹚岢龅膯栴}。要回答所問的問題,而不是回答自己樂意回答的問題。避免超過問題的范圍3.如何處理緊張情緒。正確處理對失敗的懼怕,要正面思考。如果可能,請教已經(jīng)通過該科目考試的人,問他們一些問題。做深呼吸放松,這有助于使頭腦清醒,緩解緊張情緒??荚嚽昂侠砩攀常3滞⒕?,保持冷靜。4.如何克服心理障礙。這是一個普遍問題。如果在考試中出現(xiàn)這種情

41、況,試試下列方法:使用“線索”紙條。進入考場之前,將記憶“線索”記在紙條上,但不能將紙條帶進考場,因此當閱讀考卷時,一旦有了思路就快速記下。按自己的步調(diào)進行答卷。為每個考題或部分分配合理時間,并按此時間安排進行。六、對社會助學的要求1.社會助學者應根據(jù)大綱規(guī)定的考試內(nèi)容和考核目標,認真鉆研指定教材,明確本課程及其他課程不同的特點和學習要求,對自學應考者進行切實有效的輔導,引導他們防止自學中的各種偏向,把握社會助學的正確方向。2.要正確處理基本知識的應用能力的關系,努力引導自學應考者將識記、領會同應用聯(lián)系起來,把基本知識轉(zhuǎn)化為實際工作能力,在輔導的基礎上,著重培養(yǎng)和提高自學應考者的素質(zhì)和思想水平

42、。3.要正確處理重點和一般的關系。課程內(nèi)容有重點及一般之分,但考試內(nèi)容是全面的,而且重點及一般是相互影響的,不是截然分開的。社會助學者應指導自學應考者全面系統(tǒng)的學習教材,掌握全部考試內(nèi)容和考核知識點,在此基礎上再突出重點。總之,要把重點學習同兼顧一般結合起來,不要孤立地抓重點,把自學應考者引向猜題押題七、對考核內(nèi)容的說明1.本課程要求考生學習和掌握的知識點內(nèi)容都作為考核的內(nèi)容。課程中各章的內(nèi)容均由若干知識點組成,在自學考試中成為考核知識點。因此,課程自學考試大綱中所規(guī)定的考試內(nèi)容是以分解為考核知識點的方式給出的。由于各知識點在課程中的地位、作用以及知識自身的特點不同,自學考試將對各知識點分別按四個認知(或叫能力)層次確定其考核要求。2.按照重要性程度不同,考核內(nèi)容分為重點內(nèi)容、次重點內(nèi)容、一般內(nèi)容,在本課程試卷中對不同考核內(nèi)容要求的分數(shù)比例大致為:重點內(nèi)容占60%,次重點內(nèi)容占30%,一般內(nèi)容占10%。3.課程分為三個主要的部分,分別為數(shù)據(jù)處理篇(前3章)、數(shù)據(jù)分析篇(第4和第5章)、數(shù)據(jù)服務篇(第6章),考試試卷中所占的比例大約分別為:50%、30%和20%,其中數(shù)據(jù)處理篇分為關系數(shù)據(jù)庫查詢優(yōu)化、信息檢索和數(shù)據(jù)管理,在這部分的比例大約分別為:

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論