




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
Datastage控件使用指南MACROBUTTONAcceptChangesSelected目錄Datastage 11.引言 12.慣用Stage使用闡明 12.1.SequentialFileStage 12.2.Annotation 52.3.ColumnExportStage 72.4.ChangeCaptureStage 92.5.CopyStage 122.6.FilterStage 132.7.FunnelStage 142.8.TansformerStage 152.9.SortStage 172.10.LookUpStage 182.11.JoinStage 192.12.MergeStage 212.13.ModifyStage 222.14.DataSetStage 232.15.FileSetStage 252.16.LookupFileSetStage 272.17.OracleEnterpriseStage 302.18.AggregatorStage 332.19.RemoveDuplicatesStage 352.20.CompressStage 362.21.ExpandStage 382.22.DifferenceStage 402.23.CompareStage 432.24.SwitchStage 442.25.ColumnImportStage 463.DataStageManager使用 493.1.導(dǎo)入導(dǎo)出Job及其它組件 493.2.管理配備文獻(xiàn) 504.DataStageAdministrator慣用配備 514.1.設(shè)立TimeOut時(shí)間 514.2.設(shè)立Project的屬性 524.3.更新DataStageServer的License和本地Client的License 535.DataStageDirector使用 545.1.察看Job的狀態(tài),運(yùn)行已經(jīng)編譯好的Job 545.2.將編譯好的Job加入計(jì)劃任務(wù) 575.3.監(jiān)控Job的運(yùn)行狀況 58引言DataStageEE的開(kāi)發(fā)重要由DataStageDesigner完畢?,F(xiàn)對(duì)慣用部分加以闡明,具體使用辦法請(qǐng)查閱在線協(xié)助文檔。慣用Stage使用闡明DataStage的基本邏輯解決單位是Job,每個(gè)Job由許多Stage構(gòu)成;由Stage來(lái)完畢對(duì)數(shù)據(jù)的抽取,轉(zhuǎn)換,加載等,現(xiàn)對(duì)慣用的Stage做闡明SequentialFileStage功效特點(diǎn):合用于普通次序文獻(xiàn)(定長(zhǎng)或不定長(zhǎng)),可識(shí)別文本文獻(xiàn)或IBM大機(jī)ebcdic文獻(xiàn)。使用要點(diǎn):按照命名規(guī)范命名點(diǎn)住文獻(xiàn),雙擊鼠標(biāo),在general闡明此文獻(xiàn)內(nèi)容,格式,存儲(chǔ)目錄等修改文獻(xiàn)屬性,文獻(xiàn)名稱,reject方式等到修改文獻(xiàn)格式,例如統(tǒng)計(jì)結(jié)束符是什么,字段分隔符,字符串是用什么區(qū)別等輸入此文獻(xiàn)字段內(nèi)容Annotation功效特點(diǎn):普通用于注釋,可運(yùn)用其背景顏色在job中分顏色區(qū)別不同功效塊使用要點(diǎn):ColumnExportStageStage類型:RestructureStage功效闡明:與ColumnImportStage相反,將多個(gè)類型不同的字段合并成一種string或者binary類型的字段。具體使用方法:StagePage:核心是properties的配備,選擇將哪些字段合并,合并后的新字段在Output下的column中直接定義。InputsPage:對(duì)輸入數(shù)據(jù)字段的描述,這里核心是Format的配備,決定合并后的字段的格式OupputsPage:對(duì)最后合并后的輸出數(shù)據(jù)字段的描述通過(guò)stage的前后數(shù)據(jù)的對(duì)比合并字段后:ChangeCaptureStage功效特點(diǎn):ChangeCaptureStage有兩個(gè)輸入,分別標(biāo)記為beforelink及afterlink。輸出的數(shù)據(jù)表達(dá)beforelink和afterlink的區(qū)別,我們稱作changeset。ChangeCaptureStage能夠和ChangeApplyStage配合使用來(lái)計(jì)算afterset。key及value的闡明key值是比較的核心值,value是當(dāng)key值相似是作進(jìn)一步比較用的。changemode選項(xiàng)闡明:Allkeys,ExplicitValues需要指定value,其它字段為keyExplicitKeys&Valueskey及value都需要指定ExplicitKeys,AllValues需要指定key,其它的字段為value輸出方略闡明DropOutputForCopyFalse:保存before及aftelink中key值相似的行True:刪除before及aftelink中key值相似的行DropOutputForDeleteFalse:保存beforelink中有但是afterlink中沒(méi)有的key值所在的行True:刪除beforelink中有但是aftelink中沒(méi)有的key值所在的行DropOutputForEditFalse:保存key值相似,value不同的行True:刪除key值相似,value不同的行DropOutputForInsertFalse:保存beforelink中沒(méi)有但aftelink中有的key值所在的行True:刪除beforelink中沒(méi)有但aftelink中有的key值所在的行CopyStage功效闡明:CopyStage能夠有一種輸入,多個(gè)輸出。它能夠在輸出時(shí)變化字段的次序,但是不能變化字段類型。注意:當(dāng)只有一種輸入及一種輸出時(shí)最佳將Force設(shè)立為True,這樣能夠在Designer里看到運(yùn)行結(jié)束,否則將無(wú)法標(biāo)記運(yùn)行結(jié)束,但不會(huì)影響運(yùn)行成果數(shù)據(jù)。FilterStage功效闡明:FilterStage只有一種輸入,能夠有多個(gè)輸出。根據(jù)不同的篩選條件,能夠?qū)?shù)據(jù)輸出到不同的outputlink。FunnelStage功效闡明:將多個(gè)字段相似的數(shù)據(jù)文獻(xiàn)合并為一種單獨(dú)的文獻(xiàn)輸出合并方略闡明ContinuousFunnel:從每一種inputlink中循環(huán)取一條統(tǒng)計(jì)SortFunnel:按照Key值排序合并輸出Sequence:先輸出第一種inputlink的數(shù)據(jù),輸出完畢后再輸出第二個(gè)inputlink的數(shù)據(jù),依這類推,直到結(jié)束。(此時(shí)能夠通過(guò)調(diào)節(jié)linkOrdering調(diào)節(jié)輸出次序)TansformerStage功效闡明:一種功效極為強(qiáng)大的Stage。有一種inputlink,多個(gè)outputlink,能夠?qū)⒆侄芜M(jìn)行轉(zhuǎn)換,也能夠通過(guò)條件來(lái)指定數(shù)據(jù)輸出到那個(gè)outputlink。在開(kāi)發(fā)過(guò)程中能夠使用拖拽。Constraint及Derivation的區(qū)別Constraint通過(guò)限定條件使符合條件的數(shù)據(jù)輸出到這個(gè)outputlink。Derivation通過(guò)定義體現(xiàn)式來(lái)轉(zhuǎn)換字段值。在Constraint及Derivation中能夠使用Jobparameters及StageVariables。注意:TransformerStage功效強(qiáng)大,但在運(yùn)行過(guò)程中是以犧牲速度為代價(jià)的。在只有簡(jiǎn)樸的變換,拷貝等操作時(shí),最佳用ModifyStage,CopyStage,F(xiàn)ilterStage等來(lái)替代TransformerStage。SortStage功效闡明:只能有一種輸入及一種輸出,按照指定的Key值進(jìn)行排列。能夠選擇升序還是降序,與否去除重復(fù)的數(shù)據(jù)等等。Option具體闡明AllowDuplicates:與否去除重復(fù)數(shù)據(jù)。為False時(shí),只選用一條數(shù)據(jù),當(dāng)StableSort為True時(shí),選用第一條數(shù)據(jù)。當(dāng)SortUnility為UNIX時(shí)此選項(xiàng)無(wú)效。SortUtility:選擇排序時(shí)執(zhí)行應(yīng)用程序,能夠選擇DataStage內(nèi)建的命令或者Unix的Sort命令OutputStatistics:與否輸出排序統(tǒng)計(jì)信息到j(luò)ob日志StableSort:與否對(duì)數(shù)據(jù)進(jìn)行二次整頓CreateClusterKeyChangeColumn:與否為每條統(tǒng)計(jì)創(chuàng)立一種新的字段:clusterKeyChange。當(dāng)SortKeyMode為Don’tSort(PreviouslySorted)或Don’tSort(PreviouslyGrouped)時(shí),對(duì)于第一條統(tǒng)計(jì)該字段被設(shè)立為1,其它的統(tǒng)計(jì)設(shè)立為0。CreateKeyChangeColumn:與否為每一條統(tǒng)計(jì)創(chuàng)立一種新的字段KeyChange。LookUpStage功效闡明:LookUpStage把數(shù)據(jù)讀入內(nèi)存執(zhí)行查詢操作,將匹配的字段輸出,或者在在符合條件的統(tǒng)計(jì)中修改或加入新的字段。JoinStage功效闡明:將多個(gè)表連接后輸出LookUpStage和JoinStage的區(qū)別LookUpStage將數(shù)據(jù)讀入到內(nèi)存中,因此效率很高,但是占用了較多的物理內(nèi)存。因此當(dāng)referencedata比較小的時(shí)候,我們推薦用LookUpStage;當(dāng)referencedata比較大的時(shí)候,我們推薦用JoinStage。MergeStage功效闡明:將MergeKey值相似的統(tǒng)計(jì)合并。將其中的一種輸入設(shè)定為Master,其它的為Update。把Update中MergeKey相似的統(tǒng)計(jì)合并入Master。ModifyStage功效闡明:Modifystage只能有一種輸入及一種輸出,它能夠修改表構(gòu)造:刪除,保存一種字段;給字段改名;修改字段的數(shù)據(jù)類型。Specification的具體使用方法:刪除一種字段:DROPcolumnname[,columnname]保存一種字段: KEEPcolumnname[,columnname]變化字段:new_columnname[:new_type]=[explicit_conversion_function]old_columnname可用的explicit_conversion_function請(qǐng)參看《ParallelJobDeveloper’sGuide》7DataSetStageStage類型:Filestage功效闡明:從dataset文獻(xiàn)中讀取數(shù)據(jù)或者寫(xiě)數(shù)據(jù)到dataset文獻(xiàn)中,一種DateSetStage只能有一種輸入連接(inputlink)或者一種輸出連接(outputlink)。具體使用方法:涉及StagePage,InputsPage,OutputsPageStagePage普通描述了stage的普通信息,諸如名稱等;InputsPage描述了即要寫(xiě)入信息的dataset文獻(xiàn)的具體信息;重要是Properties和Column的定義Properties中配備了文獻(xiàn)的寄存途徑和更新方略Column具體定義文獻(xiàn)中的各個(gè)字段OutputsPage描述了讀取信息的dataset文獻(xiàn)的具體信息;操作過(guò)程與InputsPage類似。FileSetStageStage類型:Filestage功效闡明:從fileset文獻(xiàn)中讀取數(shù)據(jù)或者寫(xiě)數(shù)據(jù)到fileset文獻(xiàn)中,一種FileSetStage只能有一種輸入連接(inputlink)、一種輸出連接(outputlink)和一種回絕連接(rejectslink)。并且只能在并行模式下執(zhí)行。具體使用方法:StagePage:對(duì)Stage的基本定義InputsPage:重要是Properties和Format的配備Properties的配備:定義文獻(xiàn)的存取途徑及其它讀寫(xiě)的有關(guān)的參數(shù)。特別要闡明的是Options下的RejectMode的選擇,當(dāng)stage有rejectlink的時(shí)候,必須選擇Output;沒(méi)有rejectlink時(shí),可選擇其它兩個(gè)選項(xiàng)。Format的配備:定義了數(shù)據(jù)寫(xiě)到文獻(xiàn)中的格式OutputsPage:對(duì)stage輸出的數(shù)據(jù)字段的描述,另外,rejectlink的輸出系統(tǒng)將默認(rèn),不需要顧客自己定義字段。LookupFileSetStageStage類型:Filestage功效闡明:為執(zhí)行查找操作而創(chuàng)立的參考文獻(xiàn)。作為查找的參考數(shù)據(jù),普通在參考數(shù)據(jù)比較大量或者重復(fù)使用率較高的狀況下,將參考數(shù)據(jù)生成專門的LookupFileSet文獻(xiàn),方便提高查找的效率具體使用方法:StagePageInputsPage:重要定義了查找核心字和寄存途徑等重要信息創(chuàng)立一種LookupFileSet文獻(xiàn):OutputsPage:當(dāng)作為參考數(shù)據(jù)進(jìn)行查找操作時(shí),由于文獻(xiàn)是已經(jīng)生成好的,因此在這里不需要再做具體的定義,只要引入即可。OracleEnterpriseStageStage類型:DatabaseStage功效闡明:從Oracle數(shù)據(jù)庫(kù)中讀取數(shù)據(jù)或者寫(xiě)數(shù)據(jù)到Oracle數(shù)據(jù)庫(kù)中。普通完畢的操作:使用INSERT或UPDATWE命令更新數(shù)據(jù)庫(kù)表裝入數(shù)據(jù)庫(kù)表讀取數(shù)據(jù)庫(kù)表從數(shù)據(jù)庫(kù)表中刪除行在庫(kù)表中直接執(zhí)行查詢操作將庫(kù)表裝入內(nèi)存,然后執(zhí)行查詢操作具體使用方法:InputsPage向數(shù)據(jù)庫(kù)中寫(xiě)數(shù)據(jù),核心是對(duì)Properties的配備OutputsPage:與InputsPage類似,只是完畢的是從數(shù)據(jù)庫(kù)中讀取數(shù)據(jù)。AggregatorStageStage類型:ProcessingStage功效闡明:將輸入的數(shù)據(jù)分組,計(jì)算各組數(shù)據(jù)的總和或者按組進(jìn)行其它的操作,最后將成果數(shù)據(jù)輸出到其它的stage。具體使用方法:StagePage:描述stage的普通信息以及字段的分組信息和選擇分組計(jì)算函數(shù)InputsPage:具體描述輸入數(shù)據(jù)信息,普通直接反映輸入數(shù)據(jù)字段信息OupputsPage:具體描述輸出數(shù)據(jù)信息,即通過(guò)分組計(jì)算后的數(shù)據(jù)字段信息RemoveDuplicatesStageStage類型:ProcessingStage功效闡明:輸入根據(jù)核心字分好類的有序數(shù)據(jù),去除全部統(tǒng)計(jì)中核心字重復(fù)的統(tǒng)計(jì),普通與sortstage配合使用具體使用方法:StagePage:Properties中的key值與之前sortstage的分類key值相似InputsPage:對(duì)輸入數(shù)據(jù)字段的描述OupputsPage:對(duì)輸出數(shù)據(jù)字段的描述CompressStageStage類型:ProcessingStage功效闡明:將dataset文獻(xiàn)壓縮成二進(jìn)制文獻(xiàn)(與expenddatastage相對(duì)應(yīng))具體使用方法:StagePage運(yùn)行成果InputsPage:對(duì)輸入數(shù)據(jù)字段的描述OupputsPage:對(duì)輸出數(shù)據(jù)字段的描述ExpandStageStage類型:ProcessingStage功效闡明:將壓縮的二進(jìn)制文獻(xiàn)解壓縮(解壓縮compressstage生成的壓縮文獻(xiàn))具體使用方法:StagePage運(yùn)行成果:InputsPage:對(duì)輸入數(shù)據(jù)字段的描述OupputsPage:對(duì)輸出數(shù)據(jù)字段的描述DifferenceStageStage類型:ProcessingStage功效闡明:按字段比較兩個(gè)文獻(xiàn),找出不同的統(tǒng)計(jì)。(兩個(gè)文獻(xiàn)before和after,以before為準(zhǔn),與after文獻(xiàn)中的統(tǒng)計(jì)進(jìn)行比較,找出before在after文獻(xiàn)中沒(méi)有或者有的統(tǒng)計(jì))具體使用方法:StagePage比較方略闡明DropOutputForCopyFalse:保存before及aftelink中key值相似的行True:刪除before及aftelink中key值相似的行DropOutputForDeleteFalse:保存beforelink中有但是aftelink中沒(méi)有的key值所在的行True:刪除beforelink中有但是aftelink中沒(méi)有的key值所在的行DropOutputForEditFalse:保存key值相似,value不同的行True:刪除key值相似,value不同的行DropOutputForInsertFalse:保存beforelink中沒(méi)有但aftelink中有的key值所在的行True:刪除beforelink中沒(méi)有但aftelink中有的key值所在的行調(diào)節(jié)before和after的次序:InputsPage:對(duì)輸入數(shù)據(jù)字段的描述OupputsPage:對(duì)輸出數(shù)據(jù)字段的描述CompareStageStage類型:ProcessingStage功效闡明:按字段對(duì)比兩個(gè)已經(jīng)分類的有序的文獻(xiàn)具體使用方法:StagePageInputsPage:對(duì)輸入數(shù)據(jù)字段的描述OupputsPage:對(duì)輸出數(shù)據(jù)字段的描述SwitchStageStage類型:ProcessingStage功效闡明:將文獻(xiàn)按照一定的條件(普通為字段的值)分割成多個(gè)子文獻(xiàn)。具體是將輸入的每一條統(tǒng)計(jì)按照各自符合的條件(核心字的值)分派到不同的輸出(SwitchStage有一種inputlink和多個(gè)outputlink,一種rejectlink,outputlink最多可達(dá)128個(gè);此功效很類似與C函數(shù)中的switch函數(shù))。具體使用方法:StagePage定義分派統(tǒng)計(jì)的核心字及其值InputsPage:對(duì)輸入數(shù)據(jù)字段的描述OupputsPage:對(duì)輸出數(shù)據(jù)字段的
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 南通理工學(xué)院《空間數(shù)據(jù)庫(kù)與數(shù)據(jù)管理》2023-2024學(xué)年第二學(xué)期期末試卷
- 西安市戶縣2024-2025學(xué)年小升初復(fù)習(xí)數(shù)學(xué)模擬試卷含解析
- 天津渤海職業(yè)技術(shù)學(xué)院《管理級(jí)案例》2023-2024學(xué)年第二學(xué)期期末試卷
- 計(jì)算機(jī)科學(xué)基礎(chǔ)知識(shí)2025年考試試卷及答案
- 2025年網(wǎng)絡(luò)安全管理考試試卷及答案
- 西安建筑科技大學(xué)《高等代數(shù)方法》2023-2024學(xué)年第二學(xué)期期末試卷
- 2025年物流管理師考試試題及答案
- 平頂山文化藝術(shù)職業(yè)學(xué)院《中西醫(yī)臨床診療技術(shù)預(yù)防醫(yī)學(xué)》2023-2024學(xué)年第一學(xué)期期末試卷
- 江蘇省南京市玄武區(qū)2025年高三下學(xué)期期末五校聯(lián)考試題含解析
- 內(nèi)蒙古北京八中學(xué)烏蘭察布分校2025屆中考第三次模擬考試物理試題含解析
- 大學(xué)生就業(yè)去向論文
- 2025屆高考語(yǔ)文復(fù)習(xí):2024年新課標(biāo)二卷第九題說(shuō)題 課件
- 2024年鐵總服務(wù)有限公司招聘筆試真題
- 職業(yè)技術(shù)學(xué)院2024級(jí)安全技術(shù)與管理專業(yè)人才培養(yǎng)方案
- 2025天津經(jīng)濟(jì)技術(shù)開(kāi)發(fā)區(qū)管理委員會(huì)招聘雇員(30人)筆試參考題庫(kù)附帶答案詳解
- 工地法律顧問(wèn)合同協(xié)議
- 廣東省清遠(yuǎn)市2025屆普通高中畢業(yè)年級(jí)高三教學(xué)質(zhì)量檢測(cè)物理試卷及答案(二)清遠(yuǎn)二模
- 污水管道疏通試題及答案
- 煤礦安全用電知識(shí)培訓(xùn)課件
- 微專業(yè)課程體系構(gòu)建研究-全面剖析
- 造價(jià)咨詢管理制度體系
評(píng)論
0/150
提交評(píng)論