




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第Python與AI分析時(shí)間序列數(shù)據(jù)目錄簡(jiǎn)介序列分析或時(shí)間序列分析的基本概念安裝實(shí)用軟件包PandashmmlearnPyStructCVXOPTPandas:處理,切片和從時(shí)間序列數(shù)據(jù)中提取統(tǒng)計(jì)數(shù)據(jù)示例處理時(shí)間序列數(shù)據(jù)切片時(shí)間序列數(shù)據(jù)提取來(lái)自時(shí)間序列數(shù)據(jù)的統(tǒng)計(jì)數(shù)據(jù)平均值最大值最小值一次性獲取所有內(nèi)容重新采樣使用mean()重新采樣Re-samplingwithmedian()滾動(dòng)平均值通過(guò)隱馬爾可夫分析順序數(shù)據(jù)模型(HMM)隱馬爾可夫模型(HMM)狀態(tài)(S)輸出符號(hào)(O)狀態(tài)轉(zhuǎn)換概率矩陣(A)觀察發(fā)射概率矩陣(B)先驗(yàn)概率矩陣()
簡(jiǎn)介
時(shí)間序列數(shù)據(jù)表示一系列特定時(shí)間內(nèi)的數(shù)據(jù)間隔.如果我們想在機(jī)器學(xué)習(xí)中構(gòu)建序列預(yù)測(cè),那么我們必須處理順序數(shù)據(jù)和時(shí)間.系列數(shù)據(jù)是順序數(shù)據(jù)的摘要.數(shù)據(jù)排序是序列數(shù)據(jù)的一個(gè)重要特征.
序列分析或時(shí)間序列分析的基本概念
序列分析或時(shí)間序列分析是基于先前觀察到的,在給定輸入序列中預(yù)測(cè)下一個(gè).預(yù)測(cè)可以是下一個(gè)可能出現(xiàn)的任何事情:符號(hào),數(shù)字,次日天氣,下一個(gè)語(yǔ)音等.序列分析在股票市場(chǎng)分析,天氣預(yù)報(bào)和產(chǎn)品推薦等應(yīng)用中非常方便.
示例
請(qǐng)考慮以下示例來(lái)了解序列預(yù)測(cè).這里A,B,C,D是給定值,您必須使用序列預(yù)測(cè)模型預(yù)測(cè)值E.
安裝實(shí)用軟件包
用于時(shí)間序列數(shù)據(jù)分析使用Python,我們需要安裝以下軟件包:
Pandas
Pandas是一個(gè)開(kāi)源的BSD許可庫(kù),提供高性能,易于使用的數(shù)據(jù)結(jié)構(gòu)和Python數(shù)據(jù)分析工具.您可以使用以下命令安裝Pandas:
pipinstallpandas
如果您使用的是Anaconda并希望使用conda包管理器進(jìn)行安裝,那么您可以使用以下命令:
condainstall-canacondapandas
hmmlearn
這是一個(gè)開(kāi)源的BSD-licensed庫(kù),由簡(jiǎn)單的算法和模型組成,用于學(xué)習(xí)Python中的隱馬爾可夫模型(HMM).你可以在以下命令的幫助下安裝它:
pipinstallhmmlearn
如果您使用的是Anaconda并希望使用conda包管理器進(jìn)行安裝,那么您可以使用以下命令:
condainstall-comniahmmlearn
PyStruct
這是一個(gè)結(jié)構(gòu)化學(xué)習(xí),預(yù)測(cè)庫(kù).在PyStruct中實(shí)現(xiàn)的學(xué)習(xí)算法具有諸如條件隨機(jī)場(chǎng)(CRF),最大邊緣馬爾可夫隨機(jī)網(wǎng)絡(luò)(M3N)或結(jié)構(gòu)支持向量機(jī)之類的名稱.你可以借助以下命令安裝它:
pipinstallpystruct
CVXOPT
它用于基于Python編程語(yǔ)言的凸優(yōu)化.它也是一個(gè)免費(fèi)的軟件包.您可以使用以下命令和減號(hào)安裝它;
pipinstallcvxopt
如果您使用的是Anaconda并希望使用conda軟件包管理器進(jìn)行安裝,那么您可以使用以下命令:
condainstall-canacondacvdoxt
Pandas:處理,切片和從時(shí)間序列數(shù)據(jù)中提取統(tǒng)計(jì)數(shù)據(jù)
如果您必須使用時(shí)間序列數(shù)據(jù),Pandas是一個(gè)非常有用的工具.在Pandas的幫助下,您可以執(zhí)行以下:
使用創(chuàng)建一系列日期pd.date_rangepackage使用pd.Series包索引帶有日期的pandas使用ts.resample包進(jìn)行重新采樣更改頻率
示例
以下示例顯示您使用以下方式處理和切片時(shí)間序列數(shù)據(jù)大熊貓.請(qǐng)注意,這里我們使用的是每月北極濤動(dòng)數(shù)據(jù),可以從monthly.ao.index.b50.current.ascii,可以轉(zhuǎn)換為文本格式供我們使用.
處理時(shí)間序列數(shù)據(jù)
對(duì)于處理時(shí)間序列數(shù)據(jù),您必須執(zhí)行以下步驟:
第一步涉及導(dǎo)入以下包:
importnumpyasnp
importmatplotlib.pyplotasplt
importpandasaspd
接下來(lái),定義一個(gè)函數(shù),它將從輸入文件中讀取數(shù)據(jù),如下面給出的代碼所示:
def
read_data(input_file):
input_data
=
np.loadtxt(input_file,
delimiter
=
None)
現(xiàn)在,將此數(shù)據(jù)轉(zhuǎn)換為時(shí)間序列.為此,請(qǐng)創(chuàng)建我們時(shí)間序列的日期范圍.在這個(gè)例子中,我們保留一個(gè)月的數(shù)據(jù)頻率.我們的文件的數(shù)據(jù)從1950年1月開(kāi)始.
dates=pd.date_range('1950-01',periods=input_data.shape[0],freq='M')
在這一步中,我們?cè)赑andas系列的幫助下創(chuàng)建時(shí)間序列數(shù)據(jù),如下圖所示:
output=pd.Series(input_data[:,index],index=dates)
returnoutput
if__name__=='__main__':
輸入輸入文件的路徑,如下所示:
input_file="/Users/admin/AO.txt"
現(xiàn)在,將列轉(zhuǎn)換為時(shí)間序列格式,如下所示:
timeseries=read_data(input_file)
最后,使用顯示和減去的命令繪制和可視化數(shù)據(jù);
plt.figure()
timeseries.plot()
plt.show()
您將觀察到如下圖所示的圖形:
切片時(shí)間序列數(shù)據(jù)
切片只涉及檢索時(shí)間序列數(shù)據(jù)的某些部分.作為示例的一部分,我們僅從1980年到1990年對(duì)數(shù)據(jù)進(jìn)行切片.觀察執(zhí)行此任務(wù)的以下代碼:
timeseries['1980':'1990'].plot()
matplotlib.axes._subplots.AxesSubplotat0xa0e4b00
plt.show()
當(dāng)您運(yùn)行切片時(shí)間序列數(shù)據(jù)的代碼時(shí),您可以將以下圖表視為圖中顯示的是:
提取來(lái)自時(shí)間序列數(shù)據(jù)的統(tǒng)計(jì)數(shù)據(jù)
如果需要得出一些重要結(jié)論,則必須從給定數(shù)據(jù)中提取一些統(tǒng)計(jì)數(shù)據(jù).平均值,方差,相關(guān)性,最大值和最小值是一些此類統(tǒng)計(jì)數(shù)據(jù).如果要從給定的時(shí)間序列數(shù)據(jù)中提取此類統(tǒng)計(jì)數(shù)據(jù),可以使用以下代碼;
平均值
您可以使用mean()函數(shù),用于查找均值,如此處所示:
timeseries.mean()
然后,您將針對(duì)所討論的示例觀察到的輸出是:
-0.11143128165238671
最大值
您可以使用max()功能查找最大值,如下所示:
timeseries.max()
然后,您將針對(duì)所討論的示例觀察到的輸出是:
3.4952999999999999
最小值
您可以使用min()函數(shù)查找最小值,如下所示:
timeseries.min()
然后,您將針對(duì)所討論的示例觀察到的輸出是:
-4.2656999999999998
一次性獲取所有內(nèi)容
如果您想一次計(jì)算所有統(tǒng)計(jì)數(shù)據(jù),可以使用describe()函數(shù),如下所示:
timeseries.describe()
然后,您將針對(duì)所討論的示例觀察到的輸出是:
count817.000000
mean-0.111431
std1.003151
min-4.265700
25%-0.649430
50%-0.042744
75%0.475720
max3.495300
dtype:float64
重新采樣
您可以將數(shù)據(jù)重新采樣到不同的時(shí)間頻率.執(zhí)行重新采樣的兩個(gè)參數(shù)是:
時(shí)間段
方法
使用mean()重新采樣
您可以使用以下代碼使用mean()重新采樣數(shù)據(jù)方法,這是默認(rèn)方法:
timeseries_mm
=
timeseries.resample("A").mean()
timeseries_mm.plot(style
=
'g--')
plt.show()
然后,您可以觀察以下圖表作為重采樣的輸出使用mean():
Re-samplingwithmedian()
您可以使用以下代碼使用median()方法重新取樣數(shù)據(jù):
timeseries_mm
=
timeseries.resample("A").median()
timeseries_mm.plot()
plt.show()
然后,您可以觀察下圖作為重新采樣的輸出,其中位數(shù)為():
滾動(dòng)平均值
您可以使用以下代碼計(jì)算滾動(dòng)(移動(dòng))均值和減去;
timeseries.rolling(window=12,center=False).mean().plot(style='-g')
plt.show()
然后,您可以觀察下圖作為滾動(dòng)的輸出(移動(dòng))mean:
通過(guò)隱馬爾可夫分析順序數(shù)據(jù)模型(HMM)
HMM是一種統(tǒng)計(jì)模型,廣泛用于具有延續(xù)性和可擴(kuò)展性的數(shù)據(jù),如時(shí)間序列股票市場(chǎng)分析,健康檢查和語(yǔ)音反饋gnition.本節(jié)詳細(xì)介紹了使用隱馬爾可夫模型(HMM)分析順序數(shù)據(jù).
隱馬爾可夫模型(HMM)
HMM是一個(gè)隨機(jī)模型這是建立在馬爾可夫鏈概念的基礎(chǔ)上的,該假設(shè)未來(lái)統(tǒng)計(jì)數(shù)據(jù)的概率僅取決于當(dāng)前的過(guò)程狀態(tài)而不是之前的任何狀態(tài).例如,當(dāng)擲硬幣時(shí),我們不能說(shuō)第五次拋擲的結(jié)果將是一個(gè)頭.這是因?yàn)橛矌艣](méi)有任何記憶,下一個(gè)結(jié)果不依賴于之前的結(jié)果.
數(shù)學(xué)上,HMM由以下變量和減號(hào)組成;
狀態(tài)(S)
它是HMM中存在的一組隱藏或潛在狀態(tài).它由S表示.
輸出符號(hào)(O)
它是HMM中存在的一組可能的輸出符號(hào).它由O表示.
狀態(tài)轉(zhuǎn)換概率矩陣(A)
它是從一個(gè)狀態(tài)轉(zhuǎn)換到另一個(gè)狀態(tài)的概率狀態(tài).它由A表示.
觀察發(fā)射概率矩陣(B)
它是在特定狀態(tài)下發(fā)射/觀察符號(hào)的概率.它用B表示.
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年民用航空器維修指示標(biāo)識(shí)標(biāo)準(zhǔn)試題及答案
- 學(xué)習(xí)掌握2025年入團(tuán)考試試題及答案
- 2025年入團(tuán)考試試題及答案心法分享
- 中級(jí)會(huì)計(jì)考試題型分析及準(zhǔn)備試題及答案
- 2025年入團(tuán)考試高分攻略試題及答案
- 壽命延續(xù)與護(hù)理的關(guān)系試題及答案
- 酒店經(jīng)營(yíng)管理中的科技應(yīng)用試題及答案
- 2025年汽車租賃的合同范本
- 2025辦公樓裝修設(shè)計(jì)合同范本
- 2025年轉(zhuǎn)租房合同模板2
- 帶式輸送機(jī)畢業(yè)設(shè)計(jì)論文
- 基礎(chǔ)工程之地基處理培訓(xùn)講義
- 區(qū)域經(jīng)濟(jì)一體化理論課件
- 中級(jí)技工防水工考核試題及答案
- 高水平環(huán)境藝術(shù)設(shè)計(jì)專業(yè)群自評(píng)報(bào)告
- 新店特大橋45#墩水渠改移施工方案打印版
- 急重癥膿毒癥及膿毒性休克患者液體治療
- 山東省鉛酸蓄電池收集和轉(zhuǎn)移管理制度試點(diǎn)工作方案
- 2022年12月大學(xué)英語(yǔ)四級(jí)考試真題及答案(第2套)
- 新型功能材料-漂珠
- GB/T 21632-2008危險(xiǎn)品噴霧劑泡沫可燃性試驗(yàn)方法
評(píng)論
0/150
提交評(píng)論