語料庫基本知識-課件_第1頁
語料庫基本知識-課件_第2頁
語料庫基本知識-課件_第3頁
語料庫基本知識-課件_第4頁
語料庫基本知識-課件_第5頁
已閱讀5頁,還剩38頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

語言分析工具語言分析工具語料庫(corpus,復(fù)數(shù)為corpora)一詞來源于拉丁語,本意為body。一般情況下,語料庫往往指的是一個“電子文本集”(acollectionoftextsstoredinanelectronicdatabase)。真正意義上,語料庫是一個按照一定的采樣標(biāo)準(zhǔn)采集而來的、能夠代表一種語言或者某語言的一種變體或文類的電子文本集。以一個語料庫為數(shù)據(jù)源(datasource)進(jìn)行的研究可以看作是對該語料庫所代表語肓、語言變體或文類的研究,研究所得到的結(jié)論可以推廣到整個語言、語言變體或文類。語料庫語料庫(corpus,復(fù)數(shù)為corpora)一詞來源于拉丁語語料庫(corpus)是語言材料的倉庫,是計算機(jī)進(jìn)行語言檢索、比較、分析等處理的重要基礎(chǔ)。(張普1999)語言學(xué)名詞審定委員會2011年推出的《語言學(xué)名詞》中,對語料庫的定義、作用及應(yīng)用領(lǐng)域的闡述為:

(語料庫是)為語言研究和應(yīng)用而收集的,在計算機(jī)中存儲的語言材料,由自然出現(xiàn)的書面語或口語的樣本匯集而成,用來代表特定的語言或語言變體。經(jīng)過科學(xué)選材和標(biāo)注,具有適當(dāng)規(guī)模的語科庫能夠反映和記錄語言的實(shí)際使用恃況。通過語科庫能夠觀察和把握語言事實(shí),分析和研究語言系統(tǒng)的規(guī)律。語料庫可以應(yīng)用于語言學(xué)理論研究、語言應(yīng)用和語言工程。由此可見,語料庫并不是語言材料的簡單堆砌或隨意集合。而是有著嚴(yán)格要求的有序的語料集合。語料庫語言學(xué)語料庫(corpus)是語言材料的倉庫,是計算機(jī)進(jìn)行語言檢索對語料庫語言學(xué)(corpuslinguistics)的兩種看法:語料庫語言學(xué)是一個獨(dú)立的學(xué)科,它有自己獨(dú)到的理論體系和操作方法。語科庫語言學(xué)并非語言學(xué)的又一個分支學(xué)科,而是一種研究方法,這種方法基于大量的真實(shí)語言,可以用來回答通過其他途徑很難回答的問題,從而極大地豐富已有的研究方法。語料庫語言學(xué)以大量精心采集而來的真實(shí)文本(authentictexts)為研究素材,主要通過概率統(tǒng)計的方法得出結(jié)論,因此語料庫語言學(xué)從本質(zhì)上講是實(shí)證性的(empirical)。語料庫語言學(xué)對語料庫語言學(xué)(corpuslinguistics)的兩種統(tǒng)計語言學(xué)使用概率論、數(shù)理統(tǒng)計等統(tǒng)計學(xué)的方法來對語言進(jìn)行研究。(馮志偉2012)統(tǒng)計語言學(xué)統(tǒng)計語言學(xué)統(tǒng)計語言學(xué)計量語言學(xué)計量語言學(xué)(quantitativelinguistics)以真實(shí)的語言交際活動中呈現(xiàn)的各種語言現(xiàn)象、語言結(jié)構(gòu)、結(jié)構(gòu)屬性以及它們之間的相互關(guān)系作為研究對象,通過概率論、隨機(jī)過程、微分與微分方程、函數(shù)論等數(shù)學(xué)的定量方法(與代數(shù)等數(shù)學(xué)的定性方法相對)對其進(jìn)行精確的測量、觀察、模擬、建模和解釋,尋找語言現(xiàn)象背后的數(shù)理規(guī)律,揭示各種語言現(xiàn)象形成的內(nèi)在原因,探索語言系統(tǒng)的自適應(yīng)機(jī)制和語言演化的動因。(劉海濤2012)計量語言學(xué)計量語言學(xué)計量語言學(xué)計算語言學(xué)“計算語言學(xué)是研究用機(jī)器來處理自然語言的學(xué)科。它是由信息技術(shù)和語言學(xué)交叉而成的”(CuS:1)。SLP沒有直接提出計算語言學(xué)的確切定義。SLP的作者在開篇借用了StanleyKubrick科幻片中的人物HAL,HAL是一個通曉英語的機(jī)器人。作者引入HAL的目的在于說明,為了構(gòu)建這樣一個可與人通過自然語言進(jìn)行交流的機(jī)器人,需要哪些知識和技術(shù):語言理解方面有語音識別和自然語言理解(包括唇讀技術(shù)),表達(dá)方面需要自然語言生成和語音合成,另外HAL也需要信息檢索、信息提取和推理方面的技能。而解決這些問題一般涉及以下學(xué)科:自然語言處理,計算語言學(xué),語音識別和合成。SLP的作者將這三者合起來稱為語音及語言處理,除了以上HAL所用的這些技能外,SLP也囊括了其他重要的語言處理領(lǐng)域,如:拼寫校正、語法檢查和機(jī)器翻譯。計算語言學(xué)計算語言學(xué)計算語言學(xué)聯(lián)系:都是涉及語言學(xué)、數(shù)學(xué)、統(tǒng)計學(xué)以及計算機(jī)科學(xué)等多個學(xué)科和領(lǐng)域,是典型的文理工交叉學(xué)科,具有鮮明的跨學(xué)科研究性質(zhì)。研究對象都是自然語言組成的大規(guī)模語料庫。研究工具都是利用計算機(jī)的軟硬件。研究的理論基礎(chǔ)是數(shù)學(xué)的概率統(tǒng)計知識和語言學(xué)的語音、詞匯、句法、語義、語篇和語用知識。都可以對語言學(xué)的語音、詞匯、句法和語義等層面進(jìn)行統(tǒng)計和研究。四種語言學(xué)的聯(lián)系與區(qū)別聯(lián)系:四種語言學(xué)的聯(lián)系與區(qū)別聯(lián)系:統(tǒng)計語言學(xué)和計量語言學(xué)都是利用統(tǒng)計方法來實(shí)現(xiàn)對語言成分的統(tǒng)計,計量語言學(xué)以發(fā)現(xiàn)語言成分或語言成分間的數(shù)學(xué)規(guī)律為目標(biāo)。而統(tǒng)計語言學(xué)以所統(tǒng)計的語言特征在統(tǒng)計學(xué)上顯著和不顯著為目標(biāo)。語料庫語言學(xué)對大規(guī)模語料庫進(jìn)行詞匯、句法和語義等統(tǒng)計,依據(jù)統(tǒng)計數(shù)據(jù)和實(shí)例上下文對所研究的對象進(jìn)行語言學(xué)層面定性的分析,是定量分析和定性分析的結(jié)合,以研究語言的結(jié)構(gòu)和運(yùn)用為目標(biāo)。計算語言學(xué)以語言結(jié)構(gòu)的理解與生成為研究目標(biāo),以統(tǒng)計和規(guī)則為基本研究方法。計算語言學(xué)的統(tǒng)計模型——隱馬爾科夫模型、最大熵模型、條件隨機(jī)場模型等和實(shí)現(xiàn)算法更復(fù)雜。四種語言學(xué)的聯(lián)系與區(qū)別聯(lián)系:四種語言學(xué)的聯(lián)系與區(qū)別對“詞”的定義,語言學(xué)界一直很難達(dá)成共識。我們暫且撇開語義問題,考慮一下當(dāng)一個句子里出現(xiàn)兩個it,它們應(yīng)該被視作一個詞還是兩個詞呢?形符(token)類似于我們?nèi)粘Uf的“詞”(如一篇300詞的作文)。句子AcomputeralmostnecessarilyhasaKeyboardandamonitor中共有10個形符(即A,computer,almost,necessarily,has,a,Keyboard,and,a,monitor)。這看起來似乎沒有什么歧義,但是我們?nèi)匀恍枰紤]it’s是一個形符還是兩個形符。語料庫語言學(xué)中一般的處理方法是,對it’s,can’t等縮略詞進(jìn)行切分,使其成為it和’s兩個成分(can’t切分為ca和n’t兩個成分),這一過程被稱作為分詞(tokenization)。換言之,語料庫語言學(xué)中一般將it’s視作為兩個形符。總形符數(shù)是語料庫容量的最常用的測量單位。如英國英國國家語料庫約有1億詞,說的就是該語料庫中包含有約1億個形符。分詞—詞、形符、類符、類符/形符比對“詞”的定義,語言學(xué)界一直很難達(dá)成共識。我們暫且撇開語義問形符:在處理英語時,較為通用的做法是,把所有的單詞視為“形符”。這里說的形符,大概有這樣幾種類型:1、全部由英語字母構(gòu)成(如computer由8個英文字母構(gòu)成)2、由數(shù)字或數(shù)字和字母構(gòu)成(如3、1985、21th、3D等)3、除了數(shù)字和/或字母之外,還帶有連字符(-)4、帶有英語26個字母之外的外來字母(如德語中的音變)5、部分符號(如&、$等)。統(tǒng)計形符時,我們通常不把標(biāo)點(diǎn)符號(如逗號、句號等)包括在內(nèi),但這一點(diǎn)有例外,如數(shù)字3.1415925和整數(shù)的千分位分隔符(如100,000)中的逗號等。為了便于統(tǒng)計,對英語進(jìn)行分詞時通常在以上我們所說的“形符”后加空格,使得他們與文本中的其他形符或符號分離開來。分詞—詞、形符、類符、類符/形符比形符:在處理英語時,較為通用的做法是,把所有的單詞視為“形類符(type)作為一個統(tǒng)計量,指語料庫文本中任何一個獨(dú)特的詞形(wordform)。換言之,在一個文本中,重復(fù)出現(xiàn)的形符只能記作一個類符。以美國作家GertrudeStein的作品SacredEmily中的詩句Roseisaroseisaroseisarose.為例,這句中:共有10個形符,而類符只有3個(即rose,is,a)。據(jù)此,我們可以計算這個句子的類符/形符比(type-tokenratio,TTR,又稱為形次比或類形比),即 TTR=(3/10)*100%=30%類符/形符比是衡量文本中詞匯密度(lexicaldensity)的常用方法。然而由于文本中有大量的功能詞(如the、a、of等)反復(fù)出現(xiàn),文本越大,形符量越大,但類符量卻不會等量增加。文本越長,功能詞重復(fù)的次數(shù)也就越多,類符/形符比也就會越低。因此,如果采用類符/形符比來計算長度不等的文本的詞匯密度就顯得很不合理。常用的補(bǔ)救方法是用標(biāo)準(zhǔn)化類符/形符比(standardizedtype-tokenratio)來計算詞匯密度。計算方法是:計算每個文本每1000詞的類符/形符比。分詞—詞、形符、類符、類符/形符比類符(type)作為一個統(tǒng)計量,指語料庫文本中任何一個獨(dú)特的所謂分詞(tokenization),指將一連串的字符轉(zhuǎn)換成相互分離、容易識別的形符(tokens)的過程。在文本采集的過程中,由于文本來源不一,格式各異,文本內(nèi)部存在很大的不一致性,如果不進(jìn)行分詞處理,一來容易導(dǎo)致檢索困難,二來可能會使得語料庫的頻率統(tǒng)計出現(xiàn)誤差,還可能會影響語料庫的標(biāo)注和后期加工。分詞—詞、形符、類符、類符/形符比所謂分詞(tokenization),指將一連串的字符轉(zhuǎn)換漢語的分詞比英語要復(fù)雜的多。詞與詞之間連寫,沒有空格。對漢語“詞”的理解眾說紛紜。分詞漢語的分詞比英語要復(fù)雜的多。分詞軟件filelist.ini,修改分詞文件目錄路徑批處理分詞軟件分詞軟件分詞軟件分詞語料庫屬性語料庫屬性語料庫屬性語料庫屬性語料庫屬性語料庫屬性語料庫屬性語料庫屬性語料庫分析索引,又稱為“語境中的關(guān)鍵詞”語料庫分析索引,又稱為“語境中的關(guān)鍵詞”語料庫分析語料庫分析語料庫分析語料庫分析語料庫分析語料庫分析語料庫分析語料庫分析語料庫分析語料庫分析語料庫分析語料庫分析語料庫分析語料庫分析語料庫分析語料庫分析語料庫分析語料庫分析語料庫分析語料庫分析ConcordanceConcordancePlotFileViewWordClusterN-GramsCollocatesWordListKeywordListAntConc-語料庫分析軟件ConcordanceAntConc-語料庫分析軟件AntConc-Concordance索引,又稱為語境中的關(guān)鍵詞AntConc-Concordance索引,又稱為語境中的關(guān)AntConc-ConcordancePlot索引定位AntConc-ConcordancePlot索引定位AntConc-FileViewAntConc-FileViewAntConc-WordCluster詞簇表,又稱詞塊,詞匯短語,短語結(jié)構(gòu)等等??稍O(shè)定長度。AntConc-WordCluster詞簇表,又稱詞塊,詞AntConc-N-GramsAntConc-N-GramsAntConc-Collocates搭配。AntConc-Collocates搭配。AntConc-WordList詞表。詞頻表。AntConc-WordList詞表。詞頻表。AntConc-Wo

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論