漢語詞匯統(tǒng)計研究_第1頁
漢語詞匯統(tǒng)計研究_第2頁
漢語詞匯統(tǒng)計研究_第3頁
漢語詞匯統(tǒng)計研究_第4頁
漢語詞匯統(tǒng)計研究_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、PAGE 1PAGE 6漢語詞匯統(tǒng)計研究王惠新加坡國立大學中文系 HYPERLINK mailto:.sg .sg1、詞匯統(tǒng)計概說詞匯統(tǒng)計研究是漢語詞匯學的一個重要方面,它可以通過對漢語詞匯的各種現(xiàn)象的量的描述得出質(zhì)的評價,從而揭示漢語詞匯的各種統(tǒng)計特性。這種統(tǒng)計研究可以由人來做,也可以由計算機來做。從詞匯研究的角度來看,詞匯統(tǒng)計研究已有很長的歷史了。古印度語言學家在研究婆羅門教的經(jīng)典吠陀經(jīng)時,就進行過單詞數(shù)目的統(tǒng)計。1898年德國學者F.W.Kaeding編制了世界上第一部頻率詞典德語頻率詞典。1944年,英國數(shù)學家G.U.Yule發(fā)表了文學詞

2、語的統(tǒng)計研究,大規(guī)模地使用概率和統(tǒng)計方法來研究語言。1949年,法國學者R.Michea提出建立“統(tǒng)計詞匯學”。1965年,德國學者R.D.Keil把詞頻統(tǒng)計與現(xiàn)代統(tǒng)計學結(jié)合起來,提出了“詞匯計量學(lexicometric)”。近40年來,由于語言統(tǒng)計研究中廣泛地采用計算機,逐漸改變了傳統(tǒng)的手工查頻、手工統(tǒng)計的辦法,提高了統(tǒng)計的效率和精度,詞匯統(tǒng)計學在國際上有了巨大的發(fā)展。我國也早在20世紀20年代就進行過漢語詞匯的統(tǒng)計研究。70年代末以來,我國開始利用計算機進行漢語詞匯的統(tǒng)計研究,除了統(tǒng)計字、詞頻度以外,還以此為基礎建立了漢語的語料庫,編制了各種頻率詞典、詞表,并對現(xiàn)代漢語的常用字、常用詞

3、、構(gòu)詞規(guī)則等進行了多方面的研究,取得了可觀的成績。2、二三十年代的漢語基本詞匯統(tǒng)計 在漢語教學中,究竟應該選擇哪些字最先教給學生?哪些字是最常用的?哪些是次常用的?一個人至少要掌握多少字,才可以完成基本的閱讀與寫作?所有這些,無疑是語文教學首先就遇到的問題。因此,編選常用字表給學生學習使用就成了中國語文教育的傳統(tǒng)。千字文(1000字)、三字經(jīng)(1248字)是古代漢語教學的重要模式。我國第一個進行現(xiàn)代意義上的字頻統(tǒng)計分析,是語言學家黎錦熙在1922年發(fā)表的國語基本語詞的統(tǒng)計研究(國文學會叢刊1卷1號)。其后,教育學家陳鶴琴根據(jù)6類材料55萬漢字,歷時兩三年,選出了4261常用字,1928年6月完

4、成了語體文應用字匯。此外,王文新也編寫過小學分級字匯研究一書。1934年,彭仁山對三民主義用詞作了一些統(tǒng)計與分析彭仁山,三民主義用詞統(tǒng)計與分析,教育研究第52期,1934年。1946年,四川省教育科學院頒發(fā)了常用字選,收錄2000個字。 這些統(tǒng)計都是手工查頻,材料零星分散,而且統(tǒng)計單位只限于漢字。3、五六十年代常用字詞的統(tǒng)計 建國以后為了推廣普通話、普及文化知識,首先就要編寫識字教材。為了避免漢語教學大綱設計和教材編寫的主觀盲目性,提高教學效率,中央人民政府和各省的教育部門都很重視對漢語常用字詞的統(tǒng)計,陸續(xù)公布了一些基于頻度統(tǒng)計的字表和詞表,如:常用漢字登記表(1017字)1950年9月,中央

5、人民政府教育部社會教育司常用字表(2000字) 1952年6月,中央人民政府教育部普通話常用字表(3000字)1958年8月,山東省教育廳普通話三千常用詞表(3000詞)1962年,中國文字改革委員會外國學生用四千詞表(4000詞)1964年,北京語言學院常用字表(3100字) 1965年3月,北京市教育局 本階段的詞匯統(tǒng)計工作基本上都是面向初級的語文教學,常用字的字頻手工統(tǒng)計,占了絕對優(yōu)勢。詞頻統(tǒng)計剛剛開始,而且規(guī)模一般比較小。統(tǒng)計結(jié)果也只是用來編寫常用字表或詞表,相關的詞匯研究尚未真正展開。4、 七八十年代利用計算機進行的大規(guī)模詞頻統(tǒng)計 70年代中期以來,隨著計算機處理非數(shù)值信息技術的日益

6、提高,語言教學與研究中開始利用計算機作為輔助工具。漢語詞匯統(tǒng)計也擺脫了傳統(tǒng)的手工查頻,逐漸采用人機結(jié)合的辦法,利用計算機進行自動統(tǒng)計分析,提高了統(tǒng)計的效率和規(guī)模,而且統(tǒng)計單位也從字擴展到了詞。漢語詞匯統(tǒng)計研究提高到一個新的水平。4.1 字頻統(tǒng)計19751976年,北京新華印刷廠等19個單位發(fā)動了1500名中學生對出版物中的2162萬字的材料進行統(tǒng)計,編成漢字頻率表。這是我國利用手工查頻規(guī)模最大的一次字頻統(tǒng)計。1976年12月,中國“七四八”工程查頻組首次利用計算機對漢字的頻度進行統(tǒng)計,根據(jù)對2100余萬字的語料的統(tǒng)計結(jié)果,得出現(xiàn)代漢字綜合使用頻度表,其中包含常用字4152個,為中文信息處理的國

7、家標準GB2312-80信息交換用漢字編碼字符集基本集提供了科學的基礎數(shù)據(jù)。1976年,武漢大學語言自動處理研究組在RD-11計算機上,也曾對駱駝祥子進行字頻統(tǒng)計,計算出該書總字數(shù)為107306個,單字2413個,在一定程度上揭示了該書用字的特點。1982年11月,國家標準局給北京航空航天大學等10個單位下達了“現(xiàn)代漢語詞頻統(tǒng)計工程”的任務,后來,北航又受中國文字改革委員會的委托,利用HP-3000計算機,從3億漢字的素材中抽取了1108萬字的樣本進行統(tǒng)計,1985年3月,工程完成,通過了國家鑒定。統(tǒng)計結(jié)果編成現(xiàn)代漢語用字頻度表,其中包括以下十種用字頻度表:文體生活、歷史哲學、政治經(jīng)濟、新聞報

8、道、文學藝術、建筑運輸、農(nóng)林牧漁、輕工業(yè)、重工業(yè)、基礎知識用字頻度頻度表。這是我國規(guī)模最大、分科最多的一次字頻統(tǒng)計工作,并首次進行了多音字統(tǒng)計。在此基礎上,1988年,國家語言文字工作委員會漢字處制定了現(xiàn)代漢語常用字表,它把漢字的使用頻率與該字在各個學科中的分布情況綜合起來考慮,從19281986年的不同學科的語料中,選取使用頻度高、學科分布廣、構(gòu)詞能力強的2500字作為常用字,頻率及使用度次之的1000個字則定為次常用字。山西大學計算機系通過抽樣統(tǒng)計200萬字的語料對該字表進行檢測,發(fā)現(xiàn)這2500個常用字覆蓋率可達到97.97%,1000個次常用字覆蓋率達1.51%,合計(3500字)覆蓋率

9、達99.48%,效果令人滿意。4.2 詞頻統(tǒng)計 由于書面漢語不是按詞分寫的,而是以漢字為單位逐個書寫的,詞與詞之間的界限以及詞和語素、詞組的劃分,都缺少明顯的依據(jù)。詞的定義成為長期以來困擾著漢語詞匯學界的一道難題。因此,漢語大規(guī)模的統(tǒng)計研究多年來一直停留在以字為單位的階段上。比起常用字來,常用詞的統(tǒng)計起步晚,難度更大。直到80年代以后,隨著漢語詞匯研究的深入和中文信息處理技術的進步,我國在詞頻統(tǒng)計方面才開始大規(guī)模地開展工作。進行詞頻統(tǒng)計,首先要從連續(xù)的漢字串中把詞且分出來。切詞的方式有人工切詞和計算機自動切詞兩種。在現(xiàn)有的詞頻統(tǒng)計中,大多數(shù)采用人工切詞,憑借人的詞匯、語法知識和對上下文的理解,

10、使詞與詞只間留出空白。從1979年末至1986年,北京語言學院語言教學研究所把“現(xiàn)代漢語詞匯統(tǒng)計研究”列為重點項目,對不同體裁的200萬字語料進行了人工切詞和抽樣統(tǒng)計,不僅對詞頻進行統(tǒng)計,而且同時兼顧字頻、組詞能力和詞長的統(tǒng)計分析。統(tǒng)計結(jié)果分別列成:按音節(jié)排列的頻率詞表;使用度最高的前8000詞詞表;頻率最高的前8000詞詞表;使用度最低的詞語單位表;按報刊政論、科普書刊、日??谡Z、文學作品分別列出的頻率最高的4000詞表(4個表);按遞降順序排列的漢字頻率表;漢字在詞首、詞間和詞末的構(gòu)詞能力分析;其它附表。該項目的成果編成現(xiàn)代漢語頻率詞典一書出版。這是我國最早的一部字詞統(tǒng)計兼顧的頻率辭典。統(tǒng)

11、計結(jié)果具有很高的客觀性、準確性 李兆麟,漢語計量研究初探,辭書研究1986年第4期。此外,該項目組成員還與中國社會科學院語言研究所合作,統(tǒng)計了全國中小學統(tǒng)一使用的十年制語文課本,出版了漢語詞匯的統(tǒng)計與分析。他們發(fā)現(xiàn),總字520934個字的課本中共包含的不同的詞18177個,平均詞長為1.98個漢字。頻率最高的1000詞,共出現(xiàn)278448次,占全部語料詞次總數(shù)的74%強。這些詞由731個漢字組成,其中頻率最高的前10個是“的、一、了、我、是、在、不、們、人、有”,它們占全部語料總字數(shù)的14.9%,前100個漢字占全部語料總字數(shù)的41.1%,731個漢字全部語料總字數(shù)的63.9%,其常用程度和重

12、要性顯而易見。基于這些數(shù)據(jù),課題組對731個漢字的構(gòu)詞能力進行了進一步的研究。他們還根據(jù)不同音節(jié)的詞的數(shù)量與覆蓋率的對比提出:在靜態(tài)的環(huán)境中,單音節(jié)詞占的比例較小,但在使用語言的動態(tài)過程中,單音節(jié)詞所占的比例則比雙音節(jié)的比例大得多。這為漢語詞匯教學和研究提供了有價值的基礎資料。北京師范大學現(xiàn)代化教育技術研究所,也利用計算機進行了中小學教材的詞頻統(tǒng)計工作。在對106.8萬的語料人工切詞的基礎上,建立了一個含有39601個詞的頻度詞表。在704841個總詞次中,單音節(jié)詞占52.7%,雙音節(jié)詞占43.8%,三音節(jié)詞占2.6%,四音節(jié)以上的詞占0.9%??梢姡谡Z言使用過程中,單音節(jié)詞仍比雙音節(jié)詞占優(yōu)

13、勢。這一階段中,規(guī)模最大的漢語詞頻統(tǒng)計應是1982年國家標準局下達的“現(xiàn)代漢語詞頻統(tǒng)計工程”項目,由北航等10家單位聯(lián)合攻關,從19191982年的社會科學和自然科學的3億漢字的材料中抽樣2500萬字的語料,分時期、分學科地進行詞頻統(tǒng)計。統(tǒng)計結(jié)果為漢語自動切詞、漢語標準詞庫、電子辭典等一系列語言工程奠定了重要基礎??傊?0年代可以說是我國的字頻統(tǒng)計由小到大、詞頻從無到有、并取得輝煌成就的時代。“漢語詞匯統(tǒng)計研究所得出的各種成果,不僅為編制基本詞庫、通用詞庫、專用詞庫等提供科學、可靠的語料基礎,而且因相關影響而帶動的語音、口語、句法、文字等方面的統(tǒng)計研究成果也將為編出相應的正音詞典、正字詞典、

14、口語詞典、句法詞典等工具書創(chuàng)造了可能性。從而推動語言學理論研究和詞典學研究的深入發(fā)展 常寶儒,關于現(xiàn)代漢語頻率詞典的編纂問題,辭書研究1986年第4期”。5、九十年代基于統(tǒng)計的詞匯研究 進入九十年代以后,漢語的詞匯統(tǒng)計一個顯著的變化是,不再僅僅只是為編制詞表而進行常用字詞的統(tǒng)計,而是利用統(tǒng)計的成果,針對某一專題展開多方面的深入細致的漢語詞匯計量研究,如劉英林、宋紹周(1992)在現(xiàn)代漢語常用字表的基礎上,針對對外漢語教學的需要,進行了漢語常用字詞的統(tǒng)計分級研究 劉英林、宋紹周,漢語常用字詞的統(tǒng)計與分級,中國語文1992第3期。下面我們分為4個方面來詳細介紹:5.1 漢語語素的定量研究 1984

15、年,尹斌庸對漢字頻度表中累積頻率99.94%以上的4200字逐個分析,得出單音節(jié)語素4871個。他從詞性、獨立性、構(gòu)詞能力三個方面對這4871個語素進行手工定量分析。結(jié)果發(fā)現(xiàn),名語素占41%、動語素占38%,形語素占13%,三者占總數(shù)的92%,是語素的主體部分。在獨立語素中,動語素占48%,遙遙領先。名語素占29%,形語素占10%,其他8類語素僅占13%。另外,將近一半(49%)的單音節(jié)語素可以獨立使用。名、動、形三類語素的平均構(gòu)詞力按大小順序排列是:名18.8,形17.1,動14.0 尹斌庸,漢語語素的定量研究,中國語文1984年第6期。1994年清華大學計算機系利用計算機建立了一個大規(guī)模的

16、數(shù)據(jù)庫,“它對覆蓋漢語的6763個常用字的漢語語素及其所構(gòu)成的二字詞、三字詞、四字詞進行了窮舉描述。在漢語語素數(shù)據(jù)庫中共有語素項17470個,語素10442個,二字詞78230個,三字詞6700個,四字詞14200個。這個數(shù)據(jù)庫共有116600條記錄 苑春法,黃昌寧,基于語素數(shù)據(jù)庫的漢語語素機構(gòu)詞研究,世界漢語教學,1998年第2期”。 統(tǒng)計數(shù)據(jù)表明,在這10442個語素中,單字語素有9712個,占總數(shù)的93%,二字及二字以上的語素為730個,占7%。成詞語素2878個,半成詞語素432個,待界定語素1148個。由這些語素構(gòu)成的二字詞共43097個,其中名詞22016個,占51.1%,動詞15

17、666個,占36.4%,形容詞3276個,占7.6%,三類詞占二字詞總數(shù)的95%。但無論是名詞、動詞還是形容詞,絕大多數(shù)語素在構(gòu)詞時意義都保持不變,所占比例分別為:87.8%、93.2%、87.0%。5.2 漢語構(gòu)詞規(guī)則的定量研究80年代中期,北京語言學院在對200萬字語料進行詞頻統(tǒng)計的同時,對每個漢字在詞首、詞間和詞末的構(gòu)詞能力也分別做了統(tǒng)計分析。這是我國第一次用精確的數(shù)據(jù)反映出漢字處于不同位置的構(gòu)詞能力的系統(tǒng)。計算機根據(jù)這些數(shù)據(jù)可以自動編成構(gòu)詞詞典。1994年清華大學計算機系以10442個語素的屬性描述為基礎,對漢語二字復合詞的構(gòu)造規(guī)則進行了統(tǒng)計分析。由這些語素構(gòu)成的二字詞共43097個,

18、其中,名詞占51.1%,動詞占36.4%,形容詞占7.6%。通過進一步的統(tǒng)計分析,發(fā)現(xiàn)這三類詞各有不同的構(gòu)詞規(guī)律。名詞的主要構(gòu)詞方式是定中式和聯(lián)合式,約占二字名詞的90%。其中,“名+名”構(gòu)成的定中式數(shù)量最多,占46.7%,“形+名”構(gòu)成的定中式次之,占20.6%,再次是“動+名”構(gòu)成的定中式和“名+名”構(gòu)成的聯(lián)合式。如果只從構(gòu)詞成分的詞性來看,“X+名”構(gòu)成名詞的最多,占89.8%,其中“名+名”占57.2%。動詞的主要構(gòu)詞方式為聯(lián)合式、述賓式和狀中式,占總數(shù)的90.1%。主要的類序為:“動+動”占44.7%,“動+名”占34.1%,“形+動”占7.2%,合計占96%。形容詞的主要詞方式為聯(lián)

19、合式,占62.5%。主要的類序是“形+形”,占67.3%。其他的類序都很少。 1997年,北京語言文化大學完成了“漢語構(gòu)詞基本字的統(tǒng)計分析 張凱,漢語構(gòu)詞基本字的統(tǒng)計分析,語言教學與研究1997年第1期”課題。該項目以國家語委和國家教委1988年公布的現(xiàn)代漢語常用詞表中的3500個漢字為基礎,首先找出現(xiàn)代漢語詞典、現(xiàn)代漢語詞典補編、新詞新語詞典(李行健主編,語文出版社,1989)中由這3500字構(gòu)成的詞條70343個,其中包括單音節(jié)詞4555個,雙音節(jié)詞496415個,三音節(jié)詞8308個,四音節(jié)詞6922個,五音節(jié)詞702個,六音節(jié)詞215個。然后對每個漢字的構(gòu)詞次數(shù)及位置進行統(tǒng)計分析,得到“

20、漢字構(gòu)詞統(tǒng)計表”和“漢字構(gòu)詞手冊”兩份材料,并根據(jù)構(gòu)詞率的大小,把3500個常用字劃分為5個等級,確定其中的1056個字為漢語的構(gòu)詞基本字。這種對漢語構(gòu)詞規(guī)則的大規(guī)模的統(tǒng)計分析,不僅有助于解決中文信息處理中的未定義詞識別,而且為漢語構(gòu)詞法研究提供了一個更加客觀的基礎。5.3 漢語詞匯地域分布的定量研究19911997年,香港理工大學中文及雙語學系歷時6載,完成了中國大陸、臺灣、香港漢語詞庫,從19901992年的大陸、臺灣和香港的報刊中選取600萬字的語料,共有60811個漢語詞條,進行詞頻、覆蓋率、使用度的統(tǒng)計分析。這是迄今為止已經(jīng)完成的語料地域分布涵蓋整個漢語文化圈的第一個漢語語料庫。陳瑞

21、端、湯志祥(1999)以此為基礎,通過檢索和統(tǒng)計,對90年代通行于“兩岸三地”的漢語詞匯進行了定量分析 陳瑞端、湯志祥,九十年代漢語詞匯地域分布的定量研究,語言文字應用1999年第3期。從地域角度來看,京、臺、港三個語言圈是彼此相互交叉的,三地共用的“三區(qū)域共同詞語”應該認為是當代漢語詞語的共同底層,而某兩個區(qū)域里通行的“雙區(qū)域通用詞語”應是“共同底層”的外延,是共同詞語的直接補充部分。僅在某一區(qū)域內(nèi)使用的“單區(qū)域獨用詞語”,是京、臺、港三地之中各自表層的部分,是共同詞語的預備補充。統(tǒng)計結(jié)果表明,當代漢語詞語雖然存在著地域差異,但“三區(qū)域共同詞語”無論在數(shù)量上(占90%)、使用頻度上(集中于高頻段與中頻段)、覆蓋率上(達到95%)都占了絕對優(yōu)勢。“雙區(qū)域通用詞語”和“單區(qū)域獨用詞語”不到總數(shù)的10%,而且大都集中于低頻段。所以說,京、臺、港三個區(qū)域詞語的相同之處仍是主流,并可以進行如下分級:甲級詞(最常用詞) 1200個,乙級詞(次常用詞)2500個,丙級詞(常用詞)2500個,丁級詞(通用詞)6500個?!叭齾^(qū)域共同詞語”的高頻

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論