甲骨文字形動態(tài)描述及其字形生成技術研究_第1頁
甲骨文字形動態(tài)描述及其字形生成技術研究_第2頁
甲骨文字形動態(tài)描述及其字形生成技術研究_第3頁
甲骨文字形動態(tài)描述及其字形生成技術研究_第4頁
甲骨文字形動態(tài)描述及其字形生成技術研究_第5頁
已閱讀5頁,還剩19頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、甲骨文字形動態(tài)描述庫及其字甲骨文字形動態(tài)描述庫及其字形生成技術研究形生成技術研究2012.11.4安陽師范學院安陽師范學院栗青生 甲骨文數(shù)字化工作簡介甲骨文綴合甲骨文綴合圖像處理圖像處理 (中美聯(lián)合智能信息處理實驗室)(中美聯(lián)合智能信息處理實驗室)甲骨文編碼甲骨文編碼字形描述庫字形描述庫 (數(shù)字化甲骨文工程(數(shù)字化甲骨文工程 技術研究中心)技術研究中心)甲骨文考釋甲骨文考釋圖文資料庫圖文資料庫 (中文信息處理實驗室)(中文信息處理實驗室) 甲骨文數(shù)字化工作簡介主要內容1、甲骨文數(shù)字化問題2、甲骨文字形動態(tài)描述庫3、字形生成技術4、應用展望1、甲骨文數(shù)字化問題甲骨文數(shù)字化問題 多年來,在甲骨文數(shù)

2、字化過程多年來,在甲骨文數(shù)字化過程中,一直存在兩個難以解決的中,一直存在兩個難以解決的問題:一是甲骨文難以定形,問題:一是甲骨文難以定形,即甲骨文不像現(xiàn)代漢字,很難即甲骨文不像現(xiàn)代漢字,很難確定每一個甲骨文字的字形結確定每一個甲骨文字的字形結構和類型;二是甲骨文字難以構和類型;二是甲骨文字難以輸入計算機輸入計算機 。 由于過度由于過度“規(guī)范化規(guī)范化”,其中很,其中很多字形已經脫離了原始字形所多字形已經脫離了原始字形所表達的意義,有的還存在著部表達的意義,有的還存在著部件結構和位置的錯誤件結構和位置的錯誤 2、甲骨文字形動態(tài)描述庫例如:甲骨文合集中的第例如:甲骨文合集中的第29529和和2766

3、7片,如果片,如果不利用拼合區(qū)的兩個殘字來綴合,很難說明這兩片不利用拼合區(qū)的兩個殘字來綴合,很難說明這兩片原來是在一起的。原來是在一起的。舉舉 例例3、利用漢字字形描述庫進行殘字綴合和識別字形描述庫的由來 源于對我國古代文化的深入研究。三千多年前,商朝人就知道借助動物的骨頭(龜甲)來計算(占卜)未來,到了周朝,演繹出了舉世聞名的“易經”。 龜甲本身不能計算未來,但通過人工在甲骨上進行鑿洞和灼燒的方法使龜甲產生不同的紋理,可以判斷未來的天氣狀況,我外星人的數(shù)學悖論驚人相似。 數(shù)學悖論:悖論的故事說,外星人可以只在鐵棍上劃一道痕,就可以記錄全人類的知識信息怎么做到的呢?理論上可以用【無理數(shù)】來進行

4、無限的數(shù)據(jù)存儲。 劃痕的長度比例是一個無理數(shù):0.21873619876538173591873561835由于無理數(shù)的小數(shù)點后數(shù)位容量是無限的,故可以用于編碼存儲無限量的信息。關于字形描述庫 字形描述庫是根據(jù)文字計算的需求,按照文字的表征特性,對文字特征進行可行性編輯和編碼后形成的新的數(shù)據(jù)表,從而依據(jù)新的數(shù)據(jù)表對字形進行一系列計算的過程。 目前,我們已經建立了甲骨文字形動態(tài)描述庫、小篆字形動態(tài)描述庫和部分現(xiàn)代漢字的動態(tài)描述庫和漢字字庫的區(qū)別(以甲骨文為例) 甲骨文拓片字庫制作系統(tǒng)字庫字庫編碼方案字形采集輪廓輪廓提取提取字形編輯 字模生成 文字編碼字形字形輸入輸入甲骨文拓片特征提取算法字形采集

5、骨架骨架抽取抽取ddljcr字庫特征庫特征庫字形字形生生成成 字庫的形成及使用 字形描述庫的形成及使用 甲骨文字形動態(tài)描述庫 是我們最早建立的動態(tài)描述庫 使用這一描述庫我們開發(fā)了甲骨文圖文編輯系統(tǒng),開發(fā)了甲骨文特征輸入方法,并生成了刀體甲骨文,軟件筆體甲骨文和曲線體甲骨文等數(shù)十種字形,三體甲骨文三體甲骨文 刀體 軟筆體 曲線體 甲骨文字形描述庫的建立漢字字形描述庫的建立規(guī)則:漢字字形描述庫的建立規(guī)則: (1)漢字描述庫由漢字向量組成。 (2)庫中的每一個字向量由點集和關系組成,其中:字、點集和關系的表達式是: 字:= 其中: p(i)表示特征點元向量集,漢字筆畫的起始、交叉、拐點等都可以成為特

6、征點元向量 q表示特征點元向量集之間的關系,特征點關系有兩種,一是包含(b),二是連接(j)。 筆段筆段:當且僅當p(i)非空,且特征點元向量之間是包含特征點元向量之間是包含關系關系. 筆元筆元:當且僅當p(i)非空,且特征點元向量之間是連接特征點元向量之間是連接關系。特別地,關系。特別地,i=2時時 筆元是特殊筆元,稱孤立筆元。筆元是特殊筆元,稱孤立筆元。舉 例如圖所示的前兩個筆元 第一個筆元:特征點元向量集為 p1,p2 ,p3,p4,p5, b,有四個筆段。 第二個筆元:特征點元向量集為p6, p7, p8, p9, p10, b有四個筆段。 p1p2p3p4p5p6p7p8p9p10筆元的逆向工程筆元的逆向工程筆畫的再生筆畫的再生 由筆畫抽象成筆元從而生成的字形描述庫,在應由筆畫抽象成筆元從而生成的字形描述庫,在應用過程中可以通過筆畫的再生動態(tài)生成漢字庫、用過程中可以通過筆畫的再生動態(tài)生成漢字庫、錯字庫和其它字形庫。錯字庫和其它字形庫。 甲骨文筆元的再生過程示意圖甲骨文筆元的再生過程示意圖4、應用展望使用字形描述庫對甲骨文字進行建模從而實現(xiàn)甲骨文字形的綴合字形動態(tài)描述殘字特征分析、特征匹配、分類、識別輸出殘字字形建模系統(tǒng)應用一: 甲骨文字形查詢系統(tǒng) 輸入殘字的特征

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論