




已閱讀5頁,還剩56頁未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
畢業(yè)設(shè)計(jì)說明書手寫體數(shù)字識別的軟件設(shè)計(jì)電子與計(jì)算機(jī)科學(xué)技術(shù)學(xué)院學(xué)生姓名: 學(xué)號: 計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)學(xué) 院: 專 業(yè): 指導(dǎo)教師: 2009年 6月手寫體數(shù)字識別的軟件設(shè)計(jì) 摘 要手寫體數(shù)字識別是利用機(jī)器或計(jì)算機(jī)自動(dòng)辨認(rèn)手寫體阿拉伯?dāng)?shù)字的一種技術(shù),是光學(xué)字符識別技術(shù)的一個(gè)分支。由于阿拉伯?dāng)?shù)字的世界通用性,并且數(shù)字的識別和處理也常常是一些自動(dòng)化系統(tǒng)的核心和關(guān)鍵,所以對手寫體數(shù)字識別研究通用性強(qiáng),且意義重大。本文主要的研究的工作集中在圖像預(yù)處理和選擇合適的特征向量,并實(shí)現(xiàn)一個(gè)完整手寫體數(shù)字識別系統(tǒng)。本文中對幾種常見的二值化算法進(jìn)行比較,并最終選擇基于梯度的二值化算法;在本文中,提出了一種方法來解決結(jié)構(gòu)點(diǎn)檢測的傳統(tǒng)方法的缺陷。另外本文還提出將一般用來直接識別字符的凸凹特征作為字符的特征向量之一。通過對NIST的數(shù)據(jù)進(jìn)行測試,實(shí)驗(yàn)數(shù)據(jù)表明本文設(shè)計(jì)的數(shù)字識別系統(tǒng)對手寫體數(shù)字識別具有較高的識別率。關(guān)鍵詞:手寫體數(shù)字識別,特征向量,二值化算法,凸凹特征The Software Design of Handwritten Numeral Recognition AbstractThe handwritten numeral recognition is a technology, which auto recognizes the handwriting Arabian numeral via machines or computers, and a special field in the Optical Character Recognition technology. Then handwritten numeral recognition research is greatly general-purpose and significative, because of the universal Arabic numerals. On the same score, the handwritten numeral, recognition technologies are playing an important role in a number of automatization systems.In this paper, the main study focused on image pre-processing and selection of appropriate feature vectors, and to realize a complete system of handwritten numeral recognition. There are several common comparisons of binarization algorithm in this article, and choose the gradient-based binarization algorithm finally; and objecting to the defection of traditional methods of structural point detection, a solution to the problem was put up in this article. In addition, this paper also raises the convex-concave feature as one of the character feature vectors.Through the NIST test data, experimental data shows that the digital identification system designed for handwritten numeral recognition has a high recognition rate.Keywords: Handwritten numeral recognition, Character feature vectors, Binarization algorithm, Convex-concave feature目 錄1 緒論11.1 字符識別概述11.2 手寫數(shù)字識別的意義和應(yīng)用前景21.3 字符識別的研究與發(fā)展31.4 手寫數(shù)字識別的難點(diǎn)31.5 國內(nèi)外研究現(xiàn)狀41.6 手寫體數(shù)字識別系統(tǒng)概述51.7 本文內(nèi)容安排62 手寫體數(shù)字識別中預(yù)處理技術(shù)82.1 平滑去噪82.2 二值化102.3 歸一化162.4 傾斜校正202.5 細(xì)化223 手寫體數(shù)字識別中串切分技術(shù)253.1 切分方法概述253.2 手寫數(shù)字串常用方法簡介253.2.1 投影法的直線切分253.2.2 滴水算法263.2.3 動(dòng)態(tài)規(guī)劃算法263.2.4 滑動(dòng)窗口法263.2.5 多模具切分法263.3 本文手寫數(shù)字串切分方法介紹274 手寫體數(shù)字識別中特征值提取技術(shù)294.1 特征提取概述294.2 手寫體字符特征提取方法概述304.3 手寫體數(shù)字識別中的結(jié)構(gòu)特征提取324.3.1 結(jié)構(gòu)點(diǎn)特征324.3.2 穿越密度特征344.3.3 投影特征354.4 手寫體數(shù)字識別中的統(tǒng)計(jì)特征提取364.4.1 重心矩特征364.4.2 粗網(wǎng)格特征364.4.3 水平、垂直投影特征374.4.4 環(huán)凸凹特征384.4.5 全局Kirsh邊緣方向特征395 人工神經(jīng)網(wǎng)絡(luò)分類器415.1 人工神經(jīng)網(wǎng)絡(luò)概述415.2 BP神經(jīng)網(wǎng)絡(luò)概述425.3 本文的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)446 系統(tǒng)實(shí)現(xiàn)與結(jié)果分析476.1 系統(tǒng)實(shí)現(xiàn)476.1.1 系統(tǒng)實(shí)現(xiàn)環(huán)境476.1.2 系統(tǒng)處理過程圖476.2 結(jié)果分析487 結(jié)束語50附錄:NIST樣本庫的文件結(jié)構(gòu)51參 考 文 獻(xiàn)52致 謝541 緒論1.1 字符識別概述光學(xué)字符識別(Optical Character Recognition,簡稱OCR)是20世紀(jì)20年逐步發(fā)展起來的一門自動(dòng)化技術(shù),是圖像處理與模式識別領(lǐng)域的一個(gè)重要分支1。其目的就是通過掃描、攝像等光學(xué)輸入方式將漢字報(bào)刊、書籍、文稿及其它印刷品的文字轉(zhuǎn)化為圖像信息,將圖形、表格的圖像進(jìn)行保存,再利用文字識別技術(shù)將圖像內(nèi)的文字或表格中的資料一律變成計(jì)算機(jī)能識別的文字,以便于計(jì)算機(jī)的管理維護(hù)。它能夠減少存儲(chǔ)容量、通訊交流的信息、循環(huán)利用已識別出的文字以及節(jié)省因鍵盤輸入而浪費(fèi)的人力、物力、財(cái)力和時(shí)間。手寫數(shù)字識別(Handwritten Numeral Recognition,簡稱HNR)是OCR的一個(gè)分支,它的任務(wù)是把手寫阿拉伯?dāng)?shù)字(如0,1,2,9)通過非鍵盤方式輸入到計(jì)算機(jī)中,以便作進(jìn)一步的處理和應(yīng)用,給計(jì)算機(jī)建立視覺系統(tǒng),自動(dòng)辨識人用筆寫在紙(介質(zhì))上的數(shù)字。它屬于模式識別、人工智能的一個(gè)重要分支,涉及到模式識別和圖像處理、人工智能、統(tǒng)計(jì)決策理論、模糊數(shù)學(xué)、組合數(shù)學(xué)、信息論、計(jì)算機(jī)等學(xué)科;同時(shí)也涉及心理學(xué)等,是介于基礎(chǔ)研究與應(yīng)用研究之間的一門綜合性的技術(shù)2,在辦公室、機(jī)器翻譯等方面具有重大實(shí)用意義。手寫體數(shù)字的識別是人們研究較為深入的一個(gè)領(lǐng)域。文字識別作為計(jì)算機(jī)技術(shù)的一個(gè)領(lǐng)域在許多的環(huán)境當(dāng)中都有著非常廣泛的應(yīng)用。文字識別是新一代智能計(jì)算機(jī)接口的重要組成部分。近二十年來,國內(nèi)外對各種字符進(jìn)行了廣泛深入的研究,研究出了許多非常有效的識別算法,與此同時(shí)用于各種字符識別的應(yīng)用軟件也越來越豐富。 字符識別可以分為兩個(gè)大類,文字識別和數(shù)字識別。數(shù)字識別又可以分為手寫體數(shù)字識別和印刷體數(shù)字識別,而對于手寫體數(shù)字識別可分為聯(lián)機(jī)手寫體數(shù)字和脫機(jī)手寫體數(shù)字的識別。當(dāng)今手寫體數(shù)字識別是人們研究的一個(gè)熱點(diǎn),而且手寫體數(shù)字識別的技術(shù)相對于以前已經(jīng)有了較大的提高。國內(nèi)專門做識別技術(shù)成果比較好的是漢王公司,該公司的識別軟件對各種字符識別率已經(jīng)很不錯(cuò)。相對于聯(lián)機(jī)手寫體數(shù)字識別技術(shù),脫機(jī)手寫體數(shù)字識別技術(shù)識別率相對要低,而且在生活實(shí)際應(yīng)用得到很多應(yīng)用(例如:手機(jī)手寫輸入,手寫板等都是基于聯(lián)機(jī)識別)。由于聯(lián)機(jī)識別相對于脫機(jī)識別能夠獲取更多的信息,其除了獲取了圖片信息外,計(jì)算機(jī)還可以通過與計(jì)算機(jī)相連的手寫輸入設(shè)備獲得輸入字符筆劃的順序、筆劃的方向以及字符的形狀。因此一般的聯(lián)機(jī)識別要比脫機(jī)識別的識別率要高。所以聯(lián)機(jī)識別的已經(jīng)投入使用,但是對于脫機(jī)識別由于其技術(shù)限制,以至其到現(xiàn)在還沒有大范圍的應(yīng)用。雖然脫機(jī)手寫體數(shù)字識別難度較大,識別率較低,但是比起聯(lián)機(jī)手寫體數(shù)字識別來說,脫機(jī)手寫體數(shù)字識別不要求書寫者在特定的輸入設(shè)備上書寫,它可以與平常一樣書寫,所以脫機(jī)手寫體數(shù)字識別的應(yīng)用更為廣泛,如郵政編碼、統(tǒng)計(jì)報(bào)表、財(cái)務(wù)報(bào)表、銀行票據(jù)、學(xué)生成績、車牌號碼等。一旦脫機(jī)手寫體數(shù)字的研究取得成功,滿足實(shí)用需求,并投入應(yīng)用,將產(chǎn)生巨大的社會(huì)效益。1.2 手寫數(shù)字識別的意義和應(yīng)用前景對手寫體數(shù)字的識別研究不僅有著重大的現(xiàn)實(shí)意義而且還有十分廣闊的應(yīng)用前景。當(dāng)今經(jīng)濟(jì)的發(fā)展,金融市場化進(jìn)程的日益加快,票據(jù)業(yè)務(wù)發(fā)展很快,票據(jù)數(shù)量也與日俱增。其中個(gè)人憑證,支票,發(fā)票,進(jìn)賬單等等票據(jù)均需要處理大量的信息。而目前,票據(jù)錄入仍然依賴人工處理方式,因而使得票據(jù)管理工作也相對落后。如果通過手寫體字符識別技術(shù)來實(shí)現(xiàn)信息的自動(dòng)錄入,無疑將會(huì)有效解決傳統(tǒng)人工處理方式中存在的工作量大、成本高、效率低、時(shí)效性差等問題。此外,手寫數(shù)字識別應(yīng)用領(lǐng)域還有:1) 手寫數(shù)字識別被應(yīng)用在大規(guī)模數(shù)據(jù)統(tǒng)計(jì)中。例如:人口普查、成績單錄入、行業(yè)年檢、財(cái)務(wù)報(bào)表錄入等應(yīng)用中。2) 手寫數(shù)字識別被應(yīng)用在財(cái)務(wù)、稅務(wù)、金融領(lǐng)域應(yīng)用。隨著我國經(jīng)濟(jì)的快速發(fā)展,每天會(huì)有大量的財(cái)務(wù)、稅務(wù)、支票等需要處理。3) 手寫數(shù)字識別被應(yīng)用到郵件分揀系統(tǒng)中3。由上可見,對手寫體數(shù)字識別有著很高的實(shí)用價(jià)值,除此之外,手寫體數(shù)字識別作為模式識別領(lǐng)域的一個(gè)重要問題,也有著重要的理論價(jià)值:1) 阿拉伯?dāng)?shù)字是唯一的被世界各國通用的符號,對于手寫體數(shù)字識別的研究基本上與文化背景無關(guān),這樣就為世界各國研究者提供了一個(gè)供大家共同探討技術(shù)的平臺(tái),研究并比較各種算法的優(yōu)缺點(diǎn)。2) 由于手寫體數(shù)字識別的類別少,有助于作深入分析與驗(yàn)證一些新的理論。這方面最明顯的例子是人工神經(jīng)網(wǎng)絡(luò)(ANN)。很多ANN模型和算法都是以手寫體數(shù)字識別作為實(shí)驗(yàn)測試平臺(tái),驗(yàn)證其理論的有效性,評價(jià)各種方法各自的優(yōu)缺點(diǎn)。3) 盡管人們對手寫體數(shù)字識別已經(jīng)從事了很長時(shí)間的研究,并取得了一定的成果,但是到目前為止,機(jī)器識別本領(lǐng)與人的認(rèn)知能力相比,還是有很大的差距。4) 手寫體數(shù)字識別的方法很容易被推廣到其它相關(guān)問題上,比如英文字母識別、漢字識別等等。1.3 字符識別的研究與發(fā)展字符識別的最早能追溯到1890年一項(xiàng)幫助盲人閱讀裝置的發(fā)明專利。1929年,有德國人Tausheck首先正式提出OCR概念,并取得了OCR專利權(quán),四年后美國人Handel也取得了同樣的專利權(quán)4。但真正OCR是在本世紀(jì)50年代隨著計(jì)算機(jī)的出現(xiàn)而到來的。在字符識別大發(fā)展時(shí)期(1990年后),許多研究者對字符識別進(jìn)行了探索與研究,當(dāng)時(shí)提出許多新的有效識別工具,其中人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network ,ANN)5,支持向量機(jī)(Support Vector Machine)6,7,隱馬爾科夫模型(Hidden Markov Model,HMM)8等,而這些識別工具至今仍然是研究的熱點(diǎn)。1) 在人工神經(jīng)網(wǎng)絡(luò)識別方法中,模式類的描述方法一般還是特征向量,只是在分類時(shí),利用了神經(jīng)網(wǎng)絡(luò)的自動(dòng)學(xué)習(xí)和記憶功能,通過對樣本的訓(xùn)練建立起記憶,然后將未知樣本作為輸入讓神經(jīng)網(wǎng)絡(luò)“回憶”出該樣本所屬的類別。2) 支持向量機(jī)是Vapnik 等人根據(jù)統(tǒng)計(jì)學(xué)理論提出的一種新型機(jī)器學(xué)習(xí)方法。由于其出色的學(xué)習(xí)性能,該技術(shù)已成為機(jī)器學(xué)習(xí)界的研究熱點(diǎn),并在很多領(lǐng)域都得到了成功的應(yīng)用,如人臉識別、手寫體數(shù)字識別、文本自動(dòng)分類等。3) 隱馬爾科夫模型是一類基于馬爾科夫隨機(jī)過程的統(tǒng)計(jì)模型9。隱馬爾科夫模型對于隨機(jī)信號具有很強(qiáng)的學(xué)習(xí)和建模能力,因此在語音識別中取得了很大的成功。從上世紀(jì)90年代開始,一些研究者已經(jīng)將隱馬爾科夫模型引入到了圖像處理、識別和分析中來。1.4 手寫數(shù)字識別的難點(diǎn)雖然,人們對字符識別的研究有百余年,并在字符識別取得了可喜的成績(其漢字識別也越來越多的應(yīng)用到實(shí)際應(yīng)用中),然而字符識別的一個(gè)分支數(shù)字識別的研究卻離實(shí)際應(yīng)用還有一定差距。這是因?yàn)?,在一般情況下,當(dāng)涉及到數(shù)字識別時(shí),人們往往要求識別系統(tǒng)有很高的識別精度(又稱可靠性)10,特別是有關(guān)金融的數(shù)字識別時(shí),如支票中填寫的金額部分,更是如此。因此針對這類問題,就要求手寫數(shù)字識別系統(tǒng)具有高可靠性和高識別率??偨Y(jié)數(shù)字識別的難點(diǎn)主要在于以下幾方面:1) 阿拉伯?dāng)?shù)字的字型信息量很小,不同數(shù)字寫法字形相差又不大,使得準(zhǔn)確區(qū)分某些數(shù)字相當(dāng)困難11。2) 數(shù)字雖然只用10種,而且筆畫簡單,但書寫上帶有明顯的地域特性,同一數(shù)字寫法千差萬別,不同地域的人寫法也不相同,所以很難做到兼顧各種寫法的極高識別率的通用型數(shù)字識別系統(tǒng)12。3) 在實(shí)際應(yīng)用中,對數(shù)字的單字識別正確率的要求要比文字要苛刻得多。這是因?yàn)?,文字組合一般都存在上下文關(guān)系,但數(shù)字組合存在極少的或沒有上下文關(guān)系,所以每個(gè)孤立數(shù)字的識別都至關(guān)重要13。而且數(shù)字識別經(jīng)常涉及到財(cái)務(wù)、金融領(lǐng)域,其嚴(yán)格性更是不言而喻的。因此,對手寫數(shù)字識別系統(tǒng)的要求不僅僅是單純的高正確率,更重要的是極低的誤識率。4) 由于脫機(jī)手寫數(shù)字的輸入只是簡單的一幅圖像,它不像聯(lián)機(jī)輸入那樣可以從物理輸入設(shè)備上獲得字符筆畫的順序信息14,因此脫機(jī)手寫數(shù)字識別是一個(gè)更有挑戰(zhàn)性的問題。1.5 國內(nèi)外研究現(xiàn)狀手寫體數(shù)字識別在學(xué)科上屬于模式識別和人工智能的范疇。在過去的數(shù)十年中,研究者提出了許多識別方法,目前手寫體數(shù)字識別方法可以分為兩類:基于結(jié)構(gòu)特征的方法和基于統(tǒng)計(jì)特征的方法15。通過幾十年來各國研究學(xué)者得對數(shù)字識別的研究,國內(nèi)外在手寫識別上也取得了一定的成就。在我國郵電部第三研究所,以信函分揀為目的,識別書寫在信封上的郵政編碼。其它用傳統(tǒng)方法進(jìn)行識別研究的有中國科學(xué)院自動(dòng)化研究所,該所對手寫體數(shù)字識別的研究歷史幾乎有20年了,在他們新近的報(bào)告中,利用以有限狀態(tài)自動(dòng)機(jī)為主的識別途徑識別1100個(gè)手寫體數(shù)字,識別率達(dá)95.2%,拒識4%,誤識0.2%,上海交通大學(xué)基于壓縮字結(jié)構(gòu)特征的手寫體數(shù)字識別算法選取了12600個(gè)樣本組成訓(xùn)練集,6000個(gè)樣本組成測試集,用BP網(wǎng)絡(luò)進(jìn)行分類,識別正確率為97.58%,誤識率為1.04%,拒識率為1.38%。 德國E9的Friedhelm Schwenker采用SV-RBF40對手寫體數(shù)字進(jìn)行識別,測試樣本10000個(gè),識別正確率為98.56%。清華大學(xué)采用SVM對金融票據(jù)中的手寫體數(shù)字進(jìn)行識別,測試樣本20000個(gè),識別率約為92%。然而以上提到的系統(tǒng),要么對書寫的正規(guī)程度有要求,要么其測試樣本和訓(xùn)練樣本出于同一批人之手??傊?,一般的系統(tǒng)對書寫人員限制較多,或者對書寫的正規(guī)程度有要求,或者對書寫位置有要求,或者對所用筆、紙有要求,例如對稅務(wù)報(bào)表的識別就要求用規(guī)定的字型書寫數(shù)字,并且對書寫的位置有要求,而真正的無限制手寫體數(shù)字的識別的研究還有待進(jìn)一步提高。1.6 手寫體數(shù)字識別系統(tǒng)概述不同的識別系統(tǒng),在具體處理一幅待識別圖像時(shí),處理的步驟可能并不完全相同。但是就一般情況看,一個(gè)完整的OCR識別系統(tǒng)可分為:原始圖像獲取,預(yù)處理,特征抽取,分類識別和判別處理等模塊。(見圖1.1)。 原始圖像獲取預(yù)處理特征提取分類識別判別處理識別結(jié)果圖1.1 常見數(shù)字識別系統(tǒng)框架1) 預(yù)處理階段在獲取原始數(shù)字圖像過程中,由于光照、背景紋理、鏡頭分辨率、拍攝角度等原因,難免會(huì)造成圖像失真并帶有噪聲。由于這些噪聲的影響,如果對獲取得到的數(shù)字圖像進(jìn)行直接處理的話通常不能得到滿意的結(jié)果,因此在獲取原始數(shù)字圖像后,需要對圖像進(jìn)行預(yù)處理。對于字符識別的預(yù)處理過程一般包括:濾波去噪、二值化、字符切分、圖像校正、歸一化處理。經(jīng)過預(yù)處理后的圖片不僅能夠有效濾除噪聲,并且能夠?qū)⒉煌拇笮?、傾斜角度的字符進(jìn)行歸一化到一個(gè)固定大小,對大量數(shù)據(jù)進(jìn)行壓縮處理。預(yù)處理階段在該系統(tǒng)中是一個(gè)很重要的階段。預(yù)處理效果的好壞會(huì)直接影響到整個(gè)系統(tǒng)的性能。具體方法可以詳見第二章。2) 特征提取階段由于原始數(shù)字圖像數(shù)據(jù)量大,冗余信息較多,一般不進(jìn)行直接識別,而是進(jìn)行提取有效特征數(shù)據(jù)、壓縮數(shù)據(jù),然后再進(jìn)行識別。換句話說特征提取是為了去除圖像信息中對分類沒有幫助的部分,將圖像信息集中到幾個(gè)有代表性的特征上來的過程。特征值的提取一般包括:筆畫、拓?fù)潼c(diǎn)、結(jié)構(gòu)突變點(diǎn)、投影形狀、點(diǎn)(端點(diǎn)、連點(diǎn)、三叉點(diǎn)、四叉點(diǎn)、垂直交點(diǎn),水平交點(diǎn)等)、弧、連通區(qū)域、凸凹形狀、環(huán)、字符整體輪廓、檢查必要的基元是否存在、不可有的基元是否出現(xiàn)等特征。3) 分類識別階段分類識別是數(shù)字識別的關(guān)鍵步驟之一,它是指分類器依據(jù)特征提取階段抽取的特征,就送入分類器中做最后的字符分類識別。該環(huán)節(jié)現(xiàn)在普遍采用的是基于神經(jīng)網(wǎng)絡(luò)和模板匹配兩種模式??紤]到神經(jīng)網(wǎng)絡(luò)能夠很好的容忍字符的形狀變換、噪聲的影響。因此,在分類其中,我們將提取到的特征值輸入到已經(jīng)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)中進(jìn)行分類識別。4) 判別處理階段當(dāng)分類完成后,為了保持系統(tǒng)的識別性能,通常需要對識別結(jié)果作一次判別處理,認(rèn)為該結(jié)果是否被接收還是拒絕。這個(gè)階段可以根據(jù)具體的應(yīng)用來設(shè)計(jì)不同的判別決策。例如,在金融數(shù)字的識別中,要求錯(cuò)誤識別率相當(dāng)高,那么在判別處理時(shí)嚴(yán)格限制接收條件就可以降低識別的錯(cuò)誤率。1.7 本文內(nèi)容安排我們主要目標(biāo)是對有噪聲、一定約束書寫條件下的脫機(jī)手寫體數(shù)字串的切割和識別算法進(jìn)行一些探討性研究,以期提高其準(zhǔn)確性,獲得更高的可靠性。我們將對原始獲取的數(shù)字圖像(以及模擬一個(gè)簡單的寫字板)進(jìn)行識別。本文內(nèi)容上總體安排為七章。第一章主要是對OCR和手寫體數(shù)字識別作簡單的介紹。介紹內(nèi)容有:OCR及手寫體數(shù)字識別的歷史及現(xiàn)狀;手寫體數(shù)字識別的意義和難點(diǎn);數(shù)字串識別系統(tǒng)的整體描述以及本文的研究內(nèi)容。第二章:主要是研究手寫體數(shù)字識別中的預(yù)處理技術(shù)。本文采用預(yù)處理有濾波去噪,閾值分割,歸一化,細(xì)化等技術(shù),該章節(jié)對其進(jìn)行詳細(xì)分析。同時(shí)本章針對幾種閾值分割進(jìn)行比較,分析其各自的優(yōu)缺點(diǎn)。第三章:主要研究的是手寫體數(shù)字識別中的切分技術(shù)。本章將對當(dāng)前無約束手寫體數(shù)字串的切分技術(shù)進(jìn)行概述,最后詳細(xì)介紹本文采用的手寫體數(shù)字串的切分方法。第四章:主要研究的是手寫體數(shù)字識別中的特征值提取技術(shù)。在特征值提取模塊中,需要根據(jù)特征表達(dá)方式或者特征提取技術(shù)的不同,選用不同的預(yù)處理技術(shù)。比如對于關(guān)鍵點(diǎn)特征的提取,則需要使用字符的外輪廓、骨架信息。由于單一的特征對數(shù)字的描述有一定的局限性,因此本文將采用多特征組合的特征向量作為字符的描述特征值來識別數(shù)字。本章將詳細(xì)介紹這些相關(guān)的特征值的提取步驟。另外本章中對傳統(tǒng)的細(xì)化算法提出了一種的改進(jìn)方法。第五章:主要簡單介紹神經(jīng)網(wǎng)絡(luò)分類識別器實(shí)現(xiàn)原理。初步介紹本文采用的BP神經(jīng)網(wǎng)絡(luò),并給出本文采用的學(xué)習(xí)算法和訓(xùn)練算法。第六章:介紹了本文實(shí)現(xiàn)的系統(tǒng)的開發(fā)和運(yùn)行環(huán)境,以及系統(tǒng)的處理過程圖,并通過對NIST的圖像數(shù)據(jù)庫進(jìn)行測試,給出相關(guān)實(shí)驗(yàn)數(shù)據(jù)。第七章:對整個(gè)論文的研究和工作進(jìn)行了總結(jié)并指出了進(jìn)一步的研究方向。2 手寫體數(shù)字識別中預(yù)處理技術(shù)預(yù)處理對于一個(gè)良好的識別系統(tǒng)不僅是一個(gè)必不可少的環(huán)節(jié),而且是至關(guān)重要的。如果預(yù)處理處理得不夠理想,會(huì)從很大程度上降低整個(gè)系統(tǒng)的識別率。一般手寫體數(shù)字識別而言,預(yù)處理包括很多部分,如平滑、去噪、二值化、歸一化、細(xì)化、形狀校正、去各種類印章、背景底紋等等。由于本文主要不是針對類似于票據(jù)識別中的這種具有各種背景底色或者印章之類的數(shù)字識別,本文主要研究的是在紙(無底紋、印章等)上寫的手寫體數(shù)字進(jìn)行識別。因此本文就省去了去除類印章、背景底紋等的這些操作。2.1 平滑去噪數(shù)字圖像的噪聲主要來源于圖像的獲取(數(shù)字化過程)。圖像傳感器的工作情況受各種因素的影響,如圖像獲取中的環(huán)境條件和傳感元器件自身的質(zhì)量。例如,使用CCD攝像機(jī)獲取的圖像,光照強(qiáng)度和傳感器溫度是造成圖像中產(chǎn)生大量噪聲的主要因素。除此之外對于有些傳感元器件的自身質(zhì)量,如手機(jī)自帶的照相設(shè)備一般分辨率較低,在獲取數(shù)字圖像時(shí)會(huì)產(chǎn)生斑點(diǎn)噪聲。噪聲對于圖像的預(yù)處理非常重要,它會(huì)影響圖像處理的輸入、采集、處理各個(gè)環(huán)節(jié)和識別結(jié)果的全過程。特別是圖像的輸入、采集的噪聲是十分關(guān)鍵的問題。如果輸入不良伴有較大的噪聲,濾波去噪后不能達(dá)到理想效果,將必然的嚴(yán)重影響處理的全過程以至最后的識別結(jié)果。噪聲去除已經(jīng)成為圖像處理極其重要的步驟,然而現(xiàn)在還沒有一個(gè)通用的濾波去噪方法對所有的圖片適用,一般的圖像預(yù)處理必須根據(jù)實(shí)際情況選擇不同濾波去噪方法進(jìn)行比較,最后得出最佳的濾波去噪方法。濾波去噪的方法可以簡單分為兩類:頻域?yàn)V波和空間域?yàn)V波。頻域?yàn)V波一般采用的方法是將空間圖像采用快速傅里葉變換轉(zhuǎn)換成頻域信息,然后再采用信號處理的濾波方法進(jìn)行濾波(一般采用的有阻濾波器、帶通濾波器、陷波濾波器、最佳陷波濾波器等),濾波處理后再通過傅里葉逆變換進(jìn)行逆變換成空間圖像信息,從而達(dá)到濾波效果。但是由于頻域?yàn)V波需要頻域轉(zhuǎn)換后再采用濾波器濾波,其實(shí)現(xiàn)起來較為復(fù)雜,效率也相對較低,而空間域?yàn)V波方法速度較快、實(shí)現(xiàn)簡單、效果很好,因此現(xiàn)在很多研究者中都采用空間域?yàn)V波方法對數(shù)字圖像進(jìn)行濾波。對于空間域?yàn)V波算法中最常用的是平滑濾波去噪法,其主要思想為在圖像空間中借助模板對圖像進(jìn)行領(lǐng)域操作,用平均運(yùn)算方法去除突然變化的點(diǎn)從而濾掉一定的噪聲。輸出圖像的每一個(gè)像素的取值都是根據(jù)模板對輸入像素相應(yīng)領(lǐng)域內(nèi)的像素值進(jìn)行計(jì)算得到的。常見的平滑去噪方法有:nn中值濾波器,高斯濾波器等等。中值濾波是較為經(jīng)典的一個(gè)空間域?yàn)V波算法,該算法是將一個(gè)nn大小的模板從上到下從左到右在圖像上進(jìn)行移動(dòng),在對所移到的各個(gè)像素上,使用模板中所有的像素灰度值的中間值取代當(dāng)前像素的灰度值: (式2.1)中值濾波器常見的有33和55大小的模板。圖2.1是33的中值濾波器。圖中M點(diǎn)像素的灰度等于其領(lǐng)域內(nèi)9個(gè)(A0A7,M)像素灰度值的中間值。A3A2A1A4MA0A5A6A7圖2.1 33的中值濾波器模板示意圖圖2.2是采用33的中值濾波器對帶有噪聲的圖片進(jìn)行濾波后的效果。 a) 含有噪聲的圖像b) 用33的中值濾波后的圖像圖2.2 中值濾波中值濾波對于很多種隨機(jī)噪聲,它都有良好的去噪能力,且在相同尺寸下比起線性平滑濾波器引起的模糊較少。中值濾波器尤其對單級或雙極脈沖噪聲非常有效。但是本文在對圖片進(jìn)行二值化處理中,后期將采用基于梯度的二值化處理,在梯度二值化處理中需要采用拉普拉斯變換提取邊緣特征,而拉普拉斯變換對噪聲特別敏感,因此我將會(huì)采用高斯濾波器對圖像進(jìn)行濾波,然后再采用高斯拉普拉斯提取邊緣信息。因此,需要簡單介紹一下空間域的高斯平滑濾波器。圖像的高斯平滑濾波器,其濾波器的模板設(shè)計(jì)是根據(jù)高斯函數(shù)的最佳逼近的二項(xiàng)式展開的系數(shù)來決定。根據(jù)高斯函數(shù)的可分離性可以得到,二維高斯濾波器能用2個(gè)一維高斯濾波器逐次卷積來實(shí)現(xiàn),一個(gè)沿水平方向,一個(gè)沿垂直方向。因此高斯平滑濾波器與圖像簡單平滑不同的是,它在對領(lǐng)域內(nèi)像素灰度進(jìn)行平均時(shí),給與了不同位置的像素不同的權(quán)值。常見的高斯模板(33)如圖2.3所示,模板上越靠近領(lǐng)域中心的位置,其權(quán)值越高,如此安排權(quán)值的意義在于用此模板進(jìn)行圖像平滑時(shí),在對圖像細(xì)節(jié)進(jìn)行模糊的同時(shí),可以更多的保留圖像總體的灰度分布特征。121242121圖2.3 33高斯模板高斯濾波器相對簡單平滑濾波器的效率較低(需要額外乘法運(yùn)算),在離散型雜點(diǎn)的消除方面,高斯平滑的效果并不理想。然而在保留圖像的總體特征上,高斯濾波器表現(xiàn)了很好的性能。2.2 二值化二值圖像是指整幅圖像頁面內(nèi)僅有黑(像素值為0),白(像素值為1)的二值圖像。一般的文字識別的文字圖像、進(jìn)行指紋識別的指紋圖像,大多數(shù)都需要將灰度圖像轉(zhuǎn)化成二值圖像。在數(shù)字圖像處理中,二值化占有非常重要的地位。這是因?yàn)?,一方面類似于字符、指紋、工程圖等圖像本身就是二值的。另一方面,在某些情況下即使圖像本身是有灰度的,也將其轉(zhuǎn)換成二值圖像再處理。這樣在圖像處理系統(tǒng)中,可以減少圖像信息并提高處理速度。圖像的二值化有幾種類型,其中主要的有基于灰度分布的二值化,也有基于梯度信息的二值化?;诨叶确植嫉亩祷幚硪话闶峭ㄟ^設(shè)定閾值,把它變?yōu)閮H用二值表示前景和背景顏色的圖像。圖像的二值化可以根據(jù)下面的閾值來處理:假設(shè)一幅原始圖像的像素值p(i,j)的取值范圍為0,m,那么設(shè)有其閾值為T=t,0t e)- f)- g)-d)順序顯示了本文算法在進(jìn)行閾值分割的中逐步處理的效果圖(其中e)由Step4產(chǎn)生的三級圖像,圖像中只包含有灰、白、黑三種顏色,黑色表示Step5中被標(biāo)記0的像素,灰色表示被標(biāo)記為2的像素,白色則表示被標(biāo)記為1的像素)。2.3 歸一化對于字符識別來說,歸一化是一個(gè)很重要的預(yù)處理因素。由于人們在書寫、設(shè)備使用焦距不同等原因可以導(dǎo)致獲取后的數(shù)字圖像字符的大小不一。對于大小不一的字符圖像,處理起來很不方便,因此在通常情況下,在對字符進(jìn)行預(yù)處理的時(shí)候,我們必須將單個(gè)字符進(jìn)行歸一化處理。歸一化處理一般的是將單字符圖像進(jìn)行歸一化到固定的大小的數(shù)字圖像,例如本文采用的歸一化后的數(shù)字圖像大小為2020。進(jìn)過歸一化處理后,一般的能夠?qū)⒋蟮淖址麍D像信息進(jìn)行縮小到固定大小的數(shù)字圖像,這樣在提高識別率的同時(shí)也能提高處理的效率。歸一化算法有:線性歸一化、非線性歸一化和矩歸一化。這些方法早已在字符識別中被采用。本文采用矩歸一化算法對單字符圖像進(jìn)行歸一化處理。為了能更加容易的進(jìn)行特征提取和分類,歸一化后的圖像平面(標(biāo)準(zhǔn)平面的)x/y軸的大小是固定的(本文采用20/20)。然而,在縱橫比歸一化中,標(biāo)準(zhǔn)平面未必總能填滿。依靠縱橫比,歸一化后的圖像位于平面的中央且有一個(gè)方向是填滿的。設(shè)標(biāo)準(zhǔn)平面為正方形(變長用L表示)。則歸一化后的圖形寬度與高度分別用W2和H2表示,則縱橫比定義如下: (式2.8)a) 原始圖像b) 采用根據(jù)一維直方圖自動(dòng)閥值分割效果 c) 采用基于OTSU的二維最大類間方差閾值分割的改進(jìn)算法分割效果d) 采用本文的二值化算法進(jìn)行閥值分割的最終效果(由g)圖進(jìn)行線、點(diǎn)濾波后的結(jié)果)e) 采用本文的二值化算法之三級圖像(由a)圖像進(jìn)行處理) g) 采用本文的二值化算法之縱向掃面(由e)圖像進(jìn)行處理然后與f)圖結(jié)合)f) 采用本文的二值化算法之橫向掃描(由e)圖像進(jìn)行處理) 圖2.9 三種不同二值化算法的比較和本文二值化算法的處理步驟效果圖。如果歸一化后的圖像填滿了一個(gè)方向,則Max(W2,H2)=L。在矩的歸一化中,圖像的重心(式2.9所示為圖像重心計(jì)算公式)與標(biāo)準(zhǔn)平面的中心是重合的。此時(shí)可能導(dǎo)致歸一化后的圖像并不總是一個(gè)方向填滿,而且有可能超出。本文采取的處理方法是,將有超出部分將其截去。設(shè)圖像的中心為P(xc,yc),則圖像重心計(jì)算如下: (式2.9)其中,設(shè)圖像的標(biāo)準(zhǔn)平面中心為Q(,),則有: (式2.10)設(shè)原圖像的長寬分別為:W1和H1,那么如果,表示縱橫比,通過下面公式定義: (式2.11)那么設(shè)(x,y),(,)分別表示原圖像的坐標(biāo)和歸一化后圖像的坐標(biāo),那么則有: (式2.12)因此由式2.12就可以將任意字符圖像的大小轉(zhuǎn)化成固定的圖像大小。由式2.11可知,按式2.12進(jìn)行歸一化后的圖像的高和寬均被填滿。這就會(huì)導(dǎo)致一個(gè)問題:歸一化后的字符的形狀可能會(huì)與原來有很大的差別。最為典型的是數(shù)字1,如果采用上方法進(jìn)行歸一化處理之后,將會(huì)將整個(gè)圖像填滿,這時(shí)字符圖形嚴(yán)重的變形了。而如果保持原圖縱橫比的話,將能夠較好的保持字符形狀,也就是將式2.11改為式2.13: (式2.13)圖2.10是采用式2.13進(jìn)行歸一化處理的效果。 a) 原圖像1c) 原圖像1歸一化后結(jié)果b) 原圖像2 d) 原圖像2歸一化后結(jié)果圖2.10 采用2.13式進(jìn)行歸一化的結(jié)果由圖2.10可見,對于書寫長寬規(guī)范的字符,采用保持原圖縱橫比能很好的進(jìn)行歸一化(如圖2.10中a)圖的歸一化結(jié)果),然而,如果在書寫過程中,字符長寬差距較大(如圖2.10中b)圖的歸一化結(jié)果),就可能導(dǎo)致原有的環(huán)形被填充了,因此為了解決這種問題,本文提出的解決方法是,將式2.11修改為式2.14。 (式2.14)圖2.11顯示了采用式2.14對圖2.10中b)圖進(jìn)行歸一化處理的效果。另外,在本文中,考慮到一般的由于原始圖像的大小比標(biāo)準(zhǔn)平面的大小要大,因此在進(jìn)行歸一化后,一般不會(huì)產(chǎn)生斷裂現(xiàn)象,另外加上插值擬合算法的需要一定的計(jì)算時(shí)間,因此本文不對歸一化后的圖像進(jìn)行插值擬合。 圖2.11 采用式2.14的歸一化的結(jié)果a) 原圖b) 歸一化后的效果2.4 傾斜校正在預(yù)處理的中,傾斜校正也是一個(gè)很重要的一個(gè)步驟。由于在人們書寫過程中,會(huì)有一定的傾斜(傾斜度一般在 0o45o),如果不對字符圖形進(jìn)行矯正處理,就會(huì)影響后期的特征值提取,最終會(huì)影響系統(tǒng)的識別率。傾斜校正的手寫體數(shù)字的圖像主要有兩種:一種是數(shù)字間完全沒有限制的,可以連筆,即整體傾斜矯正;另外一種是數(shù)字間彼此孤立的,沒有任何聯(lián)系,即單字符傾斜矯正。由于本文在進(jìn)行傾斜矯正時(shí)針對已經(jīng)切分好的單個(gè)字符,因此本文所采用的傾斜矯正算法是單字符傾斜矯正。本文采用的傾斜算法主要采用的是文獻(xiàn)18的算法。很多傾斜矯正算法都是基于“當(dāng)圖像傾斜度最小時(shí),圖像的高寬比將達(dá)到最大”這一特點(diǎn)。本文采用的算法也是基于這一規(guī)律。在簡單描述算法之前,先做這樣的規(guī)定:圖像中某點(diǎn)旋轉(zhuǎn)方向?yàn)轫槙r(shí)針時(shí),角度為正,為逆時(shí)針時(shí),角度為負(fù)。旋轉(zhuǎn)中心定在圖像的幾何中心處。那么對任意給定的圖像中的像素點(diǎn)(x0,y0),旋轉(zhuǎn)中心分別進(jìn)行順時(shí)針和逆時(shí)針旋轉(zhuǎn)的方式如圖2.12所示,圖中(x1,y1)和(x2,y2)分別表示的是(x0,y0)順。逆時(shí)針旋轉(zhuǎn)角度后到達(dá)的點(diǎn)。旋轉(zhuǎn)前坐標(biāo)為(x0,y0),r表示坐標(biāo)點(diǎn)離原點(diǎn)的距離,則有: 圖2.12 點(diǎn)順時(shí)針,逆時(shí)針旋轉(zhuǎn)示意圖那么旋轉(zhuǎn)后的坐標(biāo)(x1,y1)、(x2,y2)分別為:順時(shí)針旋轉(zhuǎn)角度:逆時(shí)針旋轉(zhuǎn)角度:以上的旋轉(zhuǎn)方法就是該算法對手寫體數(shù)字的位圖圖像進(jìn)行傾斜矯正時(shí)所要用到的,下面是傾斜矯正的具體算法:1) 先設(shè)置初始旋轉(zhuǎn)角度為15o,初始位圖圖像B為活動(dòng)位圖。2) 如果旋轉(zhuǎn)角度 1o,轉(zhuǎn)到3)。3) 設(shè)定活動(dòng)位圖為B0,求出B0的高度h0、寬度w0并求出兩者的比值。將B0的所有像素點(diǎn)利用上面的方法分別進(jìn)行順、逆時(shí)針旋轉(zhuǎn)角度,得到的圖像賦值為B1、B2,并求出B1高度h1、寬度w1、比值和B2高度h2、寬度w2、比值。4) 求出、中最大的一個(gè),將它所對應(yīng)的位圖圖像賦值為活動(dòng)位圖B0。并把旋轉(zhuǎn)角度做改變:。由上算法進(jìn)行逐步求解最接近的近似取得的最佳的傾斜角度,并自動(dòng)矯正數(shù)字圖像。如圖2.13是經(jīng)過歸一化并傾斜矯正的效果。 b) 經(jīng)過歸一化并傾斜矯正的圖像a) 原圖圖2.13 歸一化并傾斜矯正效果2.5 細(xì)化字符細(xì)化是通過一定的處理算法將字符重要的像素點(diǎn)保留下來,去除無關(guān)緊要的點(diǎn),得到字符筆劃骨架的技術(shù)。對字符識別而言,字符圖像上的各個(gè)像素點(diǎn)對識別率的貢獻(xiàn)并不一樣,細(xì)化處理能極大的消除字符圖像中的冗余點(diǎn),使計(jì)算機(jī)在分析處理、識別時(shí)不受筆劃粗細(xì)的影響,快速的接觸到本質(zhì)內(nèi)容,減少運(yùn)算量,從而縮短識別的時(shí)間。字符圖像細(xì)化結(jié)果的好壞將直接影響到字符特征提取的準(zhǔn)確與否(尤其是一些結(jié)構(gòu)特征的提取),最終影響到整個(gè)字符識別系統(tǒng)的識別率,因而字符細(xì)化已成為字符識別系統(tǒng)中極為重要的環(huán)節(jié)之一。在圖像分析中,形狀信息是十分
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年汽車自動(dòng)采樣設(shè)備項(xiàng)目立項(xiàng)申請報(bào)告模板
- 【南昌】江西南昌縣事業(yè)單位招聘筆試歷年典型考題及考點(diǎn)剖析附帶答案詳解
- 文庫發(fā)布:消防課課件
- 桂花嫁接技術(shù)教學(xué)課件
- 文庫發(fā)布:健康課件
- 課件教學(xué)教案
- 昆曲鑒賞教學(xué)課件
- 【課件】三角形的外角+課件2025-2026學(xué)年人教版數(shù)學(xué)八年級上冊
- 四年級作文課件講解教學(xué)
- 混凝土結(jié)構(gòu)教學(xué)課件
- 北京朝陽區(qū)2024年八年級物理第二學(xué)期期末綜合測試試題及答案解析
- 服務(wù)標(biāo)準(zhǔn)化指標(biāo)的量化與評價(jià)
- 班組長生產(chǎn)管理能力考試題庫-上(選擇題)
- GB/T 4074.2-2024繞組線試驗(yàn)方法第2部分:尺寸測量
- 維修結(jié)算單完整版本
- 歐普照明產(chǎn)品介紹
- 頸部血腫的應(yīng)急預(yù)案
- 2023年北京中儲(chǔ)糧集團(tuán)招聘考試真題及答案
- 省級融媒體平臺(tái)建設(shè)方案
- 【公開課教案】《蹲踞式起跑》教案
- 社會(huì)主義市場經(jīng)濟(jì)理論1課件
評論
0/150
提交評論