



下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、如何提高Tesseract-OC的識別精度概述:本文介紹了提高Tesseract-OC職別精度的步驟及注意事項。通過對Tesseract-OCR的訓練能有效提高Tesseract-OCR勺識別精度,特別是對與驗證碼識別方面有很大幫助。關鍵字:Tesseract-OC險證碼,自動識別,手冊,教程1 .使用步驟1.1. MakeBoxFiles1.1.1. commandtesseractlang.fontname.expnum.tiflang.fontname.expnum-lspecifiedLangbatch.nochopmakebox1.1.2. outputlang.fontname.e
2、xpnum.box1.2. FixBox1.2.1. commandjTessBoxEditor1.2.2. output1.3. RunTesseractforTrainingnobatch1.3.1. commandtesseractlang.fontname.expnum.tiflang.fontname.expnumbox.train1.3.2. outputlang.fontname.expnum.trlang.fontname.expnum.txt1.4. ComputetheCharacterSet1.4.1. commandunicharset_extractorlang.fo
3、ntname.expnum.box1.4.2. outputunicharset1.5. Clustering1.5.1. command1mftraining-Ffont_properties-Uunicharsetlang.fontname.expnum.tr1.5.2. output1inttempmfunicharsetMicrofeatpffmtable1.5.3. command2entraininglang.fontname.expnum.tr1.5.4. output2normproto1.6. Combine1.6.1. commandeombine_tessdatadir/
4、lang.1.6.2. outputlang.traineddata1.7. Test1.7.1. commandtesseractspeeifiedTifoutput-lspeeifiedLang-psm71.7.2. outputoutput.txt2 .使用說明2.1. 關于名稱的說明在各個步驟中多處出現(xiàn)類似lang.fontname.expnum的名稱,這個是按照tesseract的使用說明寫的,但在實際使用過程中并不是必須的,可以從簡。例如:my.ealibri.exp0.tif寫成my.tif也是可以的。2.2. 關于步驟的說明2.2.1. MakeBoxFile-lspecfie
5、dLang用人認為主要是為了減少步驟2(FixBox)的工作量而使用的。選擇合適的文件可以讓生成的box更加準確,減少修改工作量。2.2.2. FixBoxjTessBoxEdito是一個tesseract-OCR勺輔助工具,主要用來修改生成的Box。它還有2個不錯的功能就是:1、合并tif文件;2、利用一個文本和設置的字體生成一個tif圖片。在用jTessBoxEdito修改生成的Box過程中需要注意,如果tesseract-OCRS有認出某個tif圖片上的文字,最好不要自行添加,也不要對粘連的字符進行split或?qū)Ψ珠_的字符進行mergeo因為很可能即使這么做了,在步驟3(RunTesse
6、ractforTraining)里也只是會收到一個錯誤提示。通過用jTessBoxEditorX寸識別錯誤的Box進行修改,可以有效提高Tesseract-OCR的識別精度,特別是在圖片中的字符出現(xiàn)粘連的情況下。jTessBoxEdito的下載地址是:2.2.3. Clustering按照tesseract-OCR的說明,在這個步驟里是可以一次對多個tr進行操作的,但我每次都提示程序出錯,所以我采取合并文件的方式來變通。2.2.4. Combine這個步驟所生成的traineddata文件就是tesseract-OCRl行識別的關鍵。在執(zhí)行combine_tessdata命令前,請斗等步驟4(
7、ComputetheCharacterSet和5(Clustering)中生成城6個文件重命名,在文件名前加上“l(fā)ang.”。例如:lang是my,則對應的文件名就是tempmy.mfunicharsetmy.Microfeatmy.pffmtablemy.normproto)如果命令參數(shù)中用dir指定了目錄,請將上述5個文件一起復制到指定的目錄中。2.2.5. Test生成traineddata后,就可以用訓練所使用的tif圖片進行測試??梢酝ㄟ^-1命令指定使用新生成的traineddata。例如:my.traineddata則在使用時就輸入“-1my”(即不帶后綴的文件名)。測試的結果將會輸出到output
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 重慶濕地修復管理辦法
- 陶藝公司資金管理辦法
- 個體工商戶網(wǎng)上管理辦法
- 北海市臨時救助管理辦法
- 星巴克公司客人管理辦法
- 工程保障管理辦法試行
- 衛(wèi)計委實名登記管理辦法
- 消委會共享單車管理辦法
- 醫(yī)院愛衛(wèi)會工作管理辦法
- 廈門鼓浪嶼景區(qū)管理辦法
- FZ/T 01118-2012紡織品防污性能的檢測和評價易去污性
- 飛行機器實驗室 PX4FLOW智能光流傳感器使用說明 V1.3
- 2020年廣州市初三英語中考模擬考試+答案
- 高速公路機電系統(tǒng)培訓課件
- 2023年心肺復蘇(CPR)指南解讀
- 電廠新員工安規(guī)考試
- 山東省濟南市各縣區(qū)鄉(xiāng)鎮(zhèn)行政村村莊村名居民村民委員會明細
- 西方管理學名著提要
- 混凝土構件之梁配筋計算表格(自動版)
- 閥門設計計算書(帶公式)
- 新蘇科版七年級下冊初中數(shù)學全冊教案
評論
0/150
提交評論