人機交互:第4章 人機交互技術(shù)_第1頁
人機交互:第4章 人機交互技術(shù)_第2頁
人機交互:第4章 人機交互技術(shù)_第3頁
人機交互:第4章 人機交互技術(shù)_第4頁
人機交互:第4章 人機交互技術(shù)_第5頁
已閱讀5頁,還剩122頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、人機交互技術(shù)編寫組1第第4章章 人機交互技術(shù)人機交互技術(shù)人機交互技術(shù)編寫組2本章將主要介紹以下幾種人機交互技術(shù):l命令行和文本菜單l圖形用戶界面l多通道用戶界面l漢字信息處理 人機交互技術(shù)編寫組34.1人機交互技術(shù)概述 人機交互技術(shù)發(fā)生的歷史及發(fā)展趨勢 n根據(jù)用戶界面的具體形式w分為批處理w聯(lián)機終端(命令接口)w文本菜單wWIMP界面w多媒體用戶界面w多通道用戶界面和虛擬現(xiàn)實用戶界面人機交互技術(shù)編寫組44.1人機交互技術(shù)概述人機交互技術(shù)發(fā)生的歷史及發(fā)展趨勢 n根據(jù)根據(jù)用戶界面中信息載體的類型w文本為主的字符用戶界面(CUI)w二維圖形為主的圖形用戶界面(GUI)w多媒體用戶界面人機交互技術(shù)編寫

2、組54.1人機交互技術(shù)概述人機交互技術(shù)發(fā)生的歷史及發(fā)展趨勢n根據(jù)計算機輸出信息的形式w以符號為主的字符界面w以視覺感知為主的圖形用戶界面w兼顧聽覺感知的多媒體用戶界面w綜合運用多種感觀(包括觸覺等)的虛擬現(xiàn)實技術(shù)人機交互技術(shù)編寫組64.1人機交互技術(shù)概述人機交互技術(shù)發(fā)生的歷史及發(fā)展趨勢n根據(jù)人機界面中的信息維度,人機交互技術(shù)可以分為:w一維信息(主要指文本流,如早期電傳式終端)w二維信息(主要是二維圖形技術(shù),利用了色彩、形狀、紋理等信息)w三維信息(主要是三維圖形技術(shù),但顯示技術(shù)仍利用二維平面為主)和多維信息(多通道的多維信息)空間人機交互技術(shù)編寫組74.1人機交互技術(shù)概述人機交互技術(shù)發(fā)生的歷

3、史及發(fā)展趨勢n根據(jù)人機交互中采用的語言w形式語言:形式語言是一種人工語言,特點是簡潔、嚴密、高效。w類自然語言:類自然語言則是介于計算機語言和自然語言之間。w自然語言:自然語言的語法成分有更多的規(guī)則,具有多義性、微妙、豐富、靈活的特點。人機交互技術(shù)編寫組84.2命令行和文本菜單技術(shù) 4.2.1命令行 n真正意義上的人機交互開始于聯(lián)機終端的出現(xiàn) 。n用戶輸入文本命令,系統(tǒng)也以文本的形式表示對命令的響應(yīng)。這種人機界面稱為命令行界面。 人機交互技術(shù)編寫組9圖4-1命令行界面概念模型人機交互技術(shù)編寫組10命令行交互界面操作系統(tǒng)MS-DOS是文本命令行交互界面。 n例如,需要將所有擴展名為“.AAA”的

4、文件替換為擴展名為“.BBB”,如果在“我的電腦”或“WINDOWS資源管理器”中,需要一個一個地去查找、改名,操作的局限性是顯而易見的。利用命令rename drive:path filename1 filename2或ren drive:path filename1 filename2,使用通配符“*”或“?”,就可以方便地更改一組文件名或擴展名。 人機交互技術(shù)編寫組11命令行交互界面不同的操作系統(tǒng)要用不同的命令進入命令行界面。在Win9x/Me的開始菜單中的運行程序中鍵入“command”命令,可進入命令行界面。在Win2000/NT的開始菜單中的運行程序中鍵入“cmd”命令,可進入命令

5、行界面。 批處理文件(也稱為批處理程序或腳本)。批處理文件是無格式的文本文件,包含一條或多條命令,文件擴展名為 bat或cmd。 人機交互技術(shù)編寫組124.2.2文本菜單 字符界面下的菜單方式:在菜單方式下用戶必須在有限的一組選項中進行識別和選擇,更多的是響應(yīng)而不是發(fā)出命令。用戶不必記憶功能命令,縮短了用戶的培訓時間,減少用戶的擊鍵次數(shù),錯誤處理能力也有了顯著提高。 在這種界面中,人還是被看成操作員,機器做出被動的反應(yīng),人只能使用手這一交互通道用鍵盤輸入選擇信息,通過視覺通道獲取信息,界面輸出只能為靜態(tài)的文本字符。 人機交互技術(shù)編寫組13文本菜單的設(shè)計設(shè)計基于文本菜單的系統(tǒng)主要包括兩方面的工作

6、:菜單的生成和顯示,內(nèi)部流程的控制及錯誤處理?!纠?-2】圖書管理程序的主菜單的Java語言代碼。人機交互技術(shù)編寫組14import java.io.*;public class MenuDemostatic void display_maintenace_menu() System.out.print(“nnttnn”);System.out.println (“t1-注冊借書者”);System.out.println (“t2-注冊圖書”);.System.out.println (“t0-返回主菜單”);public static void main(String args) thro

7、ws Exceptionboolean quit=false;char ch;do display_mainmenu();ch = (char)System.in.read();switch (ch)./調(diào)用相應(yīng)的處理函數(shù)while(!quit);Sytem.in.read();人機交互技術(shù)編寫組154.3圖形用戶界面 圖形用戶界面又稱為WIMP界面,由窗口(windows)、圖標(icons)、菜單m)、指點設(shè)備(pointing device)四位一體,形成桌面(desktop),如圖4-2所示。圖形用戶界面是當前用戶界面的主流,廣泛應(yīng)用于各檔臺式微機和圖形工作站。比較成熟的商品化系統(tǒng)有A

8、pple的Macintosh、IBM的PM(Presentation Manager)、Microsoft的Windows和運行于Unix環(huán)境的X-Window、OpenLook和OSF/Motif等。人機交互技術(shù)編寫組16圖4-2 WIMP界面概念模型人機交互技術(shù)編寫組174.3圖形用戶界面圖形用戶界面的共同特點是以窗口管理系統(tǒng)為核心,使用鍵盤和鼠標器作為輸入設(shè)備。窗口管理系統(tǒng)除了基于可重疊多窗口管理技術(shù)外,廣泛采用的另一核心技術(shù)是事件驅(qū)動(event-driven)技術(shù)。人機交互技術(shù)編寫組184.3圖形用戶界面WIMP界面可看作是第二代人機界面,是基于圖形方式的人機界面。在WIMP界面中,

9、人被稱為用戶,人機通過對話進行工作。用戶只能使用手這一種交互通道輸入信息,通過視覺通道獲取信息。在WIMP界面中,界面的輸出可以為靜態(tài)或動態(tài)的二維圖形或圖像等信息。人機交互技術(shù)編寫組194.3圖形用戶界面這種方式能同時輸出不同種類的信息,用戶也可以在幾個工作環(huán)境中切換而不丟失幾個工作之間的聯(lián)系,通過菜單可以執(zhí)行控制型和對話型任務(wù)。由于引入了圖標、按鈕和滾動條技術(shù),大大減少鍵盤輸入,提高了交互效率?;谑髽撕蛨D形用戶界面的交互技術(shù)極大地推動了計算機技術(shù)的普及。 人機交互技術(shù)編寫組204.3.1圖形用戶界面的主要思想圖形用戶界面的三個重要思想n1 桌面隱喻桌面隱喻(desktop metaphor

10、)n2 所見即所得(所見即所得(What You See Is What You Get,WYSIWYG) n3 直接操縱直接操縱(direct manipulation) 人機交互技術(shù)編寫組211.桌面隱喻桌面隱喻(desktop metaphor) 桌面隱喻是指在用戶界面中用人們熟悉的桌面上的圖例清楚地表示計算機可以處理的能力。w圖形具有一定的文化和語言獨立性,可以提高搜索目標的效率。w圖形用戶界面中的圖例可以代表對象、動作、屬性或其他概念。 隱喻的表現(xiàn)方法:w靜態(tài)圖標w動畫w視頻 人機交互技術(shù)編寫組22隱喻的分類:n直接隱喻:隱喻本身就帶有操縱的對象w如Word繪圖工具中的圖標,每種圖標

11、分別代表不同的圖形繪制操作。n工具隱喻:代表所使用的工具w如用磁盤圖標隱喻存盤操作、用打印機圖標隱喻打印操作等,這種隱喻設(shè)計簡單、形象直觀,應(yīng)用也最為普遍。n過程隱喻:其通過描述操作的過程來暗示該操作w如Word中的撤銷和恢復圖標。人機交互技術(shù)編寫組23晦澀的隱喻不僅不能增加可用性,反而會弄巧成拙。隱喻的主要缺點:n需要占用屏幕空間n難以表達和支持比較抽象的信息。 人機交互技術(shù)編寫組242.所見即所得(所見即所得(WYSIWYG)在WYSIWYG交互界面中顯示的用戶交互行為與應(yīng)用程序最終產(chǎn)生的結(jié)果是一致的。 非WYSIWYG的編輯器,用戶只能看到文本的控制代碼,對于最后的輸出結(jié)果缺乏直觀的認識

12、。 WYSIWYG的一些弊端:n如果屏幕的空間或顏色的配置方案與硬件設(shè)備所提供的配置不一樣,在兩者之間就很難產(chǎn)生正確的匹配。n文本處理器都提供了定義章、節(jié)、小節(jié)等的標記,這些標記顯式地標明了對象的屬性,但并不是用戶最終輸出結(jié)果的一部分。 人機交互技術(shù)編寫組253.直接操縱直接操縱(direct anipulation) 直接操縱是指可以把操作的對象、屬性、關(guān)系顯式地表示出來,用光筆、鼠標、觸摸屏或數(shù)據(jù)手套等指點設(shè)備直接從屏幕上獲取形象化命令與數(shù)據(jù)的過程。直接操縱的對象是命令、數(shù)據(jù)或是對數(shù)據(jù)的某種操作。 人機交互技術(shù)編寫組26直接操縱的特性 1.直接操縱的對象是動作或數(shù)據(jù)的形象隱喻w形象隱喻應(yīng)該

13、與其實際內(nèi)容相近,使用戶能通過屏幕上的隱喻直接想象或感知其內(nèi)容。2.用指點和選擇代替鍵盤輸入w用指點和選擇代替鍵盤輸入有兩個優(yōu)點,一是操作簡便,速度快捷。3.操作結(jié)果立即可見w操作結(jié)果立即可見,用戶可以及時修正操作,逐步往正確的方向前進。4.支持逆向操作w用戶在使用系統(tǒng)的過程中,不可避免地會出現(xiàn)一些操作錯誤,通過逆向操作,用戶可以很方便地恢復到出現(xiàn)錯誤之前的狀態(tài)。人機交互技術(shù)編寫組27直接操縱的特性5.借助物理的、空間的或形象的表示,而不是單純的文字或數(shù)字的表示。6.不具備命令語言界面的某些優(yōu)點.w例如從用戶界面設(shè)計者角度看,設(shè)計圖形比較繁瑣,需進行大量的測試和實驗.7.表示復雜語義、抽象語義

14、比較困難。 人機交互技術(shù)編寫組284.3.2設(shè)計圖形用戶界面的原則1. 一般性原則一般性原則 n(1)界面要具有一致性w在同一用戶界面中,所有的菜單選擇、命令輸入、數(shù)據(jù)顯示和其他功能應(yīng)保持風格的一致性。 n(2) 常用操作要有快捷方式w為常用操作設(shè)計快捷方式,不僅會提高用戶的工作效率,還使界面在功能實現(xiàn)上簡潔而高效。n(3)提供簡單的錯誤處理 w在出現(xiàn)錯誤時,系統(tǒng)應(yīng)該能檢測出錯誤,并且提供簡單和容易理解的錯誤處理功能 n(4)對操作人員的重要操作要有信息反饋w提供信息反饋。對操作人員的重要操作要有信息反饋。人機交互技術(shù)編寫組294.3.2設(shè)計圖形用戶界面的原則1. 一般性原則一般性原則 n(5

15、)操作可逆w對大多數(shù)動作應(yīng)允許恢復(UNDO),對用戶出錯采取比較寬容的態(tài)度n(6)設(shè)計良好的聯(lián)機幫助w人機界面應(yīng)該提供上下文敏感的求助系統(tǒng),讓用戶及時獲得幫助,盡量用簡短的動詞和動詞短語提示命令。 n(7)合理劃分并高效地使用顯示屏w只顯示與上下文有關(guān)的信息,允許用戶對可視環(huán)境進行維護,如放大、縮小窗口;用窗口分隔不同種類的信息,只顯示有意義的出錯信息 n(8)保證信息顯示方式與數(shù)據(jù)輸入方式的協(xié)調(diào)一致w盡量減少用戶輸入的動作,隱藏當前狀態(tài)下不可用的命令,允許用戶自選輸入方式,能夠刪除錯誤的輸入,允許用戶控制交互過程。 人機交互技術(shù)編寫組304.3.2設(shè)計圖形用戶界面的原則2.顏色的使用顏色的

16、使用 n顏色是一種有效的強化手段,同時具有美學價值。使用顏色時應(yīng)注意如下幾點:w(1)限制同時顯示的顏色數(shù).w(2)畫面中活動對象的顏色應(yīng)鮮明,而非活動對象應(yīng)暗淡。w(3)盡量避免不相容的顏色放在一起,如黃與藍,紅與綠等,除非作對比時用。w(4)若用顏色表示某種信息或?qū)ο髮傩?,要使用戶理解這種表示,并盡量采用通用的表示規(guī)則。人機交互技術(shù)編寫組314.3.2設(shè)計圖形用戶界面的原則3.圖標的設(shè)計圖標的設(shè)計 n圖標是可視地表示實體信息的簡潔、抽象的符號。n圖標設(shè)計是方寸藝術(shù),需要在很小的范圍內(nèi)表現(xiàn)出圖標的內(nèi)涵。n設(shè)計圖標時應(yīng)該著重考慮視覺沖擊力,要使用簡單的顏色,利用眼睛對色彩和網(wǎng)點的空間混合效果,

17、做出精彩圖標 。人機交互技術(shù)編寫組324.3.2設(shè)計圖形用戶界面的原則設(shè)計圖標時須遵守的原則和方法:n(1)圖標的圖形應(yīng)該和目標的外形相似。盡量避免過于抽象。n(2)可在圖標中附加上簡要的文本標注,使用戶明確圖標的含義。n(3)設(shè)計圖標應(yīng)盡可能簡單,符合常規(guī)的表達習慣,保持圖標含義的前后連貫。人機交互技術(shù)編寫組334.3.2設(shè)計圖形用戶界面的原則4.按鈕的設(shè)計按鈕的設(shè)計n設(shè)計按鈕應(yīng)該具有交互性,應(yīng)該有3到6種狀態(tài)效果:w點擊時的狀態(tài)w鼠標放在上面但未點擊的狀態(tài)w點擊前鼠標未放在上面時的狀態(tài)w點擊后鼠標未放在上面時的狀態(tài)w不能點擊時的狀態(tài)w獨立自動變化的狀態(tài)n按鈕應(yīng)具備簡潔的圖示效果,應(yīng)能夠讓使

18、用者產(chǎn)生功能上的關(guān)聯(lián)反應(yīng)。屬于一個群組的按鈕應(yīng)該風格統(tǒng)一,功能差異大的按鈕應(yīng)該有所區(qū)別。 人機交互技術(shù)編寫組344.3.2設(shè)計圖形用戶界面的原則5.屏幕布局的設(shè)計屏幕布局的設(shè)計n設(shè)計屏幕布局(Layout)時應(yīng)該使各功能區(qū)重點突出 ,應(yīng)遵循如下幾條原則: w(1)平衡原則n注意屏幕上下左右平衡。w(2)預期原則n對屏幕上所有對象,如窗口、按鈕、菜單等處理應(yīng)一致化,使對象的操作結(jié)果可以預期。w(3)經(jīng)濟原則n在提供足夠信息量的同時要注意簡明、清晰。 w(4)順序原則n對象顯示的順序應(yīng)按需要排列。w(5)規(guī)則化n畫面應(yīng)對稱,顯示命令、對話及提示行在一個應(yīng)用系統(tǒng)的設(shè)計中盡量統(tǒng)一規(guī)范。人機交互技術(shù)編寫

19、組354.3.2設(shè)計圖形用戶界面的原則6.菜單界面的設(shè)計菜單界面的設(shè)計 n菜單在圖形界面的應(yīng)用程序中使用得非常普遍,是軟件界面設(shè)計的一個重要組成方面,描述了一個軟件的大致功能和風格。 n菜單中的選項在功能上與按鈕相當,一般具有下列一種或幾種類型的選項:命令項、菜單項和窗口項。 n菜單的結(jié)構(gòu)一般有單一菜單、線狀序列菜單、樹狀結(jié)構(gòu)菜單、網(wǎng)狀結(jié)構(gòu)菜單等,其中樹狀結(jié)構(gòu)菜單是最常見的結(jié)構(gòu)。 人機交互技術(shù)編寫組36菜單的結(jié)構(gòu)n單一菜單w單一菜單是在幾個選項中做出選擇,可以有兩個或多個選項,用戶可以選中其中一個或確定多個選擇。n線狀序列菜單w把一組相關(guān)聯(lián)的菜單組合在一起,用戶清楚地知道如何向前選擇和目前在菜

20、單中所處的位置,并且可以重返以前所作的選擇。n樹狀結(jié)構(gòu)菜單w樹狀菜單是把選項劃分為若干類,類似的選項組成一組,最后形成一個樹狀結(jié)構(gòu)。n網(wǎng)狀結(jié)構(gòu)菜單w網(wǎng)狀結(jié)構(gòu)菜單允許用戶在父輩菜單與子菜單之間切換,而不必重新回到父輩菜單然后再轉(zhuǎn)到子菜單。人機交互技術(shù)編寫組37圖4-4 Word中設(shè)置字體的界面 人機交互技術(shù)編寫組384.3.2設(shè)計圖形用戶界面的原則設(shè)計菜單界面時應(yīng)注意的一般性原則:n功能組織菜單,合理分類,并力求簡短,前后一致n合理組織菜單界面的結(jié)構(gòu)與層次。n按一定的規(guī)則對菜單項進行排序。n菜單選項的標題要力求文字簡短、含義明確,并且最好以關(guān)鍵詞開始。n常用選項要設(shè)置快捷鍵。n充分利用菜單選項的

21、使能與禁止、可見與隱藏屬性。 n使用彈出式菜單 。 人機交互技術(shù)編寫組394.3.2設(shè)計圖形用戶界面的原則7.填表輸入界面的設(shè)計填表輸入界面的設(shè)計 n在處理大量相關(guān)數(shù)據(jù)的場合下,需要輸入一系列的數(shù)據(jù),這時填表輸入界面是最理想的數(shù)據(jù)輸入界面。n填表輸入界面有以下的特點:w有明確的提示,使用戶可以不需要學習、訓練,也不必記憶有關(guān)的語義、語法規(guī)則。w填表輸入界面充分地利用了屏幕空間。w在填表輸入方式中,可以充分利用上下文信息,幫助用戶完成輸入 。 人機交互技術(shù)編寫組404.3.2設(shè)計圖形用戶界面的原則在設(shè)計填表輸入界面時應(yīng)遵循的原則 n一致性w保證前后用詞、語法一致。 n有含義的表格標題w采用有含義

22、的表格標題,欄目標題要為用戶所熟悉。 n使用易于理解的指導性說明文字w采用易于理解的說明性文字,并力求簡短。如果確實需要較多的信息,應(yīng)為初學者提供一組求助信息。n欄目按邏輯分組排序w表格布局要直觀,欄目按操作邏輯分組排序。 人機交互技術(shù)編寫組41n表格的組織結(jié)構(gòu)和用戶任務(wù)相一致w把相關(guān)的輸入字段組織安排在一起,并按照使用頻率、重要性、功能關(guān)系或使用順序來進行表格的排序和分組。n光標移動方便w需要一種簡單直觀的機制來移動光標,如使用Tab鍵或箭頭鍵。n出錯提示w系統(tǒng)應(yīng)提示輸入數(shù)據(jù)的允許范圍和輸入方法,對不可接受的值給出出錯信息。n提供幫助w界面應(yīng)該在響應(yīng)處提供幫助信息,以解決新用戶在不熟悉的情況

23、下的輸入。 n表格顯示應(yīng)美觀、清楚,避免過分擁擠。人機交互技術(shù)編寫組42圖4-6 填表輸入界面 人機交互技術(shù)編寫組434.3.4 基本的圖形輸入原語 在交互設(shè)計時,將用戶的輸入抽象成一些獨立的、基本的邏輯輸入單元,這些抽象的邏輯輸入單元稱為輸入原語,由這些基本輸入原語可以形成復雜的交互。人機交互技術(shù)編寫組44主要的輸入原語:n1.定位定位w定位是去確定平面或空間的一個點(x, y)或(x, y, z)的坐標,是圖形交互的最基本的輸入原語,許多原語都是建立在定位的基礎(chǔ)上的。 n2.選擇選擇 w在一個選擇集中選出一個元素或幾個元素稱為選擇。 n3.筆畫輸入筆畫輸入 w筆畫輸入用于輸入一組順序的坐標

24、點,筆畫輸入相當于多次調(diào)用定位輸入,輸入的一組點常用于顯示折線或作為曲線的控制點。n4.數(shù)值輸入數(shù)值輸入 w數(shù)值輸入是要在給定的數(shù)字范圍內(nèi)確定一個值。 n5.字符串輸入字符串輸入 人機交互技術(shù)編寫組454.4多通道用戶界面 為適應(yīng)目前和未來的計算機系統(tǒng)要求,人機界面應(yīng)能支持時變媒體(time-varing media),實現(xiàn)三維、非精確及隱含的人機交互,而多通道人機界面是達到這一目的的重要途徑。8 0 年 代 后 期 以 來 , 多 通 道 用 戶 界 面(Multimodal User Interface)成為人機交互技術(shù)研究的嶄新領(lǐng)域,在國內(nèi)外受到高度重視。人機交互技術(shù)編寫組464.4多通

25、道用戶界面多通道用戶界面的研究正是為了消除當前WIMP/GUI用戶界面通信帶寬不平衡的瓶頸,綜合采用視線、語音、手勢等新的交互通道、設(shè)備和交互技術(shù),使用戶利用多個通道以自然、并行、協(xié)作的方式進行人機對話,通過整合來自多個通道的、精確的和不精確的輸入來捕捉用戶的交互意圖,提高人機交互的自然性和高效性,圖4-10所示。人機交互技術(shù)編寫組47圖4-10多通道人機界面概念模型人機交互技術(shù)編寫組48多通道人機界面主要解決科學計算可視化、虛擬現(xiàn)實對計算機系統(tǒng)提出的高效、三維和非精確的人機交互要求。在多通道人機界面中,用戶可以使用自然的交互方式,如語音、手勢、眼神、表情等與計算機系統(tǒng)進行協(xié)同工作。交互通道之

26、間有串行/并行、互補/獨立等多種關(guān)系,因此人機交互方式向人與人的交互方式靠攏,交互的自然性和高效性得到極大的提高。4.4多通道用戶界面人機交互技術(shù)編寫組494.4多通道用戶界面多通道用戶界面主要關(guān)注人機界面中用戶向計算機輸入信息以及計算機對用戶意圖的理解,所要達到的目標可歸納為如下方面:(1)交互的自然性w使用戶盡可能多地利用已有的日常技能與計算機交互,降低認識負荷。(2)交互的高效性w使人機通訊信息交換吞吐量更大、形式更豐富,發(fā)揮人機彼此不同的認知潛力。( 3 ) 與 傳 統(tǒng) 的 用 戶 界 面 特 別 是 廣 泛 流 行 的WIMP/GUI兼容。人機交互技術(shù)編寫組504.4.1多通道用戶界

27、面的基本特點 使用多個感覺和效應(yīng)通道使用多個感覺和效應(yīng)通道 允許非精確的交互允許非精確的交互 三維和直接操縱三維和直接操縱 交互的雙向性交互的雙向性 交互的隱含性交互的隱含性 人機交互技術(shù)編寫組514.4.1多通道用戶界面的基本特點1.使用多個感覺和效應(yīng)通道使用多個感覺和效應(yīng)通道n感覺通道側(cè)重于多媒體信息的接受,效應(yīng)通道側(cè)重于交互過程中控制與信息的輸入,兩者密不可分、相互配合。n一種通道(如語音)不能充分表達用戶的意圖時,需輔以其它通道(如手勢指點)的信息;有時使用輔助通道以增強表達力。n交替而獨立地使用不同的通道不是真正意義上的多通道技術(shù),必須允許充分地并行、協(xié)作的通道配合關(guān)系。 人機交互技

28、術(shù)編寫組524.4.1多通道用戶界面的基本特點2.允許非精確的交互允許非精確的交互n人類語言本身就具有高度模糊性人類語言本身就具有高度模糊性,人類在日人類在日常生活中習慣于并大量使用非精確的信息交常生活中習慣于并大量使用非精確的信息交流。流。n允許使用模糊的表達手段可以避免不必要的允許使用模糊的表達手段可以避免不必要的認識負荷,有利于提高交互活動的自然性和認識負荷,有利于提高交互活動的自然性和高效性。高效性。n多通道人機交互技術(shù)主張以充分性代替精確多通道人機交互技術(shù)主張以充分性代替精確性。性。人機交互技術(shù)編寫組534.4.1多通道用戶界面的基本特點3.三維和直接操縱三維和直接操縱n人類的大多數(shù)

29、活動領(lǐng)域具有三維和直接操縱人類的大多數(shù)活動領(lǐng)域具有三維和直接操縱特點(數(shù)學的和邏輯的活動例外)。特點(數(shù)學的和邏輯的活動例外)。n人生活在三維空間,習慣于看、聽和操縱三人生活在三維空間,習慣于看、聽和操縱三維的客觀對象,并希望及時看到這種控制的維的客觀對象,并希望及時看到這種控制的結(jié)果。結(jié)果。n多通道人機交互的自然性反應(yīng)了這種本質(zhì)特多通道人機交互的自然性反應(yīng)了這種本質(zhì)特點。點。 人機交互技術(shù)編寫組544.4.1多通道用戶界面的基本特點4.交互的雙向性交互的雙向性n人的感覺和效應(yīng)通道通常具有雙向性的特點,如視覺可看可注視,手可控制、可觸及等。n多通道用戶界面使用戶避免生硬的、不自然的、頻繁的、耗

30、時的通道切換,從而提高自然性和效率。n視線跟蹤系統(tǒng)可促成視覺交互雙向性,聽覺通道利用三維聽覺定位器實現(xiàn)交互雙向性。 人機交互技術(shù)編寫組554.4.1多通道用戶界面的基本特點5.交互的隱含性交互的隱含性n追求交互自然性的多通道用戶界面并不需要用戶顯式地說明每個交互成分,反之是在自然的交互過程中隱含地說明。n例如,用戶的視線自然地落在所感興趣的對象之上;又如,用戶的手自然地握住被操縱的目標。 人機交互技術(shù)編寫組564.4.2多媒體技術(shù) 定義n多媒體(multimedia)的含義是使用計算機交互式綜合技術(shù)和數(shù)字通信網(wǎng)技術(shù)處理多種表示媒體,如文本、圖形、圖像和聲音,使多種信息建立邏輯連接,集成為一個交

31、互系統(tǒng)。 人機交互技術(shù)編寫組574.4.2多媒體技術(shù)多媒體技術(shù)的組成部分包括:n存儲與訪問技術(shù)n表現(xiàn)與表達技術(shù)n實時處理技術(shù)n接口技術(shù)n人機交互界面技術(shù)等人機交互技術(shù)編寫組584.4.2多媒體技術(shù)多媒體技術(shù)與人機交互技術(shù)n多媒體技術(shù)使人機交互技術(shù)最終要向著更接近于人的自然方式發(fā)展,使計算機具有聽覺和視覺,以更自然的方式與人交互。n多媒體技術(shù)引入了動畫、音頻、視頻等動態(tài)媒體,大大豐富了計算機表現(xiàn)信息的形式,拓寬了計算機輸出的帶寬,提高了用戶接受信息的效率,使人們可以得到更直觀的信息,從而簡化了用戶的操作,擴展了應(yīng)用范圍。人機交互技術(shù)編寫組594.4.2多媒體技術(shù)n它能提高人對信息表現(xiàn)形式的選擇和

32、控制能力。n能提高信息表現(xiàn)形式與人的邏輯和創(chuàng)造能力的結(jié)合程度,在順序、符號信息以及并行、聯(lián)想信息方面擴展人的信息處理能力。n多媒體信息比單一媒體信息對人具有更大的吸引力,有利于人對信息的主動探索而不是被動接受。n另外,由于多媒體所帶來的信息冗余性,重復使用別的媒體或并行使用多種媒體可消除人機通信過程中的多義性及噪聲。人機交互技術(shù)編寫組604.4.3虛擬現(xiàn)實技術(shù)虛擬現(xiàn)實(Virtual Reality)n又稱虛擬環(huán)境(Virtual Environment)。n虛擬現(xiàn)實系統(tǒng)向用戶提供沉浸(immerse)和多感覺通道(multi-sensory)體驗。n在虛擬現(xiàn)實中,人是主動參與者,復雜系統(tǒng)中可

33、能有許多參與者共同在以計算機網(wǎng)絡(luò)系統(tǒng)為基礎(chǔ)的虛擬環(huán)境中協(xié)同工作。虛擬現(xiàn)實系統(tǒng)具有三個重要特點:n沉浸感(immersion)n交互性(interaction)n構(gòu)想性(imagination)人機交互技術(shù)編寫組614.4.3虛擬現(xiàn)實技術(shù)虛擬現(xiàn)實中的基本要素:(1)計算機生成的虛擬世界(環(huán)境)必須是一個能給人提供視覺、聽覺、觸覺、嗅覺以及味覺等多種感官刺激的世界。目前虛擬現(xiàn)實通常由視覺、聽覺和觸覺三種刺激構(gòu)成。(2)虛擬現(xiàn)實統(tǒng)實質(zhì)上是一種高級的人機交互系統(tǒng)。這里的交互操作是對多通道信息進行的,并且對沉浸式系統(tǒng)要求采用自然方式的交互操作,對于非沉浸式系統(tǒng)也可使用常規(guī)交互設(shè)備進行交互操作。 人機交互

34、技術(shù)編寫組62虛擬世界的概念模型虛擬世界的概念模型n虛擬現(xiàn)實是人們可以通過視、聽、觸等信息通道感受到設(shè)計者思想的用戶界面,由兩部分組成:一部分是創(chuàng)建的虛擬世界(環(huán)境),另一部分是為介入者(人)。n虛擬世界的核心是強調(diào)兩者之間的交互操作,即反映出人在虛擬世界(環(huán)境)中的體驗。n人機交互是虛擬現(xiàn)實的核心。人機交互技術(shù)編寫組63虛擬現(xiàn)實的概念模型虛擬現(xiàn)實的概念模型介入者感知系統(tǒng)反應(yīng)系統(tǒng)虛擬世界(環(huán)境)感官刺激信號反應(yīng)動作 圖圖4-11 虛擬現(xiàn)實的概念模型虛擬現(xiàn)實的概念模型人機交互技術(shù)編寫組64虛擬現(xiàn)實的概念模型虛擬現(xiàn)實的概念模型理解虛擬現(xiàn)實的概念模型n從虛擬環(huán)境對人的作用來看,虛擬現(xiàn)實的概念模型可以

35、看作為“顯示/檢測”模型。n從人對虛擬環(huán)境的作用來看,也就是從用戶的角度看,上述概念模型可以看作“輸入/輸出”模型。w輸入是指用戶感知系統(tǒng)接受虛擬環(huán)境提供的各種感官刺激信號。w輸出是指用戶對虛擬環(huán)境系統(tǒng)做出的反映動作。人機交互技術(shù)編寫組65虛擬現(xiàn)實與多媒體及多通道虛擬現(xiàn)實技術(shù)正是一種以集成為主的技術(shù),其人機界面可以分解為多媒體、多通道界面。從本質(zhì)上說,多媒體用戶界面技術(shù)側(cè)重解決計算機信息表現(xiàn)及輸出的自然性和多樣性問題,而多通道技術(shù)側(cè)重解決計算機信息輸入及理解的自然性和多樣性問題。 人機交互技術(shù)編寫組66虛擬現(xiàn)實造型語言VRMLVRMLn是一種描述交互式三維世界和對象的文件格式。VRML允許描述

36、對象并把對象組合到虛擬場景中,可以實現(xiàn)仿真系統(tǒng),可模擬動畫、具有動力學特性的物體。nVRML能構(gòu)造一個交互的虛擬世界,其中的對象能對外部事件做出響應(yīng),并可在其中任意穿行。n可以支持虛擬場景的網(wǎng)上發(fā)布,并可實現(xiàn)多用戶的實時參與。nVRML比高級語言容易掌握,并且無須再去了解OpenGL3D或者 Directx3D之類的三維圖形開發(fā)庫。nVRML文件的解釋、執(zhí)行和顯示一般由瀏覽器來完成。 人機交互技術(shù)編寫組67VRML瀏覽器的概念模型 VRML瀏覽器概念模型的組成n解釋器w讀取VRML文件并產(chǎn)生場景圖。n場景圖w場景圖包括節(jié)點的變換層次和路徑圖及執(zhí)行引擎。w執(zhí)行引擎處理事件、讀取和編輯路徑圖、改變

37、節(jié)點的變換層次。n聽視覺展示w瀏覽器的聽視覺展示部分完成變換層次的圖形和聲音的產(chǎn)生,給用戶以反饋。人機交互技術(shù)編寫組68用戶執(zhí)行引擎路徑圖*插值器*感知器*腳本變換層次音頻視頻展示解釋器原型內(nèi)建節(jié)點VRML文件用戶輸入VRML瀏覽器場景圖w圖圖4-12 一種一種 VRML瀏覽器的瀏覽器的概念模型概念模型人機交互技術(shù)編寫組694.4.4眼動跟蹤(Eye-Gaze Tracking) 與視覺有關(guān)的人機交互自始至終都離不開視線的控制。如果能通過視線的用戶盯著感興趣的目標,計算機便“自動”將光標置于其上,人機交互將更為直接,也省去了上述交互過程中的大部分步驟。人機交互技術(shù)編寫組704.4.4眼動跟蹤早

38、期的視線跟蹤技術(shù)首先應(yīng)用于心理學研究、助殘等領(lǐng)域,后來被應(yīng)用于圖像壓縮及人機交互技術(shù)。視線跟蹤技術(shù)有強迫式與非強迫式、穿戴式與非穿戴式、接觸式與非接觸式之分。視線追蹤主要用于軍事領(lǐng)域(如飛行員觀察記錄),閱讀及幫助殘疾人通信等。 人機交互技術(shù)編寫組711.眼動的主要形式眼動的主要形式 眼動有三種主要形式(在人機交互中,眼動跟蹤主要利用跳動和注視:n跳動(Saccades)w在正常的視覺觀察過程中,眼動表現(xiàn)為在一系列被觀察目標上的停留及在這些停留點之間的飛速跳躍。w在注視點之間的飛速跳躍稱為眼跳動。n注視(Fixations)w停留時間至少持續(xù)100ms以上的稱為注視。在注視中,眼也不是絕對靜止

39、不動,會有微小運動,但大小一般不會超過1視角。w絕大多數(shù)信息只有在注視時才能獲得并進行加工。n平滑尾隨跟蹤(SmoothPursuit)w緩慢、聯(lián)合追蹤的眼動通常稱為平滑尾隨跟蹤。人機交互技術(shù)編寫組722.眼動跟蹤的基本要求眼動跟蹤的基本要求 在人機交互中眼動跟蹤技術(shù)必須滿足以下幾點要求,才能滿足實際需求: n不能妨礙視野。n不要與用戶接觸,對用戶基本無干擾。n精度要高。 n動態(tài)范圍要從1弧分(六十分之一弧度)到45。 n反映速度要快,實時響應(yīng)。n能與獲取的身體和頭部運動相配合。 n定位校正簡單。 n可作為計算機的標準外設(shè)。 人機交互技術(shù)編寫組733.眼動跟蹤的基本原理眼動跟蹤的基本原理 利用

40、紅外發(fā)光二極管發(fā)出紅外線,采用圖像處理技術(shù)和能鎖定眼睛的特殊攝像機,通過分析人眼虹膜和瞳孔中紅外線圖象點的連續(xù)變化情況,得到視線變化的數(shù)據(jù),從而達到視線追蹤的目的。 從視線跟蹤裝置得到的原始數(shù)據(jù)需要經(jīng)過進一步的處理才能用于人機交互。數(shù)據(jù)處理的目的是濾除噪聲、識別定位及局部校準與補償?shù)?,最重要的是提取出用于人機交互所必需的眼睛定位坐標。但是由于眼動存在固有的抖動,以及眼睛眨動、頭部劇烈的移動所造成的數(shù)據(jù)中斷,存在許多干擾信號,提取有意眼動數(shù)據(jù)非常困難。解決此問題的辦法之一是利用眼動的某種先驗模型加以彌補。 人機交互技術(shù)編寫組744.米達斯接觸問題與解決方法“米達斯接觸(Midas Touch)”

41、問題n如果鼠標器光標總是隨著用戶的視線移動,可能會引起用戶的厭煩,因為用戶可能希望能隨便看著什么而不必非“意味著”什么,更不希望每次轉(zhuǎn)移視線都可能啟動一條計算機命令。 避免“米達斯接觸”問題的方法:在理想情況下,應(yīng)當在用戶希望發(fā)出控制時,界面及時地處理其視輸入,而在相反的情況下則忽略其視線的移動。 可采用其他通道(如鍵盤或語音)進行配合。人機交互技術(shù)編寫組754.4.5手勢識別(gesture recognition) 一個簡單的手勢蘊涵著豐富的信息,人與人可以通過手勢傳達大量的信息,實現(xiàn)高速的通信。將手勢運用于計算機能夠很好地改善人機交互的效率。 在多數(shù)情況下我們籠統(tǒng)地認為手勢是人的上肢(包

42、括手臂、手和手指)的運動狀態(tài)。 人機交互技術(shù)編寫組76手勢的分類 交互性手勢與操作性手勢 n在交互性手勢中手的運動表示特定的信息(如樂隊指揮),靠視覺來感知;操作性手勢不表達任何信息(如彈琴)。自主性手勢和非自主性手勢 n自主性手勢與語音配合用來加強或補充某些信息(如演講者用手勢描述動作、空間結(jié)構(gòu)等信息)。 離心手勢和向心手勢 n離心手勢直接針對說話人,有明確的交流意圖,向心手勢只是反應(yīng)說話人的情緒和內(nèi)心的愿望。 人機交互技術(shù)編寫組77計算機識別和解釋手勢利用計算機識別和解釋手勢輸入是將手勢應(yīng)用于人機交互的關(guān)鍵前提,識別手勢的手段有: n鼠標器和筆w優(yōu)點是僅利用軟件算法來實現(xiàn),從而適合于一般桌

43、面系統(tǒng)。w缺點是只能識別手的整體運動而不能識別手指的動作。n數(shù)據(jù)手套w主要優(yōu)點是可以測定手指的姿勢和手勢。w相對而言較為昂貴,并且有時會給用戶帶來不便。 n計算機視覺w利用攝像機輸入手勢,優(yōu)點是不干擾用戶,這是一種很有前途的技術(shù)。w在技術(shù)上存在很多困難,還難以勝任手勢識別和理解的任務(wù)。 人機交互技術(shù)編寫組78主要手勢識別技術(shù)n模板匹配技術(shù)w一種最簡單的識別技術(shù),將傳感器輸入的原始數(shù)據(jù)與預先存儲的模板進行匹配,通過度量兩者之間的相似度完成識別任務(wù)。n神經(jīng)網(wǎng)絡(luò)技術(shù)w一種較新的模式識別技術(shù),具有自組織和自學習能力,具有分布性特點,抗噪聲能力比較強,能處理不完整的模式,并具有模式推廣能力。 n統(tǒng)計分析

44、技術(shù)w通過統(tǒng)計樣本特征向量來確定分類器的一種基于概率的分類方法。在模式識別中一般采用貝葉斯極大似然理論確定分類函數(shù)。人機交互技術(shù)編寫組79實用的手勢識別目前較為實用的手勢識別是基于數(shù)據(jù)手套。因為數(shù)據(jù)手套不僅可以輸入包括三維空間運動在內(nèi)的較為全面的手勢信息,而且比基于計算機視覺的手勢在技術(shù)上要容易實現(xiàn)。人機交互技術(shù)編寫組804.4.6三維輸入 許多應(yīng)用(如虛擬現(xiàn)實系統(tǒng))需要三維空間定位技術(shù):三維空間控制器的共同特點是具有六個自由度,分別描述三維對象的寬度、深度、高度、俯仰角、轉(zhuǎn)動角、偏轉(zhuǎn)角。通過控制這六個參數(shù),用戶可以在屏幕上平移三維對象或光標,也可沿三個坐標軸轉(zhuǎn)動三維對象。三維空間控制器、視線

45、跟蹤器、數(shù)據(jù)手套等輸入設(shè)備產(chǎn)生的空間位置是相對的。在三維用戶交互中必須便于用戶在三維空間中觀察、比較、操作、改變?nèi)S空間的狀態(tài)。人機交互技術(shù)編寫組81三維空間的交互操作方式直接操縱直接操縱 n由六個自由度、三維輸入裝置控制的三維光標將使三維交互操作更自然和方便。w三維光標必須有深度感,即必須考慮光標與觀察者距離。離觀察者近的時候較大,離觀察者遠的時候較小。w確定光標在三維空間的方向,這種定向操作必須自然且方便操作;為保持三維用戶界面的空間感,光標在遇到物體時不能進入到物體內(nèi)部。三維光標的實現(xiàn)需要大量的計算,對硬件的要求較高,編程接口也比二維光標復雜得多。 人機交互技術(shù)編寫組82三維空間的交互操

46、作方式三維三維widgetsn三維widgets即三維交互界面中的一些小工具。用戶可以通過直接控制它們使界面或界面中的三維對象發(fā)生改變。 n三維widget包括在三維空間中漂浮的菜單、用于拾取物體的手的三維圖標、平移和旋轉(zhuǎn)指示器等。 人機交互技術(shù)編寫組83采用三視圖輸入技術(shù),實現(xiàn)三維的輸入 如果輸入一個三維點,只要在兩個視圖上把點的對應(yīng)位置指定后便唯一確定了三維空間中的一個點;把直線段上兩端點在三視圖上輸入后便可決定三維空間的一條直線;把一個面上的各頂點在三視圖上輸入后,也唯一確定了三維空間中的一個面;如果把一個多面體上的各面均用上述方法輸入,也就在三維空間中輸入了一個多面體。 人機交互技術(shù)編

47、寫組844.4.7語音識別(speech recognition) 語音識別是計算機通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本文件或命令的技術(shù)。 語音識別又是一門交叉學科,它與聲學、語音學、語言學、數(shù)字信號處理理論、信息論、計算機科學等眾多學科緊密相連。 人機交互技術(shù)編寫組85語音識別涉及的技術(shù) 數(shù)字化語音信號的轉(zhuǎn)換和量化涉及到信號表示問題,需要研究如何使系統(tǒng)在傳感器與環(huán)境的變化中保持性能的穩(wěn)定,以適應(yīng)這些變化。各種語音必須被恰當?shù)亟?,目前采用的最廣泛的建模技術(shù)是隱馬爾科夫模型(HMM)。最后是語言的約束問題。語音識別技術(shù)所涉及的領(lǐng)域包括:信號處理、模式識別、概率論和信息論、發(fā)聲機理和聽覺

48、機理、人工智能等等。目前主流的語音識別技術(shù)是基于統(tǒng)計的模式識別的基本理論,如圖4-13所示。 人機交互技術(shù)編寫組86預處理模型庫測度估計特征提取語音輸入?yún)⒖寄P蜏y試特征后處理識別結(jié)果模型庫圖圖4-13 語音識別系統(tǒng)的處理流程語音識別系統(tǒng)的處理流程人機交互技術(shù)編寫組87語音識別系統(tǒng)的組成 語音特征提取語音特征提取 n從語音信號中提取語音的特征,既可以獲得語音的本質(zhì)特征, 也起到數(shù)據(jù)壓縮的作用。n輸入的模擬語音信號首先要進行預處理,包括預濾波、采樣和量化、加窗、端點檢測、預加重等。聲學模型聲學模型 n聲學模型對應(yīng)于語音到音節(jié)概率的計算。在識別時將輸入的語音特征同聲學模型(模式)進行匹配與比較,得到

49、最佳的識別結(jié)果。n目前采用的最廣泛的建模技術(shù)是隱馬爾科夫模型HMM建模和上下文相關(guān)建模。人機交互技術(shù)編寫組88隱馬爾科夫模型HMM建模n馬爾可夫模型是一個離散時域有限狀態(tài)自動機,隱馬爾可夫模型HMM是指這一馬爾可夫模型的內(nèi)部狀態(tài)外界不可見,外界只能看到各個時刻的輸出值。 n語音識別中使用HMM通常是用從左向右單向、帶自環(huán)、帶跨越的拓撲結(jié)構(gòu)來對識別基元建模,一個音素就是一個三至五狀態(tài)的HMM,一個詞就是構(gòu)成詞的多個音素的HMM串行起來構(gòu)成的HMM,而連續(xù)語音識別的整個模型就是詞和靜音組合起來的HMM。語音識別系統(tǒng)的組成 人機交互技術(shù)編寫組89上下文相關(guān)建模n上下文相關(guān)建模方法在建模時考慮了協(xié)同發(fā)

50、音的影響。n協(xié)同發(fā)音是指一個音受前后相鄰音的影響而發(fā)生變化,從發(fā)聲機理上看就是人的發(fā)聲器官在一個音轉(zhuǎn)向另一個音時只能逐漸變化,從而使得后一個音的頻譜與其他條件下的頻譜產(chǎn)生差異。n上下文相關(guān)模型能更準確地描述語音,只考慮前一音的影響的稱為Bi-Phone,考慮前一音和后一音的影響的稱為Tri-Phone。n英語的上下文相關(guān)建模通常以音素為基元,由于有些音素對其后音素的影響是相似的,因而可以通過音素解碼狀態(tài)的聚類進行模型參數(shù)的共享。 語音識別系統(tǒng)的組成 人機交互技術(shù)編寫組90語言模型語言模型語言模型計算音節(jié)到字的概率。語言模型主要分為: n規(guī)則模型n統(tǒng)計模型w統(tǒng)計語言模型是用概率統(tǒng)計的方法來揭示語

51、言單位內(nèi)在的統(tǒng)計規(guī)律,其中N-Gram模型簡單有效,被廣泛使用。聽寫機n大詞匯量、非特定人、連續(xù)語音識別系統(tǒng)通常稱為聽寫機。其架構(gòu)就是建立在聲學模型和語言模型基礎(chǔ)上的HMM拓撲結(jié)構(gòu)。對話系統(tǒng)n對話系統(tǒng)往往是面向一個狹窄領(lǐng)域、詞匯量有限的系統(tǒng)。語音識別系統(tǒng)的組成 人機交互技術(shù)編寫組91語音識別技術(shù)在實際使用中達到了較好的效果,但如何克服影響語音的各種因素還需要更深入地分析。目前聽寫機系統(tǒng)還不能完全實用化以取代鍵盤的輸入,但識別技術(shù)的成熟同時推動了更高層次的語音理解技術(shù)的研究。由于英語與漢語有著不同的特點,針對英語提出的技術(shù)在漢語中如何使用也是一個重要的研究課題,四聲等漢語本身特有的問題也有待解決

52、。 語音識別技術(shù)存在問題 人機交互技術(shù)編寫組924.4.8表情識別 面部表情是人體語言的一部分。人的面部表情不是孤立的,它與情緒之間存在著千絲萬縷的聯(lián)系。人的各種情緒變化以及對冷熱的感覺都是非常復雜的高級神經(jīng)活動,如何感知、記錄、識別這些變化過程是表情識別的關(guān)鍵。到目前為止,國際上關(guān)于表情分析與識別的研究工作可以分為基于心理學的和基于計算機識別的兩類。人機交互技術(shù)編寫組93計算機面部表情的識別的三個步驟 表情的跟蹤表情的跟蹤 n以某種方式將表情信息從外界攝取出來。表情的編碼表情的編碼 n即對面部表情進行編碼?;诿娌窟\動確定表情的思想,Ekman和Friesen于1978年提出了一個面部動作編

53、碼系統(tǒng)(Facial Action Coding System,F(xiàn)ACS),它是基于對所有引起面部動作的臉的“動作單元”的枚舉編制而成的。 表情的識別表情的識別 n面部表情的識別可以通過對FACS中的那種預定義的面部運動的分類來進行,而不是獨立地確定每一個點。 人機交互技術(shù)編寫組944.4.9手寫識別發(fā)展手寫識別技術(shù)并嵌入到各種設(shè)備中,將是手寫識別技術(shù)未來發(fā)展的重要方向之一。 世界上絕大多數(shù)語言的字符都可以用Unicode的形式來表示。聯(lián)機手寫識別技術(shù)的優(yōu)點是不需專門學習與訓練、不必記憶編碼規(guī)則、安裝后即可手寫輸入漢字,是最簡單方便的輸入方式。同時符合人的書寫習慣,可以一面思考、一面書寫,不會

54、打斷思維的連續(xù)性,是最自然的輸入方式。人機交互技術(shù)編寫組95手寫識別的形式和約束脫機(off-line,又稱離線)識別n脫機識別就是機器對于已經(jīng)寫好或印刷好的靜態(tài)的語言文本圖像的識別。聯(lián)機(on-line,又稱在線)識別n聯(lián)機識別是指用筆在輸入板上寫,用戶一邊寫,機器一邊進行識別,可實時人機交互。手寫體識別的方法和識別率取決于對手寫約束的層次,這些約束主要是手寫的類型、寫字者的數(shù)量、詞匯量的大小以及空間的布局。顯然,約束越寬識別越困難。 人機交互技術(shù)編寫組961.聯(lián)機手寫識別聯(lián)機手寫識別 聯(lián)機手寫文字的識別過程:n預處理、歸一化、特征抽取、特征匹配漢字手寫輸入板預處理模式表達(特征提?。┡袆e(

55、分類或句法分析)字典(特征模板集合或句法規(guī)則集合)漢字代碼圖圖4-14 聯(lián)機手寫識別原理框圖聯(lián)機手寫識別原理框圖人機交互技術(shù)編寫組972.脫機手寫識別脫機手寫識別 脫機手寫識別比印刷體漢字識別、聯(lián)機手寫體識別都要困難。 脫機手寫識別得到的描述則是點陣圖像,要得到筆段的點陣通常需要細化運算。 細化會損失一些信息,并且不可能得到時間順序信息。脫機識別中,筆畫與筆畫之間經(jīng)常粘連,很難拆分,而且筆段經(jīng)過與另一筆段交叉分成兩段后,也難以分清是否應(yīng)該連起來。 人機交互技術(shù)編寫組98漢字識別的方法結(jié)構(gòu)識別n結(jié)構(gòu)識別方法的出發(fā)點是漢字的組成結(jié)構(gòu)。漢字是由筆劃(點、橫、豎、撇、捺等)、偏旁、部首構(gòu)成,通過把復雜

56、的漢字模式分解為簡單的子模式直至基本模式元素,對子模式的判定以及基于符號運算的匹配算法,實現(xiàn)對復雜模式的識別。n結(jié)構(gòu)識別法的優(yōu)點是區(qū)分相似字的能力強,缺點是抗干擾能力差。人機交互技術(shù)編寫組99漢字識別的方法統(tǒng)計識別n統(tǒng)計識別方法是將漢字看為一個整體,其所有的特征是從整體上經(jīng)過大量的統(tǒng)計而得到的,然后按照一定準則所確定的決策函數(shù)進行分類判決。統(tǒng)計識別的特點是抗干擾性強,缺點是細分能力較弱。神經(jīng)網(wǎng)絡(luò)n神經(jīng)網(wǎng)絡(luò)具有學習能力和快速并行實現(xiàn)的特點,因此可以通過神經(jīng)網(wǎng)絡(luò)分類器的推廣能力準則和特征提取器的有效特征提取準則,對手寫字符進行識別。 人機交互技術(shù)編寫組100影響漢字識別率的因素 筆順問題 n書寫習

57、慣影響筆劃的書寫順序,單純通過串匹配進行識別難以達到理想效果。對漢字進行描述時,僅僅采用一維串也就顯得不夠,必須利用一些二維方法來描述,但其會極大地增加匹配的難度。連筆問題 n對于結(jié)構(gòu)識別而言,連筆一方面使筆劃種類大大增加,甚至達到難以歸納的程度;另一方面,連筆又使得筆段抽取難度大增,連筆會增加一些冗余筆段,連筆造成的畸變又會使筆段方向嚴重離散。人機交互技術(shù)編寫組101相似字區(qū)分 n漢字種類繁多,很多漢字彼此之間非常相似,例如“己、已、巳”三個字相差只在細微之間。手寫漢字的變形十分嚴重,怎樣能使識別系統(tǒng)抓住微小的差別,是一個非常值得研究的問題。 對抗干擾能力的要求n書寫時候,筆劃的畸變、丟失,

58、多余筆段(如筆鋒)的插入,字的傾斜,部件間相對位置、大小的變化,經(jīng)常出現(xiàn),會造成基元提取和識別的錯誤。影響漢字識別率的因素 人機交互技術(shù)編寫組1024.4.10數(shù)字墨水(digital ink) 數(shù)字墨水是一種新的人機界面技術(shù),它借鑒手寫識別技術(shù)的同時,克服了它的許多局限性。 數(shù)字墨水在數(shù)學上是通過三階貝塞爾曲線來描述筆輸入的筆跡,它的記錄格式與圖像和文本格式都不同。這種存儲方式使得數(shù)字墨水文件的大小很小,從而可以更有效地進行存儲。 人機交互技術(shù)編寫組103數(shù)字墨水的處理 數(shù)字墨水的表示壓縮和顯示智能的墨水分析技術(shù)墨水標記和注解技術(shù)墨水的智能操作墨水存儲墨水搜索人機交互技術(shù)編寫組104數(shù)字墨水

59、的解析墨水解析技術(shù)是數(shù)字墨水技術(shù)中的亮點,它可以將筆輸入的文字串解析成單字,從而將復雜的語句級手寫識別化繁為簡,分解成語句解析和單字識別兩個部分。可以對記錄下來的數(shù)字墨水進行結(jié)構(gòu)化和深度分析,分析目的不是要去解決“寫的是什么字”,而是要解決“到底在寫什么,以及是如何寫的”。 人機交互技術(shù)編寫組105數(shù)字墨水的保存格式數(shù)字墨水可以用墨水格式保存(ink文件),用戶不再需要利用其他Windows應(yīng)用程序來把手繪、手寫的筆跡轉(zhuǎn)換為別的格式來保存、發(fā)送和編輯。同樣,由于Windows平臺將數(shù)字墨水定義為基本數(shù)據(jù)類型之一,如同文本得到操作系統(tǒng)級的支持一樣,數(shù)字墨水在不同應(yīng)用軟件之間的交換也變得非常容易。

60、數(shù)字墨水的數(shù)據(jù)格式比圖像數(shù)據(jù)格式所占的空間小得多,而且數(shù)字墨水記錄的是結(jié)構(gòu)化的信息,可以進行全文搜索。 人機交互技術(shù)編寫組106數(shù)字墨水的使用當前,微軟已實現(xiàn)了數(shù)字墨水技術(shù)對英文、德文、法文、韓文、日文、簡體和繁體中文等語言的支持。Windows XP Tablet PC Edition擁有強大而簡單的數(shù)字化墨水控件和API,方便軟件開發(fā)商將筆墨功能擴展到其現(xiàn)有和即將推出的軟件中,就如同集成目前的鍵盤和鼠標一樣簡單。 人機交互技術(shù)編寫組107數(shù)字墨水的價值它結(jié)合了個人電腦強大的計算處理能力以及紙的易用性。它“還墨水以本色”,人類不再需要扭曲自己最自然的寫作方式,在機器所設(shè)置的“行”或“框”中按

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論