聾啞人輔助交流系統(tǒng)_第1頁
聾啞人輔助交流系統(tǒng)_第2頁
聾啞人輔助交流系統(tǒng)_第3頁
聾啞人輔助交流系統(tǒng)_第4頁
聾啞人輔助交流系統(tǒng)_第5頁
已閱讀5頁,還剩35頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第1章引言1.1研究背景及意義隨著各類人工智能的快速發(fā)展,各種以人工智能為基礎(chǔ)的產(chǎn)品為人們帶來了的便利,而人機(jī)交互在其中發(fā)揮重要的作用REF_Ref15739\r\h[1]。在科技飛速發(fā)展的今天,我們應(yīng)重視社會上的某些特定人群,如失聰人群。根據(jù)一份關(guān)于殘疾的調(diào)查,目前中國有8500萬名各種類型的殘疾人員,這是一個(gè)很好的數(shù)字,也是一個(gè)很好的數(shù)字REF_Ref15742\r\h[2]。在他們當(dāng)中,失聰?shù)娜藬?shù)超過2000萬,是一個(gè)很大的比例。聾啞人在各種場合都會遇到溝通問題,比如在車站里,聾啞人想要買票,在醫(yī)院里,聾啞人和醫(yī)生交流病情,在銀行里,自己需要向工作人員表示自己需要取錢等,都會遇到溝通的問題REF_Ref15588\r\h[3]。而目前我國手語教育的發(fā)展相對滯后,缺乏手語教育的社會性人才,使我國各高校的教育水平普遍偏低。隨著全球化和信息化的快速發(fā)展,人們的交流和互動(dòng)變得越來越普遍。然而,對于一些特殊人群,如聾啞人,交流和互動(dòng)可能就不容易了。聾啞人存在語言和聽障的限制,無法通過口語進(jìn)行交流,在社交互動(dòng)、教育、就業(yè)等方面受到了很大的障礙。因此,為了幫助聾啞人進(jìn)行更加友好的交流,人們開始利用技術(shù)手段研究和開發(fā)聾啞人輔助交流系統(tǒng)。聾啞人輔助交流系統(tǒng)是一種多模態(tài)交互系統(tǒng),以機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺、自然語言處理等技術(shù)為基礎(chǔ),在幫助聾啞人通過手語、文字和語音等多種方式進(jìn)行交流。其中,手語識別是聾啞人輔助交流系統(tǒng)中的關(guān)鍵技術(shù)之一,此外,為了提供更加全面的服務(wù),該系統(tǒng)還可以結(jié)合各種計(jì)算機(jī)硬件設(shè)備和軟件程序,例如智能手環(huán)、智能眼鏡、移動(dòng)設(shè)備以及即時(shí)通訊軟件等,為聾啞人帶來更為便捷的交流方式。雖然聾啞人輔助交流系統(tǒng)的發(fā)展存在挑戰(zhàn),例如識別準(zhǔn)確率、人機(jī)交互等方面的問題,但是當(dāng)前,這個(gè)領(lǐng)域的研究也正在獲得突破性進(jìn)展。聾啞人輔助交流系統(tǒng)的研究和應(yīng)用,對于聾啞人的生活和社交、教育和就業(yè)等方面都有著重要的意義和作用。這種系統(tǒng)的研究和應(yīng)用,對于聾啞人的生活和社交、教育和就業(yè)等方面都有著重要的意義和作用。雖然聾啞人輔助交流系統(tǒng)還面臨各種技術(shù)和實(shí)際的挑戰(zhàn),但是當(dāng)前這個(gè)領(lǐng)域的研究也正在獲得突破性進(jìn)展,不斷推動(dòng)著聾啞人群體的走向更加平等和自主的社會參與。1.2國內(nèi)外研究現(xiàn)狀1.2.1國內(nèi)研究現(xiàn)狀江西財(cái)經(jīng)大學(xué)軟件與物聯(lián)網(wǎng)工程學(xué)院的張維提出了一種基于神經(jīng)網(wǎng)絡(luò)的手語翻譯系統(tǒng)REF_Ref4316\r\h[7]。在一個(gè)手套中安裝各種傳感器對手部進(jìn)行觀測,并對各種手勢數(shù)據(jù)進(jìn)行采集。在電腦上完成神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,將訓(xùn)練,結(jié)束的權(quán)值矩陣轉(zhuǎn)移到數(shù)據(jù)手套上利用單片機(jī)完成對穿戴者做出的手語動(dòng)作進(jìn)行識別。平均識別成功率在95%以上。國內(nèi)對聾啞人輔助交流系統(tǒng)的研究起步較早,主要涵蓋以下幾個(gè)方面:1.中文手語識別技術(shù)的研究:中文手語是中國聾啞人用于交流的主要方式之一,對于開發(fā)聾啞人輔助交流系統(tǒng)具有重要意義。國內(nèi)研究團(tuán)隊(duì)采集大量中文手語視頻數(shù)據(jù),研究中文手語的特征提取和手勢識別算法,取得了進(jìn)展。2.聲音轉(zhuǎn)文字技術(shù)的研究:聲音轉(zhuǎn)文字技術(shù)可以將公共場所的聲音信息轉(zhuǎn)化為文字,方便聾啞人理解。中國科學(xué)院自動(dòng)化研究所等研究機(jī)構(gòu)在該領(lǐng)域取得了一些成果,但實(shí)用性還有待提高。3.聾啞人教育技術(shù)的研究:針對聾啞人群體的特殊需求,國內(nèi)研究團(tuán)隊(duì)開發(fā)了一系列教育技術(shù)工具,例如手語教學(xué)軟件、視頻字幕制作軟件等,幫助聾啞人更好地學(xué)習(xí)和交流。1.2.2國外研究現(xiàn)狀在上世紀(jì)九十年代末,國外的研究人員就已經(jīng)著手聾啞人交互設(shè)備的相關(guān)研究。研究團(tuán)體多以實(shí)驗(yàn)室為主,展開對聾啞人交互設(shè)備的基礎(chǔ)研究。2010年,科威特大學(xué)團(tuán)隊(duì)的A.S.Tolba提出了一種基于手套的手勢識別系統(tǒng),使用手套設(shè)備捕捉手勢并用最小距離分類器對手勢進(jìn)行分類,最后將手勢轉(zhuǎn)變成阿拉伯語語音,用于解決聽力障礙人群與其他人的之間的交流問題REF_Ref15746\r\h[4]。2014年,英國鄧迪大學(xué)的StephenJ.McKenna提出了基于軌跡的隱馬爾科夫模型識別,一般選用高清攝像頭捕獲手勢動(dòng)作的圖像信息,并在健全和殘疾的受試者中測試了他們自己的手勢詞匯REF_Ref26336\r\h[5]。2020年,印度安那大學(xué)的P.S.Neethu提出了一種手勢檢測與識別辦法,它是基于深度學(xué)習(xí)算法的,所使用的數(shù)據(jù)集是從開放存取圖像數(shù)據(jù)集中獲得的。先對圖像進(jìn)行掩模,并對手部區(qū)域進(jìn)行手指分割、將分割手指圖像的歸一化使用CNN分類器進(jìn)行手指識別,識別率達(dá)到了96.2%REF_Ref15749\r\h[6]。隨著ANN技術(shù)的不斷發(fā)展,在人機(jī)交互中的作用越來越重要。如果能夠把人工神經(jīng)網(wǎng)絡(luò)手勢識別技術(shù)與可穿戴設(shè)備結(jié)合起來,開發(fā)出一種可以讓聾啞人與健全人進(jìn)行交流的人機(jī)交互系統(tǒng),而且它還具有攜帶便利,體積較小,識別率高等優(yōu)點(diǎn),可以用它來解決聾啞人與健全人之間的溝通問題,讓聾啞人能夠更加積極、樂觀,從而推動(dòng)社會主義和諧社會的平衡發(fā)展。

第2章整體設(shè)計(jì)2.1系統(tǒng)設(shè)計(jì)方案在圖2.1中給出了該系統(tǒng)的整體設(shè)計(jì)結(jié)構(gòu)。系統(tǒng)由STM32單片機(jī)、手勢識別模塊、語音識別模塊、姿態(tài)傳感器、電源模塊、語音合成模塊、WIFI模塊組成。該系統(tǒng)的目的是在聾啞人與正常人進(jìn)行溝通的時(shí)候,可以制作一副手套,可以對聾啞人的手勢信息進(jìn)行收集,并使用神經(jīng)網(wǎng)絡(luò)算法對實(shí)驗(yàn)人員的手勢信息進(jìn)行分類,最終以語音、文字的形式表達(dá)出他們的手語。在正常人想要與聾啞人進(jìn)行交談的時(shí)候,可以使用語音模塊對正常人的語音進(jìn)行識別,將正常人的發(fā)出的語音以軟件中動(dòng)畫的形式展示給聾啞人,從而讓聾啞人與正常人的溝通需要得到滿足。語音合成模塊語音合成模塊STM32電源模塊WiFi模塊語音識別模塊手勢識別模塊姿態(tài)傳感器圖2.1系統(tǒng)的總體設(shè)計(jì)框圖在圖3.2中,可以看到一種手語實(shí)時(shí)翻譯的聾啞人無障礙交互系統(tǒng),分別安裝了語音識別模塊,語音合成模塊在手掌和前臂的位置上安裝了姿態(tài)傳感器,將MCU、無線串口模塊和語音識別模塊都收集到了我們自制的電路板上。在圖中,電腦可以將正常人語音識別的結(jié)果通過文字的方式呈現(xiàn)給聾啞人。圖2.2聾啞人與健全人的人機(jī)交互系統(tǒng)在與正常人進(jìn)行對話的時(shí)候,失聰者會帶著,就是普通人對聾啞人做出相應(yīng)動(dòng)作或是說話,電壓并將其傳送到控制模塊,同時(shí),通過語音合成模塊,手勢識別模塊獲得信息,并將其傳送到上位機(jī),通過上位機(jī)展示出文字使得正常人與聾啞人的無障礙交流。TTL的串口通信獲得的X,Y,Z3個(gè)坐標(biāo)軸的變化,并將其傳送到Matlab,MATLAB在接收到失聰者的手背和前臂的姿勢信息后,將其歸一化,并將其輸入到預(yù)先訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)中,由神經(jīng)網(wǎng)絡(luò)進(jìn)行判定,最終得出結(jié)果。然后,將所獲得的特征矢量,以無線方式傳送至Arduino單片機(jī),再由SYN6288中文語音合成模塊,根據(jù)所獲得的特征矢量,用相應(yīng)的語言,將失聰者的動(dòng)作信息轉(zhuǎn)化為正常者能夠聽懂的動(dòng)作信息,實(shí)現(xiàn)了失聰者與正常者之間的溝通。本研究將正常人與聾啞人進(jìn)行互動(dòng),并將其分成兩個(gè)步驟:一是聲音辨識,二是動(dòng)作演示。首先是聲音辨識模組對聲音進(jìn)行辨識,ArduinoMCU主控制模組將辨識的結(jié)果轉(zhuǎn)換成動(dòng)作模組的動(dòng)作資料,最終的動(dòng)作資料則是Unit3D的動(dòng)作資料,而通信模組則是將動(dòng)作資料以無線方式傳送到Unit3D,以達(dá)到動(dòng)作的效果。如果想和聾啞人進(jìn)行溝通,每個(gè)人對LD3320A的語音模塊說出語音。LD3320A語音模塊對語音進(jìn)行識別,當(dāng)識別成功的時(shí)候,向Arduino微控制器發(fā)送16進(jìn)制指令,上傳到上位機(jī)展示文字顯示,Arduino微控制器將x、y軸的偏移量。在Unity里可根據(jù)聲音來控制角色做出動(dòng)作,將健全人的語音信息轉(zhuǎn)化為聾啞人可以看到的文字,從而實(shí)現(xiàn)健全人與聾啞人進(jìn)行溝通的目標(biāo)。2.2本章小結(jié)這一章專門描述了一個(gè)可供聾啞人與正常人無障礙建設(shè)使用的即時(shí)輔助交流系統(tǒng)。分別介紹了手勢翻譯與語音翻譯的無障礙交互系統(tǒng)所選擇的芯片和其他元件,并對系統(tǒng)各個(gè)模塊展開了調(diào)試工作。

第3章硬件設(shè)計(jì)3.1主控模塊本系統(tǒng)所采用的主控模塊是STM32F103微控制器,其原理圖如圖4.1所示,其核心芯片是STM32F0,控制板上有多個(gè)數(shù)字輸入輸出,并集成多個(gè)IO口,選擇STM32F103的理由主要有如下幾個(gè)方面STM32F103微控制器與STM32F0微控制器比較,成本較低,主板功能類似于STM32F0,并且去掉了STM32F0上的一些對于所提出人機(jī)交互系統(tǒng)無用的功能。將其尺寸縮小至38*55mm,比STM32F0小了近一半,滿足了所做人機(jī)交互系統(tǒng)體積小的要求REF_Ref15752\r\h[8REF_Ref15759\r\h-11]。STM32F103單片機(jī)采用16根模擬管腳,實(shí)現(xiàn)了對彎度檢測信號的多路同步收集,實(shí)現(xiàn)了對彎度檢測的反饋REF_Ref15762\r\h[12REF_Ref15769\r\h-15]。此外,它有5個(gè)串口UART接口,實(shí)現(xiàn)與手勢傳感器相連,對手掌和前臂的偏移量進(jìn)行采集,還可以與無線串口模塊相連,實(shí)現(xiàn)數(shù)據(jù)的無線傳輸。STM32F103微控制器所采用的數(shù)據(jù)接口是microUSB,普通的手機(jī)數(shù)據(jù)線即可進(jìn)行數(shù)據(jù)的下載與傳輸,集成了5V/1A與3.3V/1A的穩(wěn)壓芯片,為所接的設(shè)備提供更穩(wěn)定的電壓REF_Ref3271\r\h[16]。此外,本電路板還采用了CH340G的串行通訊晶片,用作UART-USB轉(zhuǎn)換器。工作在12MHz的頻率下,能得到一個(gè)穩(wěn)定的資料交換效果要求電腦上安裝一個(gè)驅(qū)動(dòng)器。數(shù)據(jù)手套的模擬電壓信號需要由模擬輸入管腳來獲得,通過對模擬輸入的管腳的調(diào)用intflexSensorPin=A0,也就是實(shí)現(xiàn)對A0管腳的呼叫,模擬輸入管腳分別從A0到A15,總共有16個(gè)管腳REF_Ref9153\r\h[17]。每一個(gè)數(shù)據(jù)手套的5個(gè)彎曲傳感器都與STM32F103微控制器中的5個(gè)管腳連接,嵌在數(shù)據(jù)手套上的姿態(tài)傳感器與串口UART接口可以完成單手的信息采集,兩個(gè)數(shù)據(jù)手套之間的數(shù)據(jù)的傳輸是由無線串口模塊來完成的,最終將所收集的雙手姿勢數(shù)據(jù)一起用串口打印出來,采集的雙手手指的電壓數(shù)據(jù)與手掌、前臂的角度信息呈現(xiàn)如下。圖3.1STM32F103原理圖3.2手勢識別模塊手勢識別模塊是聾啞人輔助交流系統(tǒng)中非常重要的部分,它能夠識別用戶的手勢并將手勢信號轉(zhuǎn)換成文本或語音輸出,從而幫助聾啞人士進(jìn)行交流。其中,手勢識別傳感器PAJ7620U2是一款比較常用的手勢識別模塊,其可以快速識別15種不同的手勢,而且具有低功耗、高準(zhǔn)確度等特點(diǎn),非常適合作為交互式手勢識別應(yīng)用的核心。接下來,將姿態(tài)傳感器與單片機(jī)相連,可以采用常規(guī)的SPI或I2C接口方式進(jìn)行通信,同時(shí)需要進(jìn)行相關(guān)的數(shù)據(jù)處理和算法優(yōu)化,以實(shí)現(xiàn)更高的手勢識別準(zhǔn)確性和系統(tǒng)響應(yīng)速度。總之,手勢識別模塊的設(shè)計(jì)和實(shí)現(xiàn)對于聾啞人輔助交流系統(tǒng)的功能和性能都有很大的影響,在實(shí)踐中需要充分考慮各種因素,并進(jìn)行有效的模塊集成和算法優(yōu)化。圖3.2手勢識別傳感器模塊原理圖另一方面,姿態(tài)傳感器的選擇也十分重要,因?yàn)樗軌驇椭到y(tǒng)感知用戶手部在空間中的位置和方向,從而更精確地識別用戶的手勢并進(jìn)一步提高手勢識別的準(zhǔn)確性。6軸角度傳感器是一種常用的姿態(tài)傳感器,其包含了一個(gè)三軸加速度計(jì)和一個(gè)三軸陀螺儀,可以同時(shí)感測物體的線性加速度和旋轉(zhuǎn)角速度,從而實(shí)時(shí)計(jì)算物體的姿態(tài)角度。選擇尺寸較小的6軸角度傳感器可以方便地嵌入到數(shù)據(jù)手套和前臂微控制器中,從而實(shí)現(xiàn)更好的集成和便攜性REF_Ref15778\r\h[21REF_Ref2748\r\h-22]。圖3.3中顯示了將姿態(tài)傳感器與單片機(jī)相連的方法。圖3.3姿態(tài)傳感器與微控制器的連接方式姿態(tài)傳感器的參考坐標(biāo),如圖3.4所示。圖3.4姿態(tài)傳感器參考坐標(biāo)3.3通信模塊在圖3.5中,可以看到人機(jī)交互系統(tǒng)中所選用的無線串口模塊,它之所以采用無線串口模塊,是因?yàn)榭梢宰尳换ハ到y(tǒng)不受電線的干擾,從而可以讓普通人在進(jìn)行手勢識別和語音識別功能中變得更加便利,不會因?yàn)殡娋€的影響,而造成手語打得不夠準(zhǔn)確。這個(gè)系統(tǒng)總共使用了三個(gè)無線模組,每一雙手套都使用了一個(gè),另外一個(gè)則插入了電腦中??梢允闺娔X與電腦間無線連接。圖3.5DL-30無線串口模塊實(shí)物圖無線串口模塊有兩種方法,一種是兩個(gè)無線模塊之間的傳輸方法,另外是多個(gè)無線模塊之間的傳輸方法。在多個(gè)無線模塊之中實(shí)行傳送的方式中,可以從整個(gè)對比框架、且含有相同的波特率的無線模塊接收到一個(gè)無線模塊的數(shù)據(jù),可以從其所屬的串口發(fā)送。在這個(gè)傳送模式中,傳輸?shù)臄?shù)據(jù)會有著一定比例的錯(cuò)誤率,并且當(dāng)無線模塊數(shù)量有很多的時(shí)候,其錯(cuò)誤率會有很大的上升,所以,在進(jìn)行設(shè)置的時(shí)候,我們一定要采用了第一種方式,就是兩個(gè)模塊之間的傳輸方式,這樣就可以保證數(shù)據(jù)不會丟失。兩個(gè)無線模塊之間的傳輸模式可以分為a和b,一個(gè)串口用來發(fā)送數(shù)據(jù),另一個(gè)串口用來接收發(fā)送數(shù)據(jù)串口所發(fā)出的數(shù)據(jù),在這種傳輸模式中,同一個(gè)波特率只能允許有兩個(gè)串口可以相互通信,并且可以做到數(shù)據(jù)不丟失。所以,本系統(tǒng)選擇了第一種傳送方式。3.4語音合成模塊選擇了圖4.7中的語音合成模塊,使其可以用較低的成本,得到較高的體驗(yàn)度的語音播報(bào)效果??梢赞D(zhuǎn)換為多種中文和英語的語音,所發(fā)出的語音能給我們一種完美的感受。采用串口通信方式,接收控制器發(fā)出的命令,并發(fā)出與命令相對應(yīng)的語音,從而實(shí)現(xiàn)從文本到語音的轉(zhuǎn)換REF_Ref29977\r\h[23REF_Ref15782\r\h-24]。圖3.6SYN6288中文語音合成原理圖圖3.7SYN6288中文語音合成模塊實(shí)物圖圖4.8是一個(gè)語音合成模塊的工作流程圖,我們可以把Arduino單片機(jī)的串口與語音芯片相連,同時(shí)還可以從Arduino單片機(jī)的串口向該芯片發(fā)送一個(gè)控制命令,讓該芯片發(fā)出一個(gè)對應(yīng)的聲音,而該命令則會被轉(zhuǎn)換成一個(gè)語音,并由一個(gè)功率放大器來增強(qiáng)該語音,最終通過揚(yáng)聲器來播放該語音REF_Ref15785\r\h[25REF_Ref24245\r\h-26]。圖3.8語音合成模塊的流程示意圖3.5語音識別模塊在手語實(shí)時(shí)翻譯的聾啞人無障礙交互系統(tǒng)中,將語音控制技術(shù)與上位機(jī)技術(shù)結(jié)合起來,將發(fā)出的語音轉(zhuǎn)換成聾啞人可以理解的文字。為了滿足識別的實(shí)時(shí)性,我們選擇了LD3320A作為語音芯片REF_Ref15788\r\h[27]。詳細(xì)結(jié)果如圖4.9所示。該系統(tǒng)是飛音云公司開發(fā)的一種聲音識別系統(tǒng)。這個(gè)語音識別模塊可以最多識別用戶五百多條語音,它可以滿足日常對話的需要,與本系統(tǒng)的要求相吻合。圖3.9語音識別模塊原理圖圖3.10LD3320A語音識別模塊3.6電源模塊為方便起見,本設(shè)計(jì)采用了單獨(dú)電源的方式。選擇了7.4V和1300MAH的鋰電池,將其用作外部供電設(shè)備REF_Ref2225\r\h[28]。如圖4.10中所示可滿足聾啞人日常出行需求。圖3.11電源供電模塊MPU6050姿態(tài)傳感器原理圖語音識別模塊原理圖手勢識別模塊原理圖

STM32主控原理圖WiFi串口原理圖

第4章系統(tǒng)軟件設(shè)計(jì)4.1系統(tǒng)軟件設(shè)計(jì)流程圖初始化初始化開始語音識別并上傳到上位機(jī)顯示識別到手勢?否是圖4.1系統(tǒng)主程序流程圖該系統(tǒng)的軟件設(shè)計(jì)流程圖包括以下四個(gè)主要步驟(如上圖4.1所示):1.開始:系統(tǒng)開始啟動(dòng)并進(jìn)行初始化,并通過傳感器獲取用戶的手勢信號。2.初始化:初始化過程中,系統(tǒng)將讀入傳感器采集到的信號,并對信號進(jìn)行預(yù)處理、濾波和分析,以得到準(zhǔn)確的手勢數(shù)據(jù)。3.是否識別到手勢:系統(tǒng)根據(jù)設(shè)定好的手勢庫對采集到的手勢數(shù)據(jù)進(jìn)行識別,同時(shí)判斷是否檢測到有效手勢,如果檢測到有效手勢,則進(jìn)入下一步處理。4.語音識別并上傳到上位機(jī)顯示:系統(tǒng)接著將檢測到的手勢轉(zhuǎn)化為相應(yīng)的語音信號,并將語音信號上傳到上位機(jī)進(jìn)行顯示或其他相應(yīng)操作,從而實(shí)現(xiàn)與聾啞人的交互式通信。在實(shí)際實(shí)現(xiàn)過程中,系統(tǒng)可以根據(jù)用戶的需求和特定應(yīng)用場景進(jìn)行相應(yīng)的優(yōu)化和改進(jìn),例如增加用戶操作界面、語音控制等功能,并使用機(jī)器學(xué)習(xí)算法對手勢庫進(jìn)行優(yōu)化和擴(kuò)充,進(jìn)一步提高系統(tǒng)的交互式性能和用戶體驗(yàn)。

4.2手勢識別傳感器軟件設(shè)計(jì)初始化初始化開始保存結(jié)束是否識別到手勢輸入是否正確否是是否圖4.2手勢識別模塊流程圖手勢識別傳感器軟件設(shè)計(jì)流程圖可以分為以下幾個(gè)步驟(如上圖4.2所示):1.開始:系統(tǒng)啟動(dòng)并進(jìn)行初始化。2.初始化:傳感器進(jìn)行初始化,并進(jìn)行數(shù)據(jù)采集和處理。3.是否識別到手勢:傳感器采集到手勢數(shù)據(jù),并識別進(jìn)行判別,判斷是否有有效手勢。4.輸入是否正確:對于識別到的手勢,進(jìn)行輸入的正確性判斷,如果輸入正確,則跳到下一步;否則跳到第5步。5.保存:將識別失敗的手勢保存下來以便日后進(jìn)行優(yōu)化。6.結(jié)束:完成當(dāng)前檢測并等待下一次檢測。

4.3語音合成模塊軟件設(shè)計(jì)初始化初始化開始喇叭結(jié)束是否語音合成輸出是否正確否是是否圖4.3語音合成模塊流程圖下面是音合成模塊軟件設(shè)計(jì)流程圖的主要步驟(如上圖4.3所示):1.開始:系統(tǒng)啟動(dòng)并進(jìn)行初始化。2.初始化:語音合成模塊進(jìn)行初始化,并加載相應(yīng)的語音合成引擎。3.是否語音合成:判斷是否檢測到語音信號的輸入,如果有語音信號輸入,則進(jìn)入下一步處理;否則跳到結(jié)束。4.輸入是否正確:對于語音輸入的內(nèi)容進(jìn)行正確性判斷,如果輸入正確,則進(jìn)入下一步處理;否則跳到結(jié)束。5.喇叭:將語音信號通過喇叭或其他音頻輸出設(shè)備進(jìn)行輸出。6.結(jié)束:完成當(dāng)前處理并等待下一次語音輸入。

4.4語音識別模塊軟件設(shè)計(jì)初始化語音識別初始化語音識別開始結(jié)束麥克風(fēng)設(shè)置正確識別是否正確否是是否建立語音命令識別是否正確將識送給執(zhí)行設(shè)備別語音對錯(cuò)誤不執(zhí)行否否是圖4.4語音合成模塊流程圖以下是聾啞人輔助交流系統(tǒng)的音合成模塊流程圖分析(如上圖4.4所示):1.開始:系統(tǒng)啟動(dòng)并進(jìn)行初始化。2.初始化語音識別:建立所需的語音識別引擎和處理算法。3.建立語音命令:將用戶常用的語音命令建立對應(yīng)的指令集,例如“打開電視”、“關(guān)閉燈光”,以便后續(xù)進(jìn)行匹配和識別。4.麥克風(fēng)設(shè)置是否正確:檢測麥克風(fēng)工作狀態(tài),確認(rèn)麥克風(fēng)是否設(shè)置正確。5.語音識別:對麥克風(fēng)輸入的語音信號進(jìn)行識別和匹配,判斷是否與已建立的語音命令匹配。6.若匹配成功:將匹配成功的語音命令發(fā)送給執(zhí)行設(shè)備。7.若匹配失?。翰粓?zhí)行,保持原有狀態(tài)。8.識別是否正確:對于匹配的結(jié)果,進(jìn)行準(zhǔn)確性判斷,如果正確,則跳到第6步;否則跳到第7步。9.結(jié)束:完成當(dāng)前檢測并等待下一次語音輸入。4.5姿態(tài)傳感器軟件設(shè)計(jì)姿態(tài)傳感器軟件設(shè)計(jì)如圖所示:初始化初始化開始結(jié)束偏移量顯示MPU6050輸出角度MPU6050姿態(tài)解算MPU6050自檢圖4.5姿態(tài)模塊流程圖以下是聾啞人輔助交流系統(tǒng)的姿態(tài)傳感器軟件設(shè)計(jì)分析(如上圖4.5所示):1.開始:系統(tǒng)啟動(dòng)并進(jìn)行初始化。2.初始化:對姿態(tài)傳感器進(jìn)行初始化,并將所需參數(shù)進(jìn)行配置。3.MPU6050自檢:自檢是用來檢測IMU(慣性測量單元)的參考值是否正確,即是否存儲正確的參考值或者是否處于正常工作狀態(tài)。4.MPU6050姿態(tài)解算:對原始數(shù)據(jù)進(jìn)行加速度計(jì)校準(zhǔn),計(jì)算陀螺儀的漂移速率,利用卡爾曼濾波算法進(jìn)行姿態(tài)解算,計(jì)算當(dāng)前的姿態(tài)信息(如俯視角、翻滾角、偏航角)。5.MPU6050輸出角度:將計(jì)算得到的姿態(tài)角度信息輸出到控制臺或可視化界面。6.偏移量顯示:在可視化界面上顯示IMU的偏移量信息,以幫助用戶更好地了解IMU的狀態(tài)和性能。7.結(jié)束:完成當(dāng)前處理并等待下一次姿態(tài)傳感器數(shù)據(jù)輸入。

第5章實(shí)驗(yàn)及結(jié)果分析5.1健全人向聾啞人交互整體實(shí)驗(yàn)及結(jié)果5.1.1實(shí)驗(yàn)步驟在本實(shí)驗(yàn)中,我們對以上所做出的實(shí)物所有的功能進(jìn)行實(shí)驗(yàn),目的是實(shí)現(xiàn)聾啞人與健全人的溝通,將實(shí)物拿出健全人向聾啞人做動(dòng)作或是說話通過上位機(jī)轉(zhuǎn)化為文字,使聾啞人能夠理解。這些動(dòng)作都來自中國普通話的基礎(chǔ)語言和手勢動(dòng)作,因?yàn)橐M(jìn)行的是靜止動(dòng)作,所以我們選擇了兩種不同的動(dòng)作,包括兩種動(dòng)作。本研究以4位受試者為研究對象,男女各半平均分,年紀(jì)大概在24~30歲。實(shí)驗(yàn)開始前,對所選取對象進(jìn)行數(shù)據(jù)的采集,所測出的數(shù)據(jù)會拿來模擬神經(jīng)網(wǎng)絡(luò)的訓(xùn)練集。測繪數(shù)據(jù)的時(shí)候,實(shí)驗(yàn)者要根據(jù)自己的想法來說出語言或做手勢。原因是不同的人在做動(dòng)作時(shí)因?yàn)槊總€(gè)人的姿勢和角度的不同,他們所作出的動(dòng)作會存在一定的差別。最后,建立了一個(gè)人工神經(jīng)網(wǎng)絡(luò)的訓(xùn)練集合。啟動(dòng)試驗(yàn):1.把實(shí)驗(yàn)計(jì)劃和實(shí)驗(yàn)經(jīng)過的程序放在ArduinoIDE中,然后燒錄到STM32F103MCU中。2.試驗(yàn)人員佩戴資料手套3.打開兩只手的數(shù)據(jù)手套的電力開關(guān),以向其提供電力4.啟動(dòng)MATLAB,運(yùn)行MATLAB,把收集到的手語信息傳送到MATLAB,通過MATLAB內(nèi)的神經(jīng)網(wǎng)絡(luò),對收集到的信息進(jìn)行辨識,最后得出辨識結(jié)果。5.在正確地識別之后,MATALB將會顯示出相應(yīng)的手語圖像,并將其傳遞到MATALB中,從而讓MATALB的聲音通過MATALB來實(shí)現(xiàn)。假設(shè)實(shí)驗(yàn)人員說話或者做出一些簡單的動(dòng)作,那樣的話上位機(jī)會識別出這個(gè)語音或動(dòng)作相應(yīng)的文字,上位機(jī)會以文字的方式顯示出來,顯示出來正確是文字就說明這是正確的。5.1.2測試結(jié)果分析在一個(gè)模糊矩陣中,每個(gè)模糊矩陣的行數(shù)都對應(yīng)著一個(gè)模糊的分類,每個(gè)模糊矩陣的列數(shù)都對應(yīng)著一個(gè)模糊的分類。斜線上的單位與正確的分類器相對應(yīng)。在對角線之外的區(qū)域,相應(yīng)于一個(gè)錯(cuò)誤的歸類。模糊矩陣圖表最右側(cè)的一欄代表了每一個(gè)分類中,被預(yù)測出的是對的和錯(cuò)的分類的比例。這種指示器叫做精確度。模糊矩陣下端的一行是每一種類型中,正確與錯(cuò)誤的樣本所占的比例。這種指示器一般被稱作“召回”。圖5.1四位志愿者的識別成功率從圖5.1的4個(gè)圖中可以看到,對幾個(gè)單手的數(shù)字手語和兩個(gè)雙手手語所呈現(xiàn)的識別率還算成功,所有識別率可以到93.8%。但有時(shí)我們會把一些手勢誤認(rèn)為是別的手勢。例如,在辨認(rèn)手語中,A被誤認(rèn)為手語中的“1”有八次。在做手語3號的試驗(yàn)中,有兩次將1號正確歸類為1號,2次將4號正確歸類為4號。從4名受試者得到的4個(gè)模糊矩陣中,1和9的模糊度最大。從手勢上來看,1號和9號的手勢并沒有太大的區(qū)別,只有食指的姿勢不同,1號手語的時(shí)候,食指的姿勢是筆直的,2號手語的時(shí)候,食指的姿勢是彎曲的。綜合以上得出的結(jié)論,我們可以看到,在面對手型相似的手語時(shí),容易產(chǎn)生識別結(jié)果混淆的情況,如圖所示,分別是各類手勢的識別成功率,總共有30種手勢,由圖可以明顯看出,最大的識別成功率是98%,最小的識別成功率也是91.2%,平均識別率是94.9%。5.2健全人向聾啞人交互模塊實(shí)驗(yàn)及結(jié)果5.2.1實(shí)驗(yàn)步驟本研究以正常人與聾啞患者的對話為研究對象,從前面所構(gòu)建的人聲資料庫中選取了不同類型的語音,并對其進(jìn)行了比較。該試驗(yàn)的目標(biāo)是把健全人的聲音轉(zhuǎn)化為統(tǒng)一的手語動(dòng)畫,使其可以聽懂,從而實(shí)現(xiàn)健全人與聾啞人的交流。本研究以四位受試者為受試者,分別為四位受試者,分別為四位受試者,以排除區(qū)域?qū)κ茉囌甙l(fā)音的影響。我們的試驗(yàn)場地為相對較靜的房間,噪音沒有達(dá)到38分貝。不同的動(dòng)作,不同的實(shí)驗(yàn)人員每個(gè)都要實(shí)驗(yàn)很多次,達(dá)到以數(shù)量取代質(zhì)量。全部實(shí)驗(yàn)人員必須完成所有指定的測試手勢、數(shù)字0到5,英文單詞比如W或Z,和多個(gè)詞語比如她,沒有,一定,愛國,善良,怨恨,貓,狗,豬,天氣,姓名,飯,水和一些生活中常見詞匯的識別。當(dāng)一個(gè)聲音被發(fā)送到一個(gè)聲音后,該聲音被輸入到該聲音中,并被輸入到一個(gè)聲音中,這個(gè)聲音就被識別出來了。對4位志愿者每一次的實(shí)驗(yàn)準(zhǔn)確率進(jìn)行記錄,并對其進(jìn)行統(tǒng)計(jì),最后計(jì)算出志愿者們的平均準(zhǔn)確率。5.2.2測試結(jié)果分析表5.1不同語音信號識別成功率語音志愿者A志愿者B志愿者C志愿者D093.3%96.7%90.0%90.0%186.7%90.0%93.3%93.3%290.0%93.3%90.0%86.7%386.7%96.7%96.7%83.3%493.3%83.3%83.3%90.0%596.7%86.7%93.3%86.7%Z90.0%93.3%86.7%86.7%W93.3%86.7%90.0%96.7%她86.7%90.0%86.7%93.3%沒有96.7%93.3%83.3%86.7%一定93.3%96.7%96.7%96.7%愛國90.0%86.7%90.0%86.7%善良93.3%96.7%93.3%93.3%怨恨96.7%86.7%86.7%90.0%貓90.0%90.0%86.7%86.7%狗96.7%93.3%90.0%90.0%豬90.0%93.3%86.7%96.7%天氣86.7%90.0%90.0%96.7%姓名96.7%96.7%93.3%83.3%飯93.3%90.0%86.7%90.0%水90.0%86.7%96.7%86.7%人96.7%90.0%90.0%93.3%相對90.0%93.3%86.7%90.0%心93.3%86.7%93.3%93.3%學(xué)習(xí)93.3%90.0%86.7%90.0%榜樣83.3%93.3%90.0%93.3%柱子90.0%90.0%93.3%93.3%平均識別率91.3%91%90.2%90.7%試驗(yàn)得到的識別率具體如下表5.1,通過所得到的試驗(yàn)結(jié)果可以看出,語音識別實(shí)驗(yàn)取得了不錯(cuò)的成功,每個(gè)實(shí)驗(yàn)者的語音識別實(shí)驗(yàn)的平均正確識別率為90.8%,最高可達(dá)91.3%,這就說明了本文制作的雙向交互系統(tǒng)語音識別是可靠的,整體來說,設(shè)計(jì)的人機(jī)交互系統(tǒng)中的語音識別環(huán)節(jié)可以高效地實(shí)現(xiàn)健全人與聾啞人之間的溝通,而且其識別率也比較高,可以很容易地讓健全人向聾啞人表示他們想要對聾啞人說的內(nèi)容,而且還實(shí)現(xiàn)了本雙向交互系統(tǒng)對雙向識別精度的需求。5.3實(shí)物功能展示5.3.1手勢識別功能手勢識別傳感器功能實(shí)現(xiàn)如下圖所示:通過人向手勢識別傳感器做相應(yīng)的手勢,從而觸發(fā)手勢識別傳感器通過上位機(jī)顯示文字。當(dāng)正常人對手勢識別傳感器做向左的手勢,上位機(jī)將顯示向左轉(zhuǎn)的文字。當(dāng)正常人對手勢識別傳感器做向右的手勢,上位機(jī)將顯示向右轉(zhuǎn)的文字。當(dāng)正常人對手勢識別傳感器做向前的手勢,上位機(jī)將顯示往前走的文字。當(dāng)正常人對手勢識別傳感器做向后的手勢,上位機(jī)將顯示往后走的文字。5.3.2姿態(tài)識別功能姿態(tài)別傳感器功能實(shí)現(xiàn)如下圖所示:通過對姿態(tài)的識別上位機(jī)端的X,Y,Z軸的偏移量產(chǎn)生變化,在不同角度每個(gè)軸的偏移量不同。5.3.3語音識別功能語音別傳感器功能實(shí)現(xiàn)如下圖所示:在我們對語音識別傳感器說話時(shí),語音識別傳感器會將我們所說的話以為字的方式通過上位機(jī)顯示出來比如“你好,你好”。5.4本章小結(jié)在這一章中,分別介紹了聾人與正常人的互動(dòng)以及正常人與正常人的互動(dòng)。在此基礎(chǔ)上,本文還對聽力正常者與聽力正常者之間的互動(dòng)以及聽力正常者與聽力正常者之間的互動(dòng)進(jìn)行了研究。所選取的實(shí)驗(yàn)對象是健康志愿者,根據(jù)所得到的實(shí)驗(yàn)結(jié)果,本文所提出的雙向交互系統(tǒng)在手勢識別的正確率為94.9%,最高可達(dá)98%,在語音識別的正確率為90.8%,最高可達(dá)91.3%。通過對聽力測試數(shù)據(jù)的分析,證明了該方法在聽力測試中的應(yīng)用是可行的和有效的。可以有效地解決聾啞人在日常生活中的一些交流難題,從而減輕了手語翻譯人員的工作壓力,同時(shí)也有利于聾啞人等特殊群體更好地與社會主義和諧社會相融合。

第6章結(jié)論與展望6.1研究結(jié)論為了讓聾啞人可以更加積極、樂觀地融入到和諧社會中,同時(shí)也要解決目前手語翻譯人員缺乏以及輔助設(shè)備的成本比較高的問題,本文對一種手語實(shí)時(shí)翻譯的聾啞人無障礙的雙向交互系統(tǒng)進(jìn)行了設(shè)計(jì)和制造。這個(gè)系統(tǒng)可以實(shí)現(xiàn)聾啞人與健全人之間的雙向的溝通,而且這種設(shè)備也方便了聾啞人隨身攜帶,而且使用起來也比較簡單。本文涉及的內(nèi)容包含:論文研發(fā)了手語同時(shí)翻譯的聾啞人無障礙雙向交流系統(tǒng)。當(dāng)聾啞人想與健全人交流時(shí),可以制作一副手套,通過通信模塊把采集的手語信息發(fā)送到MATLAB中,并輸出結(jié)果,將得到的結(jié)果通過串口無線傳送到Arduino微控制器,將特征向量對應(yīng)的語音,使SYN6288語音合成模塊發(fā)出與手勢相對應(yīng)的聲音,從而讓健全人可以理解聾啞人的手語。在健壯人與聾啞人進(jìn)行溝通的時(shí)候,健壯人會對語音模塊發(fā)出聲音,LD3320A語音模塊會對聲音進(jìn)行識別,在識別成功的時(shí)候,會向Arduino微控制器發(fā)出一個(gè)16進(jìn)制指令,Arduino微控制器將會收到16進(jìn)制對應(yīng)的人體角度22個(gè)數(shù)據(jù),然后控制3D人體模型做出與其相應(yīng)的手語動(dòng)畫,讓聾啞人能夠了解正常人的語音。在手勢識別的過程中,應(yīng)用的是一種以BP神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)的識別算法,它能夠保證良好的手勢識別率。在第五章的實(shí)驗(yàn)結(jié)果中,說明了系統(tǒng)對單手和雙手的手語可以達(dá)到較好的識別效果。本文建立的可提供聾啞人士即時(shí)口譯之雙向互動(dòng)系統(tǒng),集軟體與硬體之于一體,成本低廉。將神經(jīng)網(wǎng)絡(luò)、語音識別和3D動(dòng)畫技術(shù)結(jié)合到一起,將聾啞人與健全人進(jìn)行溝通,從而使本系統(tǒng)的設(shè)計(jì)與智能外設(shè)的特征十分吻合。6.2研究展望基于手勢,語音實(shí)時(shí)翻譯的聾人無障礙互動(dòng)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn),將神經(jīng)網(wǎng)絡(luò)技術(shù)和語音識別技術(shù)用于聾人和正常人之間的交流,并給出了一種系統(tǒng)性的解決方案,這是一種新的應(yīng)用模式,當(dāng)前尚處在建立一個(gè)完整的雙向互動(dòng)系統(tǒng)框架的階段,但是因?yàn)闀r(shí)間的關(guān)系,本課題的研究仍存在著很多的缺陷。沒有在云端或手機(jī)端上使用BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練與識別,離開了電腦的限制,只構(gòu)建了4種手勢和語音識別的數(shù)據(jù)庫,數(shù)據(jù)庫的種類還需要進(jìn)一步的充實(shí),最終,在對聾啞人手語和健康人語音的識別精度方面還需要進(jìn)一步的提升。

參考文獻(xiàn)謝本齊,江煥,劉又瑜,姜林.基于智能眼鏡與云服務(wù)的聾啞人交流系統(tǒng)設(shè)計(jì)[J].現(xiàn)代信息科技,2022,6(23):151-153.李帥,吳玉蓉.面向聾啞人群的無障礙交流輔助系統(tǒng)設(shè)計(jì)研究[J].物聯(lián)網(wǎng)技術(shù),2022,12(11):113-116.李輝.聾啞人無障礙交流創(chuàng)意產(chǎn)品設(shè)計(jì)[J].電子技術(shù)與軟件工程,2022(05)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論