FL3308 自然語言處理 新課程教學(xué)大綱_第1頁
FL3308 自然語言處理 新課程教學(xué)大綱_第2頁
FL3308 自然語言處理 新課程教學(xué)大綱_第3頁
FL3308 自然語言處理 新課程教學(xué)大綱_第4頁
FL3308 自然語言處理 新課程教學(xué)大綱_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

《自然語言處理》課程教學(xué)大綱(2020版)課程基本信息(CourseInformation)課程代碼(CourseCode)FL3308*學(xué)時(shí)(CreditHours)32*學(xué)分(Credits)2*課程名稱(CourseName)(中文)自然語言處理(英文)NaturalLanguageProcessing課程類型(CourseType)必修課compulsorycourse授課對象(TargetAudience)英語(語言學(xué))本科大三學(xué)生Third-gradeEnglishundergraduates(LinguisticsMajorSeniors)授課語言(LanguageofInstruction)雙語Bilingual*開課院系(School)外國語學(xué)院SchoolofForeignLanguages先修課程(Prerequisite)語料庫語言學(xué)導(dǎo)論AnIntroductiontoCorpusLinguistics后續(xù)課程

(post)*課程負(fù)責(zé)人(Instructor)管新潮課程網(wǎng)址

(CourseWebpage)*課程簡介(中文)(Description)(中文300-500字,含課程性質(zhì)、主要教學(xué)內(nèi)容、課程教學(xué)目標(biāo)等)本課程旨在培養(yǎng)和提升外語類學(xué)生在面對與本學(xué)科相關(guān)的數(shù)據(jù)類型時(shí)的技術(shù)邏輯思維能力和運(yùn)用水平,專注于探索語言知識與技術(shù)的融合性分析路徑,所涉技術(shù)為Python編程語言。Python的優(yōu)勢在于文本處理,如句法結(jié)構(gòu)分析、語料庫文本標(biāo)注、語境識別、文本摘要、文本聚類、文本情感分析、相似性度量、語義分析、主題建模、語料庫語言學(xué)多變量設(shè)置等。學(xué)習(xí)目標(biāo)是利用Python獲取更多可應(yīng)用于描述學(xué)科研究目的的數(shù)據(jù)信息。與課程相關(guān)的學(xué)習(xí)目標(biāo)是以語料庫挖掘手段,通過詞法、句法和語義分析,從語言數(shù)據(jù)中獲取研究用統(tǒng)計(jì)信息,理解并掌握語言數(shù)據(jù)分析的統(tǒng)計(jì)原理。教學(xué)方式以案例講解為主,其中的工具案例用于描述技術(shù)工具的適用性和可靠性,解決技術(shù)應(yīng)用之前有關(guān)編程技術(shù)的知識問題;語言學(xué)路徑案例則緊密結(jié)合語言學(xué)/翻譯學(xué)知識探索如何以技術(shù)手段解決教學(xué)科研中的相關(guān)問題。*課程簡介(英文)(Description)(英文300-500字)Thiscourseisaimedtoimproveforeignlanguagestudents'technicallogicalthinkingabilityandapplicationlevelwhenfacingdatatypesrelatedtothisdiscipline,andtofocusondoinganintegrationanalysisoflanguageknowledgeandtechnology.ThetechnologyinvolvedisPythonprogramminglanguage.Python'sadvantageliesintextprocessing,suchassyntacticstructureanalysis,texttagging,contextrecognition,textsummarization,textclustering,textsentimentanalysis,similaritymeasurement,semanticanalysis,topicmodeling,corpuslinguisticsmultivariatesettingandsoon.ThegoalistousePythontoobtainmoredatainformationthatcanbeusedtodescribetheresearchpurposeofthediscipline.Thelearninggoalrelatedtothecurriculumistoobtainstatisticalinformationforresearchfromlanguagedatabymeansofcorpusminingandlexical,syntacticandsemanticanalysis,andtounderstandandmasterthestatisticalprincipleoflanguagedataanalysis.Theteachingmethodismainlybasedondifferentcases,inwhichtoolcasesareusedtodescribetheapplicabilityandreliabilityoftechnicaltoolsandsolvetheknowledgeproblemsaboutprogrammingtechnologybeforetechnologyapplication;thecasesaboutdifferentlinguisticpathscloselycombinedifferentknowledgefromlinguisticsortranslationstudiestoexplorehowtosolverelatedproblemsinteachingandscientificresearch.課程目標(biāo)與內(nèi)容(Courseobjectivesandcontents)*課程目標(biāo)(CourseObject)1.能了解自然語言處理在本學(xué)科的基本應(yīng)用方法,認(rèn)識到技術(shù)應(yīng)用有其獨(dú)特的語言學(xué)意義,提升專業(yè)自信心。(A3)2.能以創(chuàng)新方式將自然語言處理技術(shù)應(yīng)用于語言學(xué)問題的處理,掌握并提升解決相關(guān)問題的能力。(B1)3.善于發(fā)現(xiàn)語言學(xué)與大數(shù)據(jù)相結(jié)合所產(chǎn)生的新問題,并為此應(yīng)用合適的自然語言處理技術(shù),養(yǎng)成獨(dú)立解決問題的能力。(B3)4.能開展自然語言處理技術(shù)的語言學(xué)適應(yīng)性驗(yàn)證,以確定相應(yīng)技術(shù)是否適宜于為語言學(xué)目的所用。(B2)5.能通過語言知識與技術(shù)的融合性學(xué)習(xí),解決涉及語言產(chǎn)品的細(xì)膩性問題,適應(yīng)社會對高素質(zhì)語言專業(yè)人才的需求。(B5)6.能善于思考語言與技術(shù)融合過程中的算法問題,認(rèn)識到語言學(xué)在現(xiàn)代社會中的價(jià)值與意義。(C3)*教學(xué)內(nèi)容進(jìn)度安排及對應(yīng)課程目標(biāo)(ClassSchedule&Requirements&CourseObjectives)章節(jié)教學(xué)內(nèi)容(要點(diǎn))學(xué)時(shí)教學(xué)形式作業(yè)及考核要求課程思政融入點(diǎn)對應(yīng)課程目標(biāo)示例:1自然語言處理概述內(nèi)容說明:本節(jié)概述內(nèi)容涉及:1.數(shù)據(jù)與數(shù)據(jù)特征2.自然語言3.語言句法和結(jié)構(gòu)4.文本語料庫及其標(biāo)注5.自然語言處理6.語境識別7.文本摘要8.文本聚類9.文本分析10.機(jī)器學(xué)習(xí)11.深度學(xué)習(xí)2以講述為主閱讀文章認(rèn)識到與語言學(xué)相結(jié)合的自然語言處理其社會價(jià)值和意義,提升專業(yè)熱情1,22Python數(shù)據(jù)結(jié)構(gòu)內(nèi)容說明:設(shè)想從語言數(shù)據(jù)中獲取有價(jià)值的語言信息并用于教學(xué)或科研活動,首先必須把文本形式(以文本語料為例)的語言數(shù)據(jù)轉(zhuǎn)換為適宜于Python處理的特定數(shù)據(jù)結(jié)構(gòu)。特定的教學(xué)或科研活動需要特定的語言信息,只有以特定的數(shù)據(jù)結(jié)構(gòu)呈現(xiàn)的語言信息方能滿足特定的教學(xué)或科研目的。換言之,若能將語言數(shù)據(jù)轉(zhuǎn)換為復(fù)雜的語言數(shù)據(jù)結(jié)構(gòu),便能獲取復(fù)雜的語言信息。語言數(shù)據(jù)結(jié)構(gòu)越復(fù)雜,所獲取的語言信息就越能表示語言數(shù)據(jù)本身所蘊(yùn)含的信息和意義。2案例講解和討論復(fù)雜數(shù)據(jù)結(jié)構(gòu)的轉(zhuǎn)換認(rèn)識到數(shù)據(jù)結(jié)構(gòu)在獲取語言數(shù)據(jù)信息中的意義和作用,培養(yǎng)嚴(yán)謹(jǐn)認(rèn)真的專業(yè)態(tài)度1,23文本數(shù)據(jù)清洗內(nèi)容說明:本節(jié)課試圖對不同的語言數(shù)據(jù)清洗方法進(jìn)行歸納總結(jié),以求具有針對性地說明數(shù)據(jù)清洗的復(fù)雜和繁瑣。通過學(xué)習(xí)清洗方法和案例,可掌握較為系統(tǒng)地清洗語言數(shù)據(jù)的方法,也能根據(jù)特定的語言數(shù)據(jù)運(yùn)用合適的清洗方法。2案例講解和討論Ngram數(shù)據(jù)清洗不同語言數(shù)據(jù)的不同清洗方式,培養(yǎng)嚴(yán)謹(jǐn)認(rèn)真的專業(yè)態(tài)度1,24編程中的正則表達(dá)式內(nèi)容說明:\o"本節(jié)內(nèi)容涉及:(1)正則表達(dá)式的基礎(chǔ)內(nèi)容如常見實(shí)例、特殊字符、重復(fù)字符、選擇性字符、指定字符等。(2)re模塊如相關(guān)函數(shù)、標(biāo)志位等。(3)應(yīng)用案例,如連續(xù)與非連續(xù)結(jié)構(gòu)、成語匹配、指定術(shù)語等。"本節(jié)內(nèi)容涉及:(1)正則表達(dá)式的基礎(chǔ)內(nèi)容如常見實(shí)例、特殊字符、重復(fù)字符、選擇性字符、指定字符等。(2)re模塊如相關(guān)函數(shù)、標(biāo)志位等。(3)應(yīng)用案例,如連續(xù)與非連續(xù)結(jié)構(gòu)、成語匹配、指定術(shù)語等。2案例講解和討論提取首字母是元音的所有單詞掌握信息提取的重要手段,培養(yǎng)嚴(yán)謹(jǐn)認(rèn)真的專業(yè)態(tài)度1,25短語數(shù)據(jù)處理工具內(nèi)容說明:作為局部語法研究內(nèi)容之一的短語學(xué),產(chǎn)生于計(jì)算語言學(xué)信息處理的現(xiàn)實(shí)需求,現(xiàn)已被確立為語言學(xué)的一個(gè)專門學(xué)科,并應(yīng)用于自然語言處理等領(lǐng)域。局部語法涵蓋詞匯、句法、語義、語用等內(nèi)容,融合形式、意義、功能于一體,是語料庫語言學(xué)的新發(fā)展,為短語學(xué)提供了一條新的研究路徑。從技術(shù)發(fā)展的現(xiàn)實(shí)角度出發(fā),所述短語學(xué)是指語料庫短語學(xué)。語料庫短語學(xué)是以單語或雙語中短語意義單位為基元,基于語料庫研究范式進(jìn)行語言學(xué)的相關(guān)研究。2案例講解和討論從語料文本中提取有效的N-grams掌握短語數(shù)據(jù)的語言學(xué)意義,認(rèn)知專業(yè)知識的社會意義和價(jià)值3,4,5,66N-grams分析應(yīng)用內(nèi)容說明:N-grams在各類研究中有多種用處,在本次論文解讀中用于預(yù)示語言學(xué)研究趨勢。無論應(yīng)用在何處,其關(guān)鍵是如何提取有效的N-grams。本節(jié)課從學(xué)術(shù)論文解讀開始,了解不同工具提取多連詞的價(jià)值和意義(結(jié)合學(xué)術(shù)論文解讀分析NLTK和spaCy)。2案例講解和討論學(xué)術(shù)文本模糊短語的弱化表述手段區(qū)分短語學(xué)不同應(yīng)用可能性,認(rèn)知專業(yè)知識的社會意義和應(yīng)用價(jià)值3,4,5,67情感分析工具內(nèi)容說明:情感分析工具可分為英文類、中文類、混合類三種,能夠?qū)崿F(xiàn)影評、產(chǎn)品評價(jià)、公眾輿論、政治、預(yù)測等方面的簡易、復(fù)雜、高級情感分析,一般有極性分析和詞表分析兩類。將情感分析工具用于相關(guān)分析時(shí),須思考工具包的組合應(yīng)用效力。2案例講解和討論不同工具的應(yīng)用價(jià)值區(qū)分識別具體工具的應(yīng)用可能性,認(rèn)知專業(yè)知識的社會意義和價(jià)值3,4,5,68情感分析理論與應(yīng)用內(nèi)容說明:情感是指人與人之間以及人與特定對象之間的連接關(guān)系和精神依賴,是構(gòu)成社會歸屬關(guān)系的重要維系紐帶。而情感分析旨在以量化方式為體現(xiàn)這一社會紐帶關(guān)系的情感給出特定的數(shù)值,以作為情感評價(jià)的判斷基礎(chǔ),進(jìn)而實(shí)現(xiàn)人與人、人與特定對象之間關(guān)系的精準(zhǔn)描述,為可接受的行為給出定位取向。情感分析技術(shù)已在市場營銷、貿(mào)易和公共部門等領(lǐng)域廣為接受,它可以識別出人類語言的敘述特點(diǎn),或者利用公共數(shù)據(jù)資源來評估和預(yù)測公共反饋意見且具有良好的精準(zhǔn)度,或者通過分析社交媒體或在線論壇上的信息情感能夠?yàn)樯虡I(yè)企業(yè)創(chuàng)造不可計(jì)數(shù)的商業(yè)價(jià)值。2案例講解和討論情感分析與傳統(tǒng)民意調(diào)查比較情感分析工具在話語建構(gòu)中的作用,認(rèn)知專業(yè)知識促進(jìn)話語權(quán)的社會意義和價(jià)值3,4,5,69相似性度量工具內(nèi)容說明:相似性度量工具可分為詞匯類、句子類、語篇類、詞匯與句子類四種,旨在區(qū)分不同應(yīng)用類型下的具體特征。詞匯相似性度量與句子類、語篇類區(qū)別較大,但其也是后兩者的基礎(chǔ)。詞匯相似性度量不僅涉及知識庫方法如WordNet方法,也列舉了時(shí)下多有應(yīng)用的詞向量方法如spaCy方法,同時(shí)也描述了傳統(tǒng)的互信息方法。句子類與語篇類相似性度量頗為相似如gensim方法或spaCy方法,涉及度量部分的代碼是相同的,區(qū)別僅在于語料文本的加載方法。2案例講解和討論相似性度量三種方法比較掌握知識庫的重要作用,認(rèn)知專業(yè)知識的社會意義和價(jià)值3,4,5,610相似性度量與文本分析內(nèi)容說明:相似性度量方法的應(yīng)用旨在發(fā)現(xiàn)文本所特有的規(guī)律性,即譯本是具有偏向機(jī)器翻譯的特征還是人工翻譯的特點(diǎn),或者同一詞匯在不同文本語境下其搭配概念是否一致,或者以文本相似性聚類方法是否可以判斷語料庫構(gòu)成的平衡性。這一方法的應(yīng)用可能性應(yīng)該是多種多樣的,既可進(jìn)行純粹的相似性度量,也可結(jié)合其他技術(shù),主要在于應(yīng)用場景是否適宜于技術(shù)的應(yīng)用。2案例講解和討論多譯本相似性度量掌握相似性度量方法的機(jī)器翻譯應(yīng)用,認(rèn)知專業(yè)知識的社會實(shí)踐意義3,4,5,611語義分析工具內(nèi)容說明:可供語義分析的工具有多種,如信息貢獻(xiàn)度方法、語義網(wǎng)資源、語義網(wǎng)絡(luò)分析等,還有詞向量(詞嵌入)模型如Word2Vec模型和FastText模型、向量模型如LSI模型、LDA模型。2案例講解和討論語義分析模型的區(qū)分掌握四類模型的效果知識,認(rèn)知專業(yè)知識的社會意義和價(jià)值3,4,5,612語義分析與相關(guān)模型及其分析路徑內(nèi)容說明:無論是局部描述,還是系統(tǒng)呈現(xiàn),語義分析可在文本挖掘分析中具有巨大潛力和各種應(yīng)用可能性。本節(jié)課將以多樣性、系統(tǒng)性、針對性為視角展開文本的語義分析,旨在研究語義分析工具與語言學(xué)或翻譯學(xué)之間的可融合性,為提取更多有效的語言信息探索一條可行之路。語義分析的相關(guān)模型為語義遷移與分布式詞向量、語義主題詞與信息貢獻(xiàn)度、語義關(guān)系與語義網(wǎng)、文本語義與語義網(wǎng)絡(luò)分析。2案例講解和討論著作權(quán)法/版權(quán)法概念copyright詞向量關(guān)聯(lián)性了解新技術(shù)對專業(yè)學(xué)科的發(fā)展所起的作用,認(rèn)知專業(yè)發(fā)展的意義3,4,5,613主題建模工具內(nèi)容說明:本節(jié)課選用gensim和sklearn工具包等的相關(guān)主題建模工具進(jìn)行描述,旨在探究具體工具的應(yīng)用效果。應(yīng)用主題建模工具的關(guān)鍵是主題數(shù)的設(shè)置,但無任何其他信息可供參照的情況下,主題數(shù)的設(shè)置可能是一種盲從,必須付出極大的工作量才會有所收獲,或者顆粒無收。所以,了解并掌握具體工具的基本功能(無論是多主題數(shù)還是一維主題),才能有效結(jié)合其他技術(shù)手段,去實(shí)現(xiàn)語料文本的深層次主題挖掘。2案例講解和討論區(qū)分主題建模中的gensim和sklearn方法掌握主題建模技術(shù)的作用及其局限性,認(rèn)知專業(yè)知識的社會意義和價(jià)值3,4,5,614主題建模中的主題挖掘內(nèi)容說明:本節(jié)課以學(xué)術(shù)文本、新聞文本、法律法條文本為主體建模的語料,旨在探索主題建模方法對不同體裁的適用性。這種適用性不僅體現(xiàn)為語料的區(qū)別,也表現(xiàn)在不同主題建模技術(shù)的應(yīng)用上。如何實(shí)現(xiàn)不同體裁語料和不同主題建模技術(shù)的有效結(jié)合,是主題建模應(yīng)用的關(guān)鍵。本節(jié)將以三個(gè)案例說明這種結(jié)合的實(shí)際意義和作用。2案例講解和討論話語分析中的主題建模適用性掌握話語分析中的技術(shù)應(yīng)用,認(rèn)知專業(yè)知識的社會意義和價(jià)值3,4,5,615變量設(shè)置工具內(nèi)容說明:\o"本課程的應(yīng)用對象為語料庫,因此語料庫語言學(xué)特征構(gòu)成了Python文本分析/自然語言處理的對象。傳統(tǒng)的語料庫工具也可分析某些語料庫語言學(xué)特征,在此要求區(qū)分運(yùn)用Python分析此類特征與傳統(tǒng)方式有何異同。本節(jié)課主要內(nèi)容為詞匯密度、詞長分布、句長分布等。"本節(jié)課嘗試以改進(jìn)或創(chuàng)新方式從三個(gè)層面引入變量設(shè)置工具,即詞匯層面、句子層面和語篇層面。變量設(shè)置工具以詞匯層面的居多,這與詞匯是句子和語篇的基本構(gòu)成單位和基礎(chǔ)不無關(guān)系。只有充分設(shè)置了詞匯層面的工具,才有機(jī)會上升至其他層面。2案例講解和討論語料庫語言學(xué)變量與概率及其

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論