(計算機應用技術專業(yè)論文)基于internet的商業(yè)信息抽取.pdf_第1頁
(計算機應用技術專業(yè)論文)基于internet的商業(yè)信息抽取.pdf_第2頁
(計算機應用技術專業(yè)論文)基于internet的商業(yè)信息抽取.pdf_第3頁
(計算機應用技術專業(yè)論文)基于internet的商業(yè)信息抽取.pdf_第4頁
(計算機應用技術專業(yè)論文)基于internet的商業(yè)信息抽取.pdf_第5頁
已閱讀5頁,還剩54頁未讀 繼續(xù)免費閱讀

(計算機應用技術專業(yè)論文)基于internet的商業(yè)信息抽取.pdf.pdf 免費下載

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

摘要 摘要 i n t e m e t 上數(shù)據(jù)量急劇膨脹使其成為企業(yè)競爭情報獲取的重要來源,然而如 何從這個信息海洋中找到企業(yè)所需要的情報成為困擾企業(yè)競爭情報獲取的難題。 商業(yè)信息抽取作為解決這難題的重要手段,其抽取結果的好壞對最終競爭情報 的形成有著重要的影響。 本文對w e b 環(huán)境上的商業(yè)信息抽取技術進行了研究,主要關注兩個方面: 商業(yè)信息中的關系抽取和實體抽取。針對抽取對象的不同特征,研究不同的技術 方法,以提高抽取的召回率和準確率。其中關系信息抽取以職位關系抽取為例, 分析了職位關系實例在網(wǎng)頁中的呈現(xiàn)特征,設計了基于結構特征的職位關系抽取 算法:實體抽取以機構名識別為例,基于語言學中語法對語義的依賴關系和共生 性詞場兩個觀點,提出了語義隱馬爾可夫模型的機構名識別算法。兩個算法有效 改善了商業(yè)信息抽取效果,同時也為其它商業(yè)信息抽取提供了參考。 本文的主要貢獻主要有: ( 1 ) 提出了基于w e b 的職位關系抽取算法。職位關系反映了一個人在一個 組織所占據(jù)的職位,是一種重要的競爭情報。本文分析了網(wǎng)頁中職位關系實例的 特征,并利用結構化系數(shù)和結構化文件片斷對這些特征進行描述,最后利用模式 匹配的方法從結構化文件片斷中抽取出職位關系。實驗結果表明算法達到了準確 率超過9 6 、召回率超過8 7 的較好結果。 ( 2 ) 提出了基于語義隱馬爾可夫模型的中文機構名識別算法。語義隱馬爾 可夫模型的構建以語言學中的語法對語義的依賴關系和共生性詞場兩個重要觀 點為理論依據(jù)。一個句子可以看作是一個詞的序列,這個序列背后隱含著一個語 義序列,且語義序列決定了句子的組成。我們首先對機構名及其上下文中的詞進 行語義標注,然后構建語義隱馬爾可夫模型。在機構名上下文選擇時利用共生性 詞場現(xiàn)象來決定上下文的邊界。事實上,算法試圖利用機構名與其上下文之間的 語義關聯(lián)性來提高機構名識別的效果。實驗表明算法改善了機構名識別效果,而 且普適性更好。 關鍵詞:商業(yè)信息競爭情報信息抽取關系抽取命名實體識別 a b s t r a c t a b s t r a c t a st h er a p i di n c r e a s i n go ft h ed a t av o l u m ei ni n t e m e t ,w e bh a sb e c o m ea l l i m p o r t a n ts o u r c ef o rc o m p e t i t i v ei n t e l l i g e n c ea c q u i s i t i o n h o w e v e r , i ti ss t i l l a d i f f i c u l tt a s kf o re n t e r p r i s e st oo b t a i nc o m p e t i t i v ei n t e l l i g e n c ef r o mt h i si n f o r m a t i o n o c e a n t os o l v et h i sp r o b l e m ,r e s e a r c h e r si n t r o d u c e dt h et e c h n o l o g yo fb u s i n e s s i n f o r m a t i o ne x t r a c t i o ni n t oc o m p e t i t i v ei n t e l l i g e n c ea c q u i s i t i o n ,i nw h i c ht h er e s u l to f i n f o r m a t i o ne x t r a c t i o n p l a y s a ni m p o r t a n tr o l ei nt h eq u a l i t yo fc o m p e t i t i v e i n t e l l i g e n c e i nt h i sp a p e r , w es t u d yt h ei s s u e so fb u s i n e s si n f o r m a t i o ne x t r a c t i o nf r o mt h e w e ba n df o c u so nt w oa s p e c t si nt h i sa r e a :r e l a t i o ne x t r a c t i o na n de n t i t yr e c o g n i t i o n f o rd i f f e r e n te x t r a c t i n go b j e c t s ,w ea n a l y z et h e i rd i s t i n c t i v ef e a t u r e sa n dd e v e l o p a p p r o p r i a t em e t h o d st oe x t r a c tt h e s eo b j e c t si no r d e rt oi m p r o v et h ee f f e c to fb u s i n e s s i n f o r m a t i o ne x t r a c t i o n p o s i t i o nr e l a t i o ne x t r a c t i o ni ss e ta sa ne x a m p l ef o rb u s i n e s s r e l a t i o ne x t r a c t i o n w e i n v e s t i g a t et h ea p p e a r a n c ef e a t u r e so fp o s i t i o nr e l a t i o n i n s t a n c e so nt h ew e ba n da d o p ts t r u c t u r e - b a s e da l g o r i t h mt oe x t r a c tp o s i t i o nr e l a t i o n s f r o mt h ew e b f o re n t i t yr e c o g n i t i o n ,w er e s e a r c ht h eo r g a n i z a t i o nn a m ee n t i t y r e c o g n i t i o na n dp r e s e n ta l lo r g a n i 磊t i o nn a m ee n t i t yr e c o g n i t i o na l g o r i t h mb a s e do n s e m a n t i ch i d d e nm a r k o vm o d e l t w oa l g o r i t h m se f f e c t i v e l yi m p r o v et h ee f f e c to f t w ok i n d so fi n f o r m a t i o ne x t r a c t i o nr e s p e c t i v e l ya n dp r o v i d er e f e r e n c ei n f o r m a t i o n f o ro t h e rb u s i n e s si n f o r m a t i o ne x t r a c t i o n t h em a i nc o n t r i b u t i o no ft h i sp a p e rc a nb es u m m a r i z e da sf o l l o w s : ( 1 ) w ep r e s e n ta na l g o r i t h mt oe x t r a c tp o s i t i o nr e l a t i o n sf r o mt h ew e b p e o p l e s p o s i t i o ni nac o r p o r a t i o n ,w h i c ht h et e r mp o s i t i o nr e l a t i o nr e f e r st o ,i sak i n do f s i g n i f i c a n tc o m p e t i t i v ei n t e l l i g e n c ef o re n t e r p r i s e s o u ra l g o r i t h mi sb a s e do nt h e s t r u c t u r a lf e a t u r eo fp o s i t i o nr e l a t i o ni nw e bc o n t e n t s w ef i r s ti n t r o d u c es t r u c t u r a l c o e f f i c i e n ta n ds t r u c t u r a lf i l es e g m e n tt od e s c r i b et h e s ef e a t u r e sa n dt h e ne m p l o ya p a t t e r n m a t c h i n gm e t h o dt oe x t r a c tp o s i t i o nr e l a t i o n sf r o mt h es t r u c t u r a lf i l es e g m e n t s f i n a l l y , w ec o n d u c te x p e r i m e n t so nar e a ld a t as e ta n de v a l u a t et h ep r e c i s i o na n d r e c a l lo f0 1 1 1 a p p r o a c h t h ee x p e r i m e n t a lr e s u l t ss h o wt h a to u ra l g o r i t h mh a sah i g h p r e c i s i o no v e r9 6 a sw e l la sar e c a l lo v e r8 7 ( 2 ) w eb r i n gf o r w a r das h m m - b a s e dc h i n e s eo r g a n i z a t i o nn a m er e c o g n i t i o n a l g o r i t h m s e m a n t i ch i d d e nm a r k o vm o d e li sb a s e do nt w oi m p o r t a n tl i n g u i s t i c s v i e w p o i n t s :t h ed e p e n d e n c eo fs y n t a xo ns e m a n t i c sa n ds y m b i o t i cw o r df i e l d a i i i s e n t e n c e1 sc o n s i d e r e da sas e q u e n c eo fw o r d s ,t h i s s e q u e n c ei m p l i e sas e m a n t i c s e q u e n c ew h l c hd e c i d e st h ec o n s t r u c t i o no ft h es e n t e n c e w ef i r s tc o n d u c ts e m 枷i c t a g g i n g0 nt h ew o r d sf r o mo r g a n i z a t i o nn a l t l e i n t e r i o ra n di t s c o n t e x t ,a 1 1 dm e n c o n s 仃u c ts e m 枷i ch i d d e nm a r k o vm o d e lf o ro r g a n i z a t i o n l a m e r e c o g n i t i o n d u f f n g m es e l e c t i o no fo r g a n i z a t i o n n a l l l e c o n t e x t , w ee m p l o y s y m b i o t i cw o r df i e l d p n e n o m e n o nt od e c i d et h eb o u n d a r yo ft h ec o n t e x t i nf a c t ,t h ea l g o r i m m a n e m p tt 0 m a k eu s eo f h er e l e v a n c yb e t w e e n o r g a n i z a t i o nn a m ea n di t sc o n t e x tt o 螂r o v em e e n e c t0 士?,攁 1 1 i z a t i o nn a m er e c o g n i t i o n t h e e x p e r i m e n t a lr e s u l t ss h o wm a to u r a l g o n t t u i lg a l n sb e n e ro u t c o m ec o m p a r e dt o o t h e ra p p r o a c h e sa n dh a sa 咖n 2 e r a b i l i t yt op r o c e s sd i f f e r e n tt y p eo fc o n t e n t s k e yw 。r d s :b u s i n e s si n f o r m a t i 。n ,c 。m p e t i t i v ei n t e l l i g e n c e ,i n f o 加a t i o n e x 咖c t j o n , r e l a t i o ne x t r a c t i o n ,n a m e d e n t i t yr e c o g n i t i o n i v 中國科學技術大學學位論文原創(chuàng)性聲明 本人聲明所呈交的學位論文,是本人在導師指導下進行研究工作所取得的成 果。除已特別加以標注和致謝的地方外,論文中不包含任何他人已經(jīng)發(fā)表或撰寫 過的研究成果。與我一同工作的同志對本研究所做的貢獻均已在論文中作了明確 的說明。 作者簽名:麴鑫! 丕簽字日期:塑壘:查:絲 中國科學技術大學學位論文授權使用聲明 作為申請學位的條件之一,學位論文著作權擁有者授權中國科學技術大學擁 有學位論文的部分使用權,即:學校有權按有關規(guī)定向國家有關部門或機構送交 論文的復印件和電子版,允許論文被查閱和借閱,可以將學位論文編入有關數(shù)據(jù) 庫進行檢索,可以采用影印、縮印或掃描等復制手段保存、匯編學位論文。本人 提交的電子文檔的內容和紙質論文的內容相一致。 保密的學位論文在解密后也遵守此規(guī)定。 d 公開口保密( 年) 作者簽名:出盞! 銎 簽字日期:復叢:圭:坦 導師簽名:歷旎書導師簽名:蘭互耋盜疊 簽字日期:鯊p l _ 第一章緒論 第一章緒論 互聯(lián)網(wǎng)的迅猛發(fā)展和快速普及使其成為人們獲取各類信息的重要源泉。在改 變人們生活和工作方式的同時,互聯(lián)網(wǎng)也使企業(yè)的商業(yè)活動方式發(fā)生重大變化。 越來越多的企業(yè)通過互聯(lián)網(wǎng)來推廣它們的產(chǎn)品、宣傳它們的服務;各類網(wǎng)絡媒體 也爭搶在第一時間將企業(yè)的相關信息發(fā)布到網(wǎng)上。在這樣的環(huán)境下,互聯(lián)網(wǎng)成為 企業(yè)競爭的新戰(zhàn)場,誰能夠以最快的速度獲取到真實、有效的商業(yè)信息,特別是 競爭對手的信息,誰就能在這個新戰(zhàn)場上獲勝。然而互聯(lián)網(wǎng)上的信息紛繁復雜, 想要在海量的網(wǎng)頁中找到對企業(yè)有價值的商業(yè)信息來還需要克服許多技術上的 難題,這也是本文研究的重點。 1 1 研究背景與意義 市場經(jīng)濟的繁榮和發(fā)展加劇了企業(yè)間的競爭,一個企業(yè)要想在激烈的市場競 爭中生存并獲勝,不但要清楚自己的優(yōu)勢和劣勢,還需要了解行業(yè)政策、市場需 求變化、競爭對手等商業(yè)信息。以住的商業(yè)信息一般通過人際關系、紙制傳媒等 方式獲取。但近幾年,隨著互聯(lián)網(wǎng)的飛速發(fā)展,網(wǎng)絡成為獲取商業(yè)信息的一個重 要途徑,基于互聯(lián)網(wǎng)的商業(yè)信息抽取成為企業(yè)和學術界研究的重點。 ( 1 ) 互聯(lián)網(wǎng)成為世界上最大的信息庫 毫無疑問,互聯(lián)網(wǎng)是世界上容量最大、內容最豐富的信息庫,而且平均每天 以千萬級網(wǎng)頁的數(shù)量增長。根據(jù)瑞典互聯(lián)網(wǎng)流量監(jiān)測機構p i n g d o m 近期公布的 數(shù)據(jù)【l 】,2 0 0 9 年全球網(wǎng)站數(shù)量已達到2 3 4 億家,其中2 0 0 9 年新增4 7 0 0 萬家。 中國互聯(lián)網(wǎng)絡信息中心( q 州i c ) 2 0 1 0 年1 月發(fā)布的第2 5 次中國互聯(lián)網(wǎng)絡發(fā) 展狀況統(tǒng)計報告顯示,截止2 0 0 9 年1 2 月中國的網(wǎng)站總數(shù)達到3 2 3 萬個,網(wǎng)頁 總數(shù)達到3 3 6 億個【2 】。從2 0 0 3 年開始,中國的網(wǎng)頁規(guī)?;颈3址鲩L,年 增長率超過1 0 0 。這些數(shù)據(jù)充分表明互聯(lián)網(wǎng)是世界上最大的電子圖書館,且無 地理位置限制,使用成本低,已經(jīng)成為人們獲取信息的重要源泉。 ( 2 ) 互聯(lián)網(wǎng)上存在大量有價值的信息 第2 5 次中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告中關于主要網(wǎng)絡應用使用行為 的調查顯示,基于網(wǎng)絡新聞和搜索引擎的信息獲取成為主要的網(wǎng)絡行為,使用率 分別達到8 0 1 和7 3 3 ,使用率排名分別占到第二位和第三位,僅次于網(wǎng)絡音 樂的使用率,而且兩項應用的用戶增長率分別達到3 1 5 和3 8 6 。c n n i c 分析 師認為網(wǎng)絡應用的日趨豐富和網(wǎng)絡信息量的與日俱增是網(wǎng)絡信息獲取行為增長 的主要原因。網(wǎng)絡使用行為能夠反映人們的需求態(tài)勢,以上數(shù)據(jù)表明,互聯(lián)網(wǎng)不 1 第一章緒論 僅信息量巨大,而且是一部百科全書。對于一個企業(yè)來說,最想獲取的信息莫過 于對自身成長和發(fā)展有利的商業(yè)信息。這些信息涉及行業(yè)政策、市場環(huán)境、競爭 對手等,其中關于競爭對手的信息最為重要。商業(yè)信息經(jīng)過匯總、分析后可以成 為有價值的競爭情報,給企業(yè)的決策提供有力支持。由于互聯(lián)網(wǎng)上存在大量的商 業(yè)信息,基于互聯(lián)網(wǎng)的競爭情報獲取成為當前的研究熱點。據(jù)美國海軍高級情報 分析員埃利斯扎卡利亞斯講,9 5 的競爭情報來自于公開資料,4 來自于半 公開資料,僅l 或更少來自機密資料。而互聯(lián)網(wǎng)無疑是獲取競爭情報最重要的 公開信息源。 ( 3 ) 信息獲取難度大 互聯(lián)網(wǎng)上的海量信息在豐富信息來源的同時,也給信息的獲取造成了困擾。 互聯(lián)網(wǎng)上的網(wǎng)頁數(shù)以百億計,靠人工一個一個地瀏覽網(wǎng)頁來收集信息無疑是大海 撈針。搜索引擎和門戶類網(wǎng)站的產(chǎn)生給人們獲取信息的方式帶來了革命性的變 化,使信息獲取變得容易了很多。為了進一步提高信息獲取的準確性,還發(fā)展出 了垂直搜索技術。目前,利用網(wǎng)絡獲取商業(yè)信息的途徑有利用搜索引擎技術、利 用行業(yè)站點和黃頁、利用競爭對手的網(wǎng)站、競爭情報獲取軟件等,然而這些方法 仍不能很好地滿足的企業(yè)對商業(yè)信息的需求。以搜索引擎為例,針對一個查詢返 回的網(wǎng)頁往往數(shù)以百萬計,人工從這些網(wǎng)頁中找到所需的信息仍需大量的工作。 另外,有時為了獲取某種商業(yè)信息,需要使用不同的查詢關鍵字進行多次查詢, 并將找到的信息進行匯總,這大大加大了商業(yè)信息獲取的工作量。在這種背景下, 信息抽取技術應運而生。信息抽取就是從文本中獲取感興趣的知識點,并以結構 化的形式保存在數(shù)據(jù)庫中,以便以后的查詢和使用。信息抽取技術能夠進一步把 人們從人工查找信息的繁重勞動中解放出來,提高信息獲取的效率。比爾蓋茨 在其著作未來時速一書中講到:“將您的公司和您的競爭對手區(qū)別開來的最 有意義的方法,使您的公司領先于眾多公司的最好方法,就是利用信息來干最好 的工作。您怎樣收集、管理和使用信息將決定您的輸贏。 ??梢姡皶r、全面、 準確地獲取商業(yè)信息是決定一個企業(yè)成敗的關鍵?;ヂ?lián)網(wǎng)為商業(yè)信息的獲取提供 了資源,而如何從這個信息海洋中找到企業(yè)所需要的那根“針”是重點要解決的 問題。 1 2 商業(yè)信息與競爭情報 我國著名情報專家包昌火指出:競爭情報是關于競爭環(huán)境、競爭對手與競爭 策略的信息和研究【3 】。競爭情報獲取分為規(guī)劃與定向、信息采集、信息加工、 情報分析及情報傳播五個階段。商業(yè)信息獲取涵蓋了信息采集與信息加工兩個階 2 第一章緒論 段。信息采集階段主要是原始信息的收集,如網(wǎng)頁、紙制資料等。在信息加工階 段,對采集到的信息進行初步處理,主要采用一些自動化的技術,如自動分類、 自動摘要、文檔去重、信息抽取等。經(jīng)過加工后的信息必須經(jīng)過情報分析后才能 成為真正意義的競爭情報,主要的分析方法有s w o t 分析法、德爾斐法和定標 比超法及數(shù)據(jù)挖掘的方法。 表1 1 競爭情報具體內容 編號 調研分類調研內容 l基本概況企業(yè)簡介、組織框架、股本結構、行業(yè)背景、產(chǎn)品概況、行業(yè)地位 員工數(shù)量、素質、學歷結構、主要管理者背景、經(jīng)驗、培訓制度、 2 人力資源 聘用程序、獎懲制度、薪資水平結構、福利體系人力資源 3 管理團隊高層架構、重要決策權利分布、高層領導背景 生產(chǎn)線情況( 設備明細、投資渠道、技術水平、生產(chǎn)能力、使用率、 4 生產(chǎn)能力凈值率) 、技術人員分布、主要技術人員介紹( 特長、背景、學歷、 工程項目) 、生產(chǎn)員工操作熟練程度、生產(chǎn)環(huán)境、是否o e m 研發(fā)隊伍資歷( 人數(shù)、學歷、結構) 、專利資源( 數(shù)量、技術含量) 、 5 研發(fā)能力開發(fā)費用現(xiàn)狀( 金額、來源) 、與其他企業(yè)學校政府機關合作情 況( 合作數(shù)量、技術含量、未來發(fā)展趨勢) 認證情況、質量控制流程、方案、質量控制專員( 數(shù)量、素質、經(jīng) 6質量檢查 驗、背景) 、主要產(chǎn)品質量指標( 產(chǎn)品平均壽命、合格率等) 原材料采購 原材料( 采購量、來源、平均價格) 、供應商情況( 數(shù)量、供貨評 7 價、供應商關系) 、采購支付情況( 結款方式、期限、信用額度等) 、 供應商的挑選機制采供銷 產(chǎn)品明細、種類、詳細介紹( 規(guī)格、型號、性能、用途、優(yōu)勢) 、 8產(chǎn)品結構 產(chǎn)品服務、產(chǎn)品技術含量( 技術水平、技術參數(shù)、技術性能) 、原 材料采購成本、產(chǎn)品價格體系、市場定位、供貨能力 銷售部門設置、直接銷售渠道( 分產(chǎn)品、區(qū)域、行業(yè)) 、分銷渠道 ( 代理商數(shù)目、結算方式、分銷商評價、關系、未來的發(fā)展戰(zhàn)略) 、 9產(chǎn)品銷售 歷年銷售情況( 數(shù)量、金額、趨勢) 、市場占有率及趨勢、銷售策 略( 利潤為主或開拓市場為主) 、銷售價格體系( 分出廠價、批發(fā) 價、零售價) 、價格回扣與折扣( 同扣條件、折扣率) 品牌模式、廣告營銷情況( 現(xiàn)有媒體數(shù)量、廣告投入金額、占銷售 1 0廣告推銷 比重、未來發(fā)展趨勢) 、主要營銷分布( 分產(chǎn)品、形象) 、主要使 用廣告媒體( 報紙、雜志、電視、廣播、網(wǎng)絡、交通廣告、戶外) 主要客戶( 數(shù)量、購買力、購買的產(chǎn)品情況) 、客戶分布( 區(qū)域、 1 1 客戶情況 行業(yè)、金額) 、客戶滿意程度、客戶投訴及退貨、客戶維護模式 連續(xù)n 年的資產(chǎn)負債表、損益表、現(xiàn)金流量表、財務指標( 銷售增 1 2財務情況 長率、資產(chǎn)負債率、存貨周轉、流動資產(chǎn)周轉、總資產(chǎn)周轉) 3 第一章緒論 商業(yè)信息抽取屬于信息加工階段的最后一個環(huán)節(jié),銜接著情報分析階段,隨 著信息量的急增,這部分工作變的越來越重要。信息加工階段的其它工作都是基 于文檔一級的處理,處理的結果仍是文檔,還需用戶人工在這些文檔中查找信息, 而隨著采集到的信息成倍增長,使得這部分工作單純依靠人工操作變得不太現(xiàn) 實。在這種情景下,信息抽取工作變得尤為重要,抽取結果的質量直接關系到后 面情報分析的準確性,進而影響企業(yè)決策的正確性。 廣義的商業(yè)信息包括行業(yè)環(huán)境、市場態(tài)勢、競爭對手等信息。狹義的商業(yè)信 息主要是關于競爭對手的信息,也就是以一個企業(yè)為中心的相關信息。表1 1 是 北京東方策略科技有限公司能夠提供的關于某個企業(yè)的競爭情報具體內容 4 1 。 它將企業(yè)的競爭情報分為十二個大類,每個大類又分若干小類。可以說,這些競 爭情報都是由零散的商業(yè)信息整合而成,如管理團隊是由多個職位關系信息組成 的。 本文主要研究兩類商業(yè)信息的抽取:實體信息和關系信息。實體信息抽取是 從文本中抽取商業(yè)信息涉及的命名實體,如機構名、人名、地名、產(chǎn)品名等。關 系信息抽取主要是抽取實體間關系的描述信息。文獻【5 】通過本體來描述競爭情 報中的實體信息和關系信息,表1 1 中的商業(yè)信息可以按同樣的方法進行描述, 然后再抽取具體的實體信息和關系信息。 1 3 商業(yè)信息抽取的國內外研究現(xiàn)狀 目前,商業(yè)信息抽取的研究主要集中在競爭情報研究領域,下面主要介紹國 內外的競爭情報研究中關于商業(yè)信息抽取的研究現(xiàn)狀。 1 3 1 國外研究現(xiàn)狀 國外競爭情報研究中關于商業(yè)信息抽取方面的工作已經(jīng)比較多,開始從只是 簡單地將現(xiàn)有的信息抽取工具集成到競爭情報系統(tǒng)中向專門研究特定應用的信 息抽取技術轉變。另外,一些商用的競爭情報軟件也開始加入信息抽取的功能, 使其更加實用化。 b y r o nm a r s h a l l 等提出一個商業(yè)信息集成工具e b i z p o r t 【6 】,采用元搜索 ( m e t a - s e a r c h ) 技術來收集信息,以提高信息收集的召回率和質量。另外,該工具 還對收集到信息作了進一步的處理,如摘要提取、自動分類、可視化設計等,也 涉及了信息整合問題,但只是文檔級的,仍需要用戶人工到返回的文檔中尋找所 需的信息。 f r a n c o i sp a r a d i s 等設計的m b o i ( m a t c h i n gb u s i n e s so p p o r t u n i t i e so nt h e 4 第一章緒論 i n t e m e t ) 系統(tǒng) 7 】試圖從互聯(lián)網(wǎng)上尋找與企業(yè)相關的招標( c a l lf o rt e n d e r s ) 信息。 系統(tǒng)使用n s t e i nn f i n d e r 工具進行命名實體抽取,目的是為了查詢時更準確地定 位所需要的信息和改善后續(xù)的信息分類效果。n s t e i nn f i n d e r 工具采用詞法規(guī)則 與詞典相結合的方法進行命名實體識別,主要是針對一些結構規(guī)范的網(wǎng)頁,如表 格和列表。 r o b e r tb a u m g a r t n e r 等提出一個基于w e b 的商業(yè)情報抽取系統(tǒng)l i x t o 8 。該 系統(tǒng)采用包裝器( w r a p p e r ) 信息抽取技術從半結構化的電子商務網(wǎng)站中抽取商 品信息,如商品的名稱、制造商及價格等,并將抽取結果以x m l 文檔的形式保 存。包裝器是出現(xiàn)最早的基于w e b 的信息抽取技術,專門針對結構化較強的網(wǎng) 站,如招聘網(wǎng)站、購物網(wǎng)站。 h t e c h s i g h t 是d i a n am a y n a r d 等設計的一個知識管理系統(tǒng) 9 】,其功主要功能 是對網(wǎng)上的敏感信息進行實時監(jiān)控。系統(tǒng)對網(wǎng)頁中敏感的概念信息進行抽取,并 對這些概念的變化進行實時監(jiān)控。概念抽取使用了g a t e 工具中的信息抽取( i e ) 組件,該組件采用基于規(guī)則的方法進行概念的識別,但抽取規(guī)則需要人工總結, 不能自動生成。 2 0 0 7 年,d i a n am a y n a r d 等又提出了一個基于領域本體( d o m a i no n t o l o g y ) 的商業(yè)情報系統(tǒng)【1 0 】。系統(tǒng)采用本體來描述領域概念、概念間的關系及屬性,根 據(jù)本體定義來抽取領域信息。該系統(tǒng)主要是針對跨國公司的商業(yè)情報需求開發(fā) 的,主要抽取有關公司概況( 公司名、所在國家、電話、郵編、分支機構、主要 業(yè)務、進出口業(yè)務、營業(yè)額、雇員數(shù)量、股東及其它相關人員) 、國家區(qū)域概況 ( 國家名字、人口數(shù)量、土地面積、官方語言、貨幣、匯率、外債、失業(yè)率、 g d p 、海外投資) 等信息,主要為跨國公司的海外投資提供決策支持。系統(tǒng)采用 a n n i e 工具進行概念抽取。a n n i e 是一個基于規(guī)則的通用的概念抽取工具,主 要抽取人名、地名和機構名。為了適應金融領域的概念,d i a n am a y n a r d 等對 a n n i e 工具進行了修改以適應新的需求。系統(tǒng)對不同來源的文本設計了不同的 抽取規(guī)則,這些文本既有結構化的( 主要是表格) ,也有非結構化的,并且對來 源不同但涉及同一概念的信息進行了整合。 隨著互聯(lián)網(wǎng)上信息量急劇增長和信息處理技術的進步,國外開始出現(xiàn)了一些 可以實用的商用競爭情報軟件。起初這些軟件只具備以文檔為單位的信息收集功 能以及一些簡單預處理功能。近幾年,信息抽取和數(shù)據(jù)挖掘技術逐步被集成到競 爭情報軟件中,提高了其實用價值。表1 2 列出了目前國外主要競爭情報軟件的 功能??梢钥闯?,數(shù)據(jù)挖掘技術( 自動分類、自動摘要) 在競爭情報軟件中應用 已經(jīng)比較廣泛,而信息抽取技術剛剛開始集成到競爭情報軟件中,還有很大的發(fā) 展空間。 5 第一章緒論 表1 2 國外競爭情報軟件功能 支持 關系關鍵監(jiān)視自然 多種自動自動關系自動情報 語言 競爭情報軟件 文件分類摘要抽取 可視 排序 字搜和預 發(fā)布 化索警搜索 格式 w e b q l k n o w l e d g e 、,、, 、,、, w o r k s t e x ta n a l y t i 娼 t e x t a n a l y s t 、, 、, p o l y a n a l y s t 00、,0 0 t r a c k e n g i n e 、, t 化n d i c a t e00、,00 w i n c i t e、, 1 3 2 國內研究現(xiàn)狀 與國外相比,國內的競爭情報研究和信息抽取研究都處于探索階段,技術都 不夠成熟。表1 3 是2 0 0 7 年1 月到2 0 0 8 年3 月國內競爭情報核心期刊上發(fā)表的 有關競爭情報的8 3 篇文獻的統(tǒng)計信息??梢钥闯觯畔⒓庸ひ殉蔀閲鴥雀偁幥?報研究的熱點,主要采用數(shù)據(jù)挖掘方法,如文本分類、文本挖掘、w e b 挖掘等對 收集的文本或網(wǎng)頁進行初步處理,還沒有涉及句子級的處理,如實體和關系抽取 等。 6 表1 。3 競爭情報研究方向統(tǒng)計表 研究方向 篇數(shù)研究方向篇數(shù) 信息加工 1 7 研究現(xiàn)狀 5 情報理論 9 情報評估 4 人際網(wǎng)絡 7 情報教育 3 網(wǎng)絡組織 7 情報分析 3 知識管理5其它1 8 產(chǎn)業(yè)發(fā)展 5 第一章緒論 2 0 0 5 年,劉非凡等提出了基于層級隱馬可夫模型( h h m m ) 的產(chǎn)品名識別 算法【1 1 1 ,從自由文本中抽取產(chǎn)品名。這是第一次專門針對中文商業(yè)信息抽取的 研究,突破了信息抽取研究只專注傳統(tǒng)信息抽取的禁錮,推動信息抽取技術向實 用化方向邁進了一步。 2 0 0 6 年,w e il i 等提出并實現(xiàn)了一個中文競爭情報系統(tǒng)c c i s 1 2 ,實現(xiàn) 了四項功能:情報定制、信息采集、信息加工、和情報發(fā)布。信息加工模塊包含 了自動分類、文檔去重和信息抽取三項功能。其中信息抽取子模塊采用基于規(guī)則 和詞典相結合的技術,可以抽取命名實體、事件等信息。 2 0 0 8 年,y a nc h e n 等提出了基于本體的競爭情報抽取系統(tǒng) 5 】,利用本體來 描述企業(yè)對競爭情報的需求,然后采用基于規(guī)則和模板匹配的方法將抽取的信息 填充到實例本體中。 目前,中文競爭情報軟件主要提供網(wǎng)頁收集功能,如天下互聯(lián)的網(wǎng)絡情報中 心。給定關鍵字后,這些軟件到事先定制好的網(wǎng)站上實時爬取網(wǎng)頁,將包含關鍵 字的網(wǎng)頁返回給客戶。一些功能較強的競爭情報軟件還提供了自動分類、自動摘 要等功能,如t r s 競爭情報軟件。然而這些軟件沒有提供對網(wǎng)頁內部的關鍵信 息進行抽取和集成,還需要人工從返回的網(wǎng)頁中尋找所需的信息。 國內競爭情報領域關于商業(yè)信息抽取研究較少的一個原因是中文信息抽取 技術目前還沒有突破性的進展,這使得中文信息抽取技術無法集成到競爭情報系 統(tǒng)中,成為影響競爭情報獲取的重要技術瓶頸,所以研究中文商業(yè)信息抽取技術, 使其達到實用化水平,對企業(yè)競爭情報獲取有著重要意義。 綜上所述,目前,國外商業(yè)信息抽取研究比較多,一般是將現(xiàn)有的信息抽取 技術應用到商業(yè)信息抽取中,并開始探索專門針對特定領域的商業(yè)信息抽取技 術,一些商用競爭情報軟件己具備商用價值。而中文商業(yè)信息抽取研究比較少, 中文競爭情報軟件的商用價值不高,探索和發(fā)展中文商業(yè)信息抽取技術迫在眉 睫。 傳統(tǒng)信息抽取的處理對象主要是自由文本,且只對的常規(guī)信息( 如人名、地 名、機構名等) 進行抽取。隨著互聯(lián)網(wǎng)上信息量的急劇增長,基于網(wǎng)頁的信息抽 取研究隨之成為研究的熱點。與自由文本相比,網(wǎng)頁具有兩個特征: ( 1 ) 網(wǎng)頁是一種半結構化的文本。除了常規(guī)文本外,網(wǎng)頁中包含了大量的 h t m l 標簽,這些標簽使得網(wǎng)頁文本具有了半結構化的特征。一方面,可以利 用這些標簽提高信息抽取的效果:另一方面,網(wǎng)頁標簽復雜多樣,往往與常規(guī)文 本混雜在一起,也成為信息抽取的障礙。因此,如何利用網(wǎng)頁文本半結構化的優(yōu) 點,避免其缺點,成為網(wǎng)頁信息抽取成敗的關鍵因素。 ( 2 ) 網(wǎng)頁文本規(guī)范性較差。自由文本一般來自報紙或書籍,在詞法、句法 7 第一章緒論 和表述方式上比較規(guī)范。而網(wǎng)頁文本缺乏嚴格要求,行文較自由,不像紙制文本 那樣規(guī)范。因此,基于紙制文本的信息抽取方法應用于網(wǎng)頁信息抽取時,效果不 一定理想。對于網(wǎng)頁信息抽取,需要設計容錯能力更強的信息抽取系統(tǒng)。 i n t e m e t 是商業(yè)信息的重要來源,研究基于網(wǎng)頁的商業(yè)信息抽取技術既要利 用傳統(tǒng)信息抽取技術已有的成果,又要充分考慮網(wǎng)頁自身的特性,利用網(wǎng)頁提供 的便利信息來提高信息抽取的效果,同時避免一些不利信息的負面影響。 1 4 本文的主要工作 本文以i n t e r n e t 中的網(wǎng)頁為信息源,研究基于w e b 的商業(yè)信息抽取技術。并 以職位關系和機構名兩種具體的商業(yè)信息為對象,設計具體的信息抽取算法。主 要研究內容有: ( 1 ) 商業(yè)信息中實體抽取技術研究 實體是商業(yè)信息中的基本信息單元,實體識別是實現(xiàn)其它商業(yè)信息抽取的基 礎。商業(yè)信息中的實體主要有機構名、人名、地名、產(chǎn)品名、商標名等。目前, 中文命名實體識別的研究主要集中在機構名、人名和地名,其中機構名由于構成 比較復雜,識別效果不佳,而機構名又是商業(yè)信息中最最要的一個實體。研究國 內外現(xiàn)有命名實體識別技術,特別是機構名識別技術,設計網(wǎng)頁環(huán)境下中文機構 名識別技術,提高機構名識別的召回率和準確率是本文的主要研究工作之一。 ( 2 ) 商業(yè)信息中關系抽取技術研究 商業(yè)信息中的實體關系描述了現(xiàn)實世界中兩個實體由于企業(yè)的生產(chǎn)、銷售等 活動而發(fā)生的相互聯(lián)系。實體關系是一種更為重要的商業(yè)信息,與實體相比,實 體關系已經(jīng)是一種淺層的知識,透過這種關系可以對某些事實有所了解。當將相 關的實體關系組織起來,形成一個信息網(wǎng)時,商業(yè)信息就會成為一種重要的競爭 情報,為企業(yè)的決策提供支持。中文關系抽取的研究較少,基于w e b 的關系抽 取研究則更少。采用的方法主要借鑒國外現(xiàn)有的技術,如模式匹配方法和機器學 習方法等。研究基于w e b 的中文商業(yè)關系抽取技術,并以職位關系抽取為例, 設計具體的關系抽取算法是本文的另一項研究工作。 1 5 本文的組織結構 本文的組織結構如下: 第一章緒論。對基于i n t e r n e t 的商業(yè)信息抽取研究作了整體介紹,包括研究 的背景、意義,商業(yè)信息抽取在企業(yè)競爭情報獲取中的地位,以及商業(yè)信息抽取 8 第一章緒論 的國內外研究現(xiàn)狀。 第二章信息抽取技術。簡要介紹了信息抽取技術研究的發(fā)展歷程、研究內容、 國內外主要的信息抽取系統(tǒng)以及信息抽取技術的評測指標。 第三章詳細論述了基于w e b 的職位關系抽取方法,提出了結構化系數(shù)、結 構化文件片斷、標準模式等概念,并利用這些概念來描述網(wǎng)頁中職位關系的結構 特征。最后,通過在真實語料集上的實驗來檢驗算法的有效性。 第四章基于中文句子中語法與語義之間的關聯(lián)性,提出語義隱馬爾可夫模型 的機構名識別算法,并進行了具體的討論。另外,通過實驗比較對所提方法效果 進行了驗證。 第五章總結與展望。對本文做出了總結,并指出其中的不足之處,展望下一 步的研究方向。 9 第二章信息抽取技術 2 1 前言 第二章信息抽取技術 在日益信息化和網(wǎng)絡化的當代社會,如何找到感興趣的信息并對些信息進行 歸類、過濾和提取,一直是一個比較緊迫的實際問題。信息量的急增使得早期單 純依靠人工收集信息的方法不再可行,自動化的信息采集工具成為迫切需求。在 這樣的背景下,信息抽取技術應用而生。信息抽取的目標是對文本中感興趣的信 息進行提取,并以結構化的形式集中存儲起來,以便于以后的查詢和更高一級的 應用。信息抽取系統(tǒng)的輸入是一系列原始文本,輸出的是具有一定格式的結構化 信息集。 信息抽取的文本可以分為三類:自由文本、半結構化文本和結構化文本,后 兩者主要是指網(wǎng)頁文本。對于不同類型的文本,所采用的信息抽取技術可能會有 所不同。目前,由于網(wǎng)頁數(shù)量的急劇膨脹,基于網(wǎng)頁的信息抽取技術成為研究的 重點。 2 2 信息抽取研究簡史 根據(jù)信息抽取研究的發(fā)展軌跡,一般將信息抽取的研究劃分為三個階段:前 期、中期和近期。 信息抽取研究的前期開始于2 0 世紀6 0 年代中期,結束于8 0 年代中期,這 是信息抽取研究的初始階段,主要以兩個長期的自然語言處理項目為代表。第一 個項目是美國紐約大學的l i n g u i s t i cs t r i n g 項目【1 3 】。該項目研究如何構建一個大 規(guī)模的英語計算語法,其中與信息抽取相關的應用是從醫(yī)療領域的x 光報告和 醫(yī)院的出院記錄中生成信息格式。事實上這種信息格式就是后來消息理解會議定 義的模板。第二個項目是耶魯大學r o g e rs c h a n k 及同事開展的有關故事理解的 研究。他的學生g e r a l dd ej o n g 設計實現(xiàn)了一個叫作f r u m p 的信息抽取系統(tǒng) 【1 4 】。該系統(tǒng)從新聞報道中抽取信息,內容涉及地震、工人罷工等很多領域或場 景。系統(tǒng)采用了期望驅動與數(shù)據(jù)驅動相結合的處理方法。后來,這種方法被許多 信息抽取系統(tǒng)所吸納。 2 0 世紀8 0 年代末期到9 0 年代是信息抽取研究的中期發(fā)展階段。這一時期 出現(xiàn)了一個對于信息抽取發(fā)展具有里程碑意義的研討會一一消息理解會議 ( m e s s a g eu n d e r s t a n d i n gc o n f e r e n c e ,m u c ) 。m u c 會議由美國國防高級研究計劃 1 1 第二章信息抽取技術 委員會( d a r p a ,t h ed e f e n s ea d v a n c e dr e s e a r c hp r o j e c t sa g e n c y ) 資助,從1 9 8 7 年到1 9 9 8 年共舉辦了七屆。m u c 系列會議對于信息抽取這一研究方向的確立及 發(fā)展起了極大的推動作用。每屆的m u c 會議吸引若干學術機構來參加信息抽取 競賽,從第一屆的只有6 個系統(tǒng)到最后一屆的1 8 個系統(tǒng),m u c 的影響越來越大。 總的看來m u c 會議的主要貢獻有兩項: ( 1 ) 信息抽取任務的確立。從第二屆m u c 會議開始,信息抽取的任務被 明確為模板填充,主要是對某一事件或場景中的關鍵信息進行填充。以后各屆模 板變的越來越復雜。1 9 9 5 年的第六屆m u c 會議在原有場景模板的基礎上又加入 了命名實體識別、共指關系確定和模板元素填充三項新的任務。在最后一屆又增 加了模板關系任務。這五項任務的確立指明了信息抽取研究的具體對象,使信息 抽取的研究逐步走向規(guī)范。 ( 2 ) 信息抽取評價體系的確立。這是m u c 會議的另一重大貢獻,參加信 息抽取競賽的每個單位按給定的知識領域提交一個信息系統(tǒng),然后使用相同的測 試數(shù)據(jù)集對這些系統(tǒng)的性能進行測試比較。第三屆m u c 會議引入了信息檢索領 域中的評價指標:召回率、準確率和f m e a s u r e ,并利用這些指標對信息抽取系 統(tǒng)的性能進行打分。測試方法及評價體系的確立使得對信息抽取效果的評價更加 客觀和公正,成為信息抽取研究事實上的標準。 進入2 1 世紀后,信息抽取研究又達到了新的高度,進入了信息抽取研究的 第三個階段。這個時期信息抽取研究的重點發(fā)生了轉移,開始關注新的研究方法 和研究內容。如基于機器學習的信息抽取技術、深層理解技術、篇章分析技術、 多語言文本處理能力、基于w e b 的信息抽取以及對時間信息的處理等等 1 5 】。這 一時期的一個重要會議是美國國家標準技術研究所( n i s t ) 組織的自動內容抽 取( a c e ,a u t o m a t i cc o n t e n te x t r a c t i o n ) 評測會議。與m u c 相比,a c e 在任務 和評測兩個方面進行了改變,a c e 將m u c 定義的五種任務進行了合并,將命名 實體和共指合并為“實體檢測和識別( e m i t ) ,d e t e c t i o na n dr e c o g n i t i o n ,e d r ) ”, 將模板元素和模板關系合并為“實體關系檢測和識別( r e l a t i o nd e t e c t i o na n d r e c o g n i t i o n ,r d r ) ,場景模板任務改名為“事件檢測和識別( e v e n td e t e c t i o i l a n dr e c o g n i t i o n ,v d r ) ”。另外增加了時間短語表達和數(shù)量值的識別任務。在 評測方面,a c e 采用基于漏報( 標準答案中有而系統(tǒng)輸出中沒有) 和誤報( 標 準答案中沒有而系統(tǒng)輸出中有) 的評價體系,還對系統(tǒng)跨文檔處理 ( c r o s s d o c u m e n t p r o c e s s i n g ) 能力進行評測。 2 3 信息抽取的研究內容 1 2 第二章信息抽取技術 根據(jù)m u c 和a c e

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論