




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
TRSDataBaseServer
全文數(shù)據(jù)庫(kù)北京拓爾思信息技術(shù)股份有限公司什么是全文數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù)存儲(chǔ)在計(jì)算機(jī)內(nèi)的有組織的數(shù)據(jù)集合
網(wǎng)狀層狀關(guān)系型關(guān)系型數(shù)據(jù)庫(kù)全文型數(shù)據(jù)庫(kù)集結(jié)構(gòu)化與非結(jié)構(gòu)化檢索于一體的數(shù)據(jù)庫(kù)
百度GoogleTRS全文型數(shù)據(jù)庫(kù)是以結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù)檢索為關(guān)注視角(而非實(shí)體間如何組織)的數(shù)據(jù)庫(kù)技術(shù)各實(shí)體與實(shí)體之間的聯(lián)系均用關(guān)系模型來(lái)表示 OracleSQLServerDB2結(jié)構(gòu)化與非結(jié)構(gòu)區(qū)別全文數(shù)據(jù)庫(kù)的定位與關(guān)系型數(shù)據(jù)庫(kù)相比與關(guān)系型數(shù)據(jù)庫(kù)相比沒(méi)有觸發(fā)器,沒(méi)有事務(wù),沒(méi)有實(shí)體間的關(guān)系有全文索引機(jī)制,支持海量數(shù)據(jù)檢索,支持高并發(fā)和快速檢索響應(yīng),支持相關(guān)度排序全文數(shù)據(jù)庫(kù)工作機(jī)制第一步第三步使用采集工具采集數(shù)據(jù),裝入全文數(shù)據(jù)庫(kù)全文數(shù)據(jù)庫(kù)通過(guò)接口接收到檢索請(qǐng)求,進(jìn)行處理第二步全文數(shù)據(jù)庫(kù)建立索引第四步返回命中結(jié)果集檢索結(jié)果展現(xiàn)全文數(shù)據(jù)庫(kù)細(xì)分互聯(lián)網(wǎng)級(jí)搜索引擎企業(yè)級(jí)搜索引擎允許有一定的更新延遲需要快速響應(yīng),但只求查準(zhǔn),不求查全需要能主動(dòng)發(fā)現(xiàn)新的網(wǎng)頁(yè)不允許有延遲既要查準(zhǔn),也要查全采集源類型廣泛(企業(yè)內(nèi)各型數(shù)據(jù))百度GoogleTRS融合互聯(lián)網(wǎng)搜索和企業(yè)搜索互聯(lián)網(wǎng)搜索和企業(yè)搜索并非一回事典型搜索引擎方案系統(tǒng)架構(gòu)異構(gòu)數(shù)據(jù)統(tǒng)一管理,非結(jié)構(gòu)化和結(jié)構(gòu)化數(shù)據(jù)聯(lián)合檢索Oracle,DB2,SQLServer…Notes,郵件服務(wù)器FileSystem:Word,PDF,EXLWeb:HTML,XMLMail,NewsAudio,VideoFlash
結(jié)構(gòu)化數(shù)據(jù):SQL查詢非結(jié)構(gòu)化數(shù)據(jù):全文檢索和搜索引擎但用戶的數(shù)據(jù)在很多情況下是結(jié)構(gòu)化數(shù)據(jù)+非結(jié)構(gòu)化數(shù)據(jù)+半結(jié)構(gòu)化數(shù)據(jù)北京拓爾思信息技術(shù)有限公司CoreIndexingServerContentCapture&IndexDATABASESQLSERVERORACLESYBASEDB2LotusDominoWebsite&PortalEIPERPSPSKMCISFile&DocumentMicrosoftOfficeAdobePDFRTFTEXTXMLMulti-MediaVideoAudioFlashMovieSEARCHSearchApplicationServices性能測(cè)試數(shù)據(jù)量PCServer數(shù)目速度(秒)1000萬(wàn)1關(guān)鍵詞檢索*0.075邏輯表達(dá)式**0.3092000萬(wàn)2關(guān)鍵詞檢索0.076邏輯表達(dá)式0.3144000萬(wàn)4關(guān)鍵詞檢索0.103邏輯表達(dá)式0.377測(cè)試環(huán)境:Dell
2850(2xCPU,4G內(nèi)存,10000轉(zhuǎn)硬盤(pán),RedhatAS4.0)性能測(cè)試數(shù)據(jù)量并發(fā)數(shù)速度(秒)1000萬(wàn)1關(guān)鍵詞檢索0.08邏輯表達(dá)式0.3110關(guān)鍵詞檢索0.25邏輯表達(dá)式0.5750關(guān)鍵詞檢索1.26邏輯表達(dá)式4.75100關(guān)鍵詞檢索2.50邏輯表達(dá)式13.12TRS全文數(shù)據(jù)庫(kù)集群跨平臺(tái)支持,多種開(kāi)發(fā)接口平臺(tái):OS:Windows,Linux,Unix。DB:Oracle,DB2,SQLServer,Sybase應(yīng)用服務(wù)器:IBM,BEA,Tomcat等Web服務(wù)器:各種Http服務(wù)器開(kāi)發(fā)接口:C/C++J2EE.NETTRS搜索引擎行業(yè)地位公司是中文全文檢索技術(shù)的創(chuàng)始者公司在2000年首先在國(guó)內(nèi)提出中文內(nèi)容管理理念和技術(shù)賽迪顧問(wèn)2008年獨(dú)立調(diào)查數(shù)據(jù)表明TRS是國(guó)內(nèi):企業(yè)搜索軟件第一名主要競(jìng)爭(zhēng)對(duì)手均為國(guó)際知名廠商2007年中國(guó)企業(yè)搜索產(chǎn)品
市場(chǎng)主力廠商份額結(jié)構(gòu)深厚的科研基礎(chǔ)和積累擁有自主核心技術(shù)和知識(shí)產(chǎn)權(quán),研發(fā)力量強(qiáng)大在信息檢索、知識(shí)挖掘和中文信息處理方面具有國(guó)內(nèi)外領(lǐng)先的研究能力和研究成果承擔(dān)多項(xiàng)國(guó)家863項(xiàng)目獲得國(guó)家科技進(jìn)步二等獎(jiǎng),電子工業(yè)部科技進(jìn)步一等獎(jiǎng)2001年國(guó)家推薦的12個(gè)優(yōu)秀軟件產(chǎn)品之一擁有UNDP援建的中文信息處理研究中心和國(guó)內(nèi)外多所大學(xué)、研究機(jī)構(gòu)建立了長(zhǎng)期合作研究關(guān)系清華大學(xué)(中文智能語(yǔ)言處理)香港中文大學(xué)(信息檢索)美國(guó)VirginiaTech.(數(shù)字圖書(shū)館和信息檢索)“TRShasthebesttechnologyinChineseTextRetrievalareainChina.ItisoneofthestrongestsoftwaredevelopmentfirmsinChina.”-Dr.KaifuLi,VPofMicrosoft,andformerlyManagingDirectorofMicrosoftResearchInstitute.TRS獲得國(guó)家科技進(jìn)步獎(jiǎng)國(guó)網(wǎng)搜索引擎
--融合互聯(lián)網(wǎng)搜索與企業(yè)搜索于一體的搜索應(yīng)用每天可支持1000萬(wàn)的訪問(wèn)次數(shù)國(guó)網(wǎng)搜索引擎
--融合互聯(lián)網(wǎng)搜索與企業(yè)搜索于一體的搜索應(yīng)用主要功能(二)——信息檢索本站檢索網(wǎng)站群檢索服務(wù)檢索文檔檢索國(guó)務(wù)院公報(bào)檢索文件檢索圖片檢索聯(lián)合檢索引導(dǎo)式智能檢索國(guó)防部網(wǎng)站搜索引擎國(guó)內(nèi)最大規(guī)模的多媒體、多文種新聞信息綜合性數(shù)據(jù)庫(kù)新華社多媒體數(shù)據(jù)庫(kù)
“新華搜索”系統(tǒng)
實(shí)現(xiàn)全方位新聞搜索
2008年北京奧運(yùn)會(huì)前夕,“新搜”系統(tǒng)正式上線,先期推出了新華網(wǎng)文字、圖片、網(wǎng)頁(yè)等搜索功能,為全球網(wǎng)民了解北京奧運(yùn)會(huì)的精彩內(nèi)容提供了專業(yè)的搜索服務(wù),受到網(wǎng)民歡迎。奧運(yùn)會(huì)結(jié)束之后,新華網(wǎng)技術(shù)平臺(tái)加緊開(kāi)發(fā)建設(shè),不斷完善“新搜”系統(tǒng),新推出了視頻搜索、多語(yǔ)種搜索和新華網(wǎng)地方頻道搜索功能,功能更為強(qiáng)大、實(shí)用。背景信息涉及政治、外交、經(jīng)濟(jì)、文教、科技、法律等各個(gè)領(lǐng)域并具有信息量大、權(quán)威、準(zhǔn)確、及時(shí)、豐富等特點(diǎn),不僅為國(guó)內(nèi)外的新聞機(jī)構(gòu)和企事業(yè)單位提供大量的新聞素材,同時(shí)也承擔(dān)國(guó)家重大活動(dòng)的新聞報(bào)道工作新華社多媒體數(shù)據(jù)庫(kù)始建于1999年,采用TRS全文檢索的核心技術(shù),2002年,TRS公司與新華社技術(shù)局再次合作實(shí)施了新華社多媒體數(shù)據(jù)庫(kù)英文檢索引擎的提速改造,2008-2009年再次擴(kuò)容升級(jí)。目前,多媒體數(shù)據(jù)庫(kù)中已經(jīng)存儲(chǔ)了上億條多媒體信息,數(shù)據(jù)容量超過(guò)20T,內(nèi)容涵蓋中、英、法、西、阿、俄等9大主流語(yǔ)種,以文字信息為主,包含圖片、圖表和音視頻信息。26專利信息服務(wù)平臺(tái)試驗(yàn)系統(tǒng)26項(xiàng)目待檢索文本數(shù)據(jù)總數(shù)據(jù)量約1-2億條記錄。每條記錄20-80個(gè)字段不等。其中,專利文摘檢索數(shù)據(jù)8000萬(wàn)條,
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 門(mén)面招租合租協(xié)議書(shū)范本
- 門(mén)衛(wèi)飲酒協(xié)議書(shū)范本
- 鞋子加工采購(gòu)合同協(xié)議
- 鍛坯采購(gòu)意向合同協(xié)議
- 2025橋梁工程承包合同樣本
- 陪護(hù)公司協(xié)議書(shū)范本
- 門(mén)道建筑勞務(wù)合同協(xié)議
- 鞋廠倉(cāng)庫(kù)租賃合同協(xié)議
- 項(xiàng)目經(jīng)理勞務(wù)合同協(xié)議
- 食品廠家供貨合同協(xié)議
- 08D800-6民用建筑電氣設(shè)計(jì)與施工室內(nèi)布線
- 基于源流梳理及名詞考據(jù)的仲景微汗法應(yīng)用闡釋與實(shí)證研究
- 《集成電路版圖設(shè)計(jì)》課程標(biāo)準(zhǔn)
- 解除獨(dú)家合同范本
- 黑龍江省公安機(jī)關(guān)人民警察初級(jí)執(zhí)法資格測(cè)試題
- 醫(yī)師執(zhí)業(yè)注冊(cè)變更健康體檢表
- 【數(shù)學(xué)】第八章 二元一次方程組單元測(cè)試卷 2023-2024學(xué)年人教版七年級(jí)數(shù)學(xué)下冊(cè)
- 數(shù)字貿(mào)易學(xué) 課件 第7章 智能制造
- 熱射病的防治與急救課件
- CATIAV5應(yīng)用教程-從機(jī)械設(shè)計(jì)到產(chǎn)品設(shè)計(jì)
- 小升初語(yǔ)文真題專項(xiàng)訓(xùn)練專題6+文學(xué)常識(shí)與名著閱讀(有解析)
評(píng)論
0/150
提交評(píng)論