




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
網頁數據源獲取網絡爬蟲概述網絡爬蟲(又稱為網絡蜘蛛、網絡機器人等),是一種按照一定的規(guī)則,自動抓取網絡信息的程序或者腳本。網絡爬蟲的基本原理是用戶通過網址(URL)向服務器發(fā)送訪問請求(HTTP請求),服務器在收到客戶的請求以后,驗證請求的有效性,然后向客戶端發(fā)送響應內容(Response),客戶端接收并將內容展示出來。網絡爬蟲類似于模擬用戶瀏覽網頁的操作,通過模擬瀏覽器向網站發(fā)送請求,再獲得相關資源后,從中提取有用的數據并進行保存。網絡爬蟲的一般工作流程如圖1所示。圖1網絡爬蟲的基本流程URLURL(UniformResourceLocator)是統(tǒng)一資源定位符,是對互聯(lián)網上得到資源的位置和訪問方法的一種簡潔表示,URL具有全球唯一性。URL的一般語法格式為:協(xié)議+IP地址(域名)+端口號+路徑+參數+查詢+信息片段,例如:http://www.*****.com/***,其中http為傳輸協(xié)議,www.*****.com為域名,/***為路徑。中聯(lián)集團教育科技有限公司的URL如圖2所示。圖2中聯(lián)集團教育科技有限公司URLHTTP協(xié)議1.HTTP協(xié)議的含義HTTP(HyperTextTransferProtocol,超文本傳輸協(xié)議)是用于從網絡傳輸超文本數據到本地瀏覽器的傳輸協(xié)議,它能夠保證高效而準確地傳送超文本書檔。HTTP請求是目前互聯(lián)網上應用最為廣泛的一種網絡請求方式,常見的是在網絡瀏覽器中輸入一個網址,在訪問網頁時,服務器把網頁傳送給瀏覽器,實際上就是把網頁的HTML代碼發(fā)送給瀏覽器,從而讓瀏覽器顯示出來,瀏覽器和服務器之間的傳輸協(xié)議即是HTTP協(xié)議。HTTP協(xié)議2.HTTP請求過程在瀏覽器中輸入一個URL,按回車鍵后,在瀏覽器中觀察頁面內容,其中的過程是瀏覽器向網站所在服務器發(fā)送一個Request(請求),網站服務器接收到Request后進行處理和解析,然后返回對應的Response(響應),傳回瀏覽器,Response中包含頁面的源代碼等內容,瀏覽器再對其進行解析便會將網頁呈現(xiàn)出來,如圖3所示。圖3請求響應模型HTTP協(xié)議3.RequestRequest由客戶端向服務端發(fā)出,是一個功能強大的網絡請求庫,可以請求網站獲取網頁上的數據。Request的引入規(guī)則為:importrequests。可以將Request劃分為以下4部分內容:RequestMethod:請求方法。RequestURL:請求URL地址。RequestHeaders:請求標頭。RequestBody:請求體。一般承載的內容是POST請求中的表單數據,而對于GET請求,RequestBody則為空。HTTP協(xié)議4.ResponseResponse對象包含爬蟲返回的內容,由服務端返回給客戶端。Response可以劃分為以下3部分:ResponseStatusCode:請求返回狀態(tài)碼。200表示連接成功,404或其他表示失敗。ResponseHeaders:響應標頭。ResponseBody:響應體。響應的正文數據都包含在響應體中。在執(zhí)行網絡爬蟲程序中,主要解析的內容就是ResponseBody,通過ResponseBody可以得到網頁的源代碼、JSON數據等,然后提取其中的內容。HTTP協(xié)議5.示例在中聯(lián)教學平臺中打開JupyterNotebook工具,新建一個Python文件,在代碼編輯區(qū)域中輸入如下代碼:importrequests#導入爬蟲的request庫,不然調用不了爬蟲的函數response=requests.get("/")#生成一個response對象response.encoding=response.apparent_encoding#設置編碼格式pri
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 三中去年考試試卷及答案
- 2025年租賃合同下的建房計劃
- 浙江國企招聘2025金華智園至尚資產經營有限公司招聘17人筆試參考題庫附帶答案詳解
- 2025綜合商務合作合同
- 孤殘兒童庇護服務社會資源動員策略考核試卷
- 聚丙烯酸甲酯靜電紡絲考核試卷
- 電氣設備在工業(yè)鍋爐控制系統(tǒng)中的應用考核試卷
- 石油開采業(yè)的創(chuàng)新發(fā)展與價值創(chuàng)造考核試卷
- 管道工程自動化與智能化考核試卷
- 牛飼養(yǎng)常見疾病防治考核試卷
- GB/T 44275.11-2024工業(yè)自動化系統(tǒng)與集成開放技術字典及其在主數據中的應用第11部分:術語制定指南
- 2024年員工入職合同標準版本(二篇)
- 《解放思想-實事求是-團結一致向前看》課件
- 施工現(xiàn)場安全隱患檢查表
- DL∕T 1084-2021 風力發(fā)電場噪聲限值及測量方法
- (正式版)FZ∕T 01175-2024 紡織品 金屬鍍膜纖維鑒別方法
- 中職技能大賽“導游服務”賽項旅游政策與法規(guī)及旅游熱點問題題庫(含答案)
- 2018年西藏中考化學真題及答案
- 妊娠期糖尿病產后護理
- SJ-T 11841.2.2-2022 顯示系統(tǒng)視覺舒適度 第2-2部分:平板顯示-藍光測量方法
- 代收代付協(xié)議書模板(2篇)
評論
0/150
提交評論