具體分為:①在項目部署或者在設(shè)定的一段時間后,對頁面進行后臺的獲取、遍歷,通過配置文件設(shè)定的遍歷深度開始對首頁進行深度的鏈接獲取以及轉(zhuǎn)義,將各個鏈接對應的頁面交給下一步處理,直到所有遍歷結(jié)束;②對遍歷的頁面進行SEO 處理, 生成或更新靜態(tài)HTML 緩存放入靜態(tài)頁面池,即配置文件設(shè)置的緩存路徑,并在遍歷結(jié)束后及時對無效鏈接的緩存進行清理;③網(wǎng)絡(luò)請求首先通過攔截器(SEOFilter),攔截器根據(jù)HTTP 請求的請求頭中包含的“User-Agent”等參數(shù)判斷此請求是否為爬蟲機器人的請求,如果不是則返回正常的頁面用于AngularJS 內(nèi)部渲染顯示, 反之則通過URL 轉(zhuǎn)義查詢并返回對應的SEO 緩存頁面給爬蟲機器人用于抓取關(guān)鍵字。
由于此策略是非實時的,所以它適用于較為穩(wěn)定且對于搜索引擎的實時性要求不高的網(wǎng)站。例如政府辦公網(wǎng)站,它每日更新的內(nèi)容不多且不會頻繁地修改頁面內(nèi)容,則可以每日對服務(wù)器的靜態(tài)頁面進行更新,即可滿足每日更新搜索引擎詞條的需求。
本文地址:http://www.youmaike.com//article/22215.html