另外需要強調的是,對于 robots 封禁,如果封禁的 agent 是 Baiduspider,會對 PC 和移動同時生效。即,無論是 PC 還是移動 Baiduspider,都不會對封禁對象進行抓取。之所以要強調這一點,是發現有些代碼適配站點(同一個 url,PC ua 打開的時候是 PC 頁,移動 ua 打開的時候是移動頁),想通過設置 robots 的 agent 封禁達到只讓移動 Baiduspider 抓取的目的,但由于 PC 和移動 Baiduspider 的 agent 都是 Baiduspider, 這種方法是非常不可取的。
百度蜘蛛對于站長來說可謂上賓,可是我們曾經遇到站長這樣提問:我們如何判斷瘋狂抓我們網站內容的蜘蛛是不是百度的?其實站長可以通過 DNS 反查 IP 的方式判斷某只 spider 是否來自百度搜索引擎。根據平臺不同驗證方法不同,如 linux/windows/os 三種平臺下的驗證方法分別如下:
在 linux 平臺下,您可以使用 host ip 命令反解 ip 來判斷是否來自 Baiduspider 的抓取。Baiduspider 的 hostname 以 .baidu.com 或 .baidu.jp 的格式命名,非 .baidu.com 或 .baidu.jp 即為冒充。
在 windows 平臺或者 IBM OS/2 平臺下,您可以使用 nslookup ip 命令反解 ip 來 判斷是否來自 Baiduspider 的抓取。打開命令處理器 輸入 nslookup xxx.xxx.xxx.xxx(IP 地 址)就能解析 ip, 來判斷是否來自 Baiduspider 的抓取,Baiduspider 的 hostname 以 .baidu.com 或 .baidu.jp 的格式命名,非 .baidu.com 或 .baidu.jp 即為冒充。
在 mac os 平臺下,您可以使用 dig 命令反解 ip 來 判斷是否來自 Baiduspider 的抓取。打開命令處理器 輸入 dig xxx.xxx.xxx.xxx(IP 地 址)就能解析 ip, 來判斷是否來自 Baiduspider 的抓取,Baiduspider 的 hostname 以 .baidu.com 或 .baidu.jp 的格式命名,非 .baidu.com 或 .baidu.jp 即為冒充。
即便很多站長知道了如何判斷百度蜘蛛,仍然會不斷地問 “百度蜘蛛 IP 是多少”。我們理解站長的意思,是想將百度蜘蛛所在 IP 加入白名單,只準白名單下 IP 對網站進行抓取,避免被采集等行為。
但我們不建議站長這樣做。雖然百度蜘蛛的確有一個 IP 池,真實 IP 在這個 IP 池內切換,但是我們無法保證這個 IP 池整體不會發生變化。所以,我們建議站長勤看日志,發現惡意蜘蛛后放入黑名單,以保證百度的正常抓取。
同時,我們再次強調,通過 IP 來分辨百度蜘蛛的屬性是非?尚Φ氖虑,所謂的 “沙盒蜘蛛”“降權蜘蛛” 等等是從來都不存在的。
robots 是站點與 spider 溝通的重要渠道,站點通過 robots 文件聲明該網站中不想被搜索引擎收錄的部分或者指定搜索引擎只收錄特定的部分。請注意,僅當您的網站包含不希望被搜索引擎收錄的內容時,才需要使用 robots.txt 文件。如果您希望搜索引擎收錄網站上所有內容,請勿建立 robots.txt 文件。
robots 文件往往放置于根目錄下,包含一條或更多的記錄,這些記錄通過空行分開(以 CR,CR/NL, or NL 作為結束符),每一條記錄的格式如下所示: <field>:<optional space><value><optionalspace>
在該文件中可以使用#進行注解,具體使用方法和 UNIX 中的慣例一樣。該文件中的記錄通常以一行或多行 User-agent 開始,后面加上若干 Disallow 和 Allow 行 , 詳細情況如下:
User-agent:該項的值用于描述搜索引擎 robot 的名字。在 "robots.txt" 文件中,如果有多條- User-agent 記錄說明有多個 robot 會受到 "robots.txt" 的限制,對該文件來說,至少要有一條 User-agent 記錄。如果該項的值設為 ,則對任何 robot 均有效,在 "robots.txt" 文件中,"User-agent:" 這樣的記錄只能有一條。如果在 "robots.txt" 文件中,加入 "User-agent:SomeBot" 和若干 Disallow、Allow 行,那么名為 "SomeBot" 只受到 "User-agent:SomeBot" 后面的 Disallow 和 Allow 行的限制。
Disallow:該項的值用于描述不希望被訪問的一組 URL,這個值可以是一條完整的路徑,也可以是路徑的非空前綴,以 Disallow 項的值開頭的 URL 不會被 robot 訪問。例如 "Disallow:/help" 禁止 robot 訪問 /help.html、/helpabc.html、/help/index.html,而 "Disallow:/help/" 則允許 robot 訪問 /help.html、/helpabc.html,不能訪問 /help/index.html。"Disallow:" 說明允許 robot 訪問該網站的所有 url,在 "/robots.txt" 文件中,至少要有一條 Disallow 記錄。如果 "/robots.txt" 不存在或者為空文件,則對于所有的搜索引擎 robot,該網站都是開放的。
Allow:該項的值用于描述希望被訪問的一組 URL,與 Disallow 項相似,這個值可以是一條完整的路徑,也可以是路徑的前綴,以 Allow 項的值開頭的 URL 是允許 robot 訪問的。例如 "Allow:/hibaidu" 允許 robot 訪問 /hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。一個網站的所有 URL 默認是 Allow 的,所以 Allow 通常與 Disallow 搭配使用,實現允許訪問一部分網頁同時禁止訪問其它所有 URL 的功能。
使用 "*"and"$":Baiduspider 支持使用通配符 "" 和 "$" 來模糊匹配 url。 "" 匹配 0 或多個任意字符 "$" 匹配行結束符。
最后需要說明的是:百度會嚴格遵守 robots 的相關協議,請注意區分您不想被抓取或收錄的目錄的大小寫,百度會對 robots 中所寫的文件和您不想被抓取和收錄的目錄做精確匹配,否則 robots 協議無法生效。
上面說了那么多理論,有沒有簡單對照表格告訴我,怎樣的需求場景下應該怎樣撰寫 robots 文件?有的:
Meta robots 標簽是頁面 head 部分標簽的一種,也是一種用于禁止搜索引擎索引頁面內容的指令。目前百度僅支持 nofollow 和 noarchive
nofollow:禁止搜索引擎跟蹤本頁面上的鏈接
如果您不想搜索引擎追蹤此網頁上的鏈接,且不傳遞鏈接的權重,請將此元標記置入網頁的
noarchive:禁止搜索引擎在搜索結果中顯示網頁快照
要防止所有搜索引擎顯示您網站的快照,請將此元標記置入網頁的
對于百度搜索引擎來說,蜘蛛黑洞特指網站通過極低的成本制造出大量參數過多、內容類同但 url 不同的動態 URL ,就像一個無限循環的 “黑洞 “,將 spider 困住。spider 浪費了大量資源抓取的卻是無效網頁。
如很多網站都有篩選功能,通過篩選功能產生的網頁經常會被搜索引擎大量抓取,而這其中很大一部分是檢索價值低質的頁面。如 “500-1000 之間價格的租房”,首先網站(包括現實中)上基本沒有相關資源,其次站內用戶和搜索引擎用戶都沒有這種檢索習慣。這種網頁被搜索引擎大量抓取,只能是占用網站寶貴的抓取配額,那么該如何避免這種情況呢?
目前百度圖片搜索也使用了與百度網頁搜索相同的 spider,如果想禁止 Baiduspider 抓取網站上所有圖片、禁止或允許 Baiduspider 抓取網站上的某種特定格式的圖片文件可以通過設置 robots 實現:
| | | --- | --- 禁止 Baiduspider 抓取網站上所有圖片 , 僅允許抓取網頁,禁止抓取任何圖片。| User-agent: Baiduspider Disallow: /.jpg$; Disallow: /.jpeg$; Disallow: /.gif$; Disallow: /.jpg$; Disallow: /*.bmp$;
僅允許 Baiduspider 抓取網頁和 .gif 格式圖片 , 允許抓取網頁和 gif 格式圖片,不允許抓取其他格式圖片| User-agent: Baiduspider; Allow: /.gif$; Disallow: /.jpg$; Disallow: /.jpeg$; Disallow: /.jpg$; Disallow: /*.bmp$;
僅禁止 Baiduspider 抓取 .jpg 格式圖片|User-agent: Baiduspider;Disallow: /*.jpg$
Html 狀態碼也是網站與 spider 進行交流的渠道之一,會告訴 spider 網頁目前的狀態,spider 再來決定下一步該怎么做——抓 or 不抓 or 下次再來看看。對于 200 狀態碼大家已經很熟了,那么我們來介紹幾種常見的失效網頁使用的狀態碼:
一些網站把未建好的頁面放到線上,并且這些頁面在被百度抓取的時候返回碼是 404,于是頁面被百度抓取后會被當成死鏈直接刪除。但是這個頁面在第二天或者過幾天就會建好,并上線到網站內展現出來,但是由于之前已經被百度當做死鏈刪除,所以要再次等這些鏈接被發現,然后抓取才能展現,這樣的操作最終會導致一些頁面在一段時間內不會在百度出現。比如某個大型門戶網站爆出大量新聞時效性很強的專題未被百度及時收錄的問題,經檢查驗證后發現就是因為頁面未建成就放置在線上,并返回 404 狀態碼,被百度當成死鏈刪除,造成收錄和流量損失。
對于這樣的問題,建議網站使用 503 返回碼,這樣百度的抓取器接到 503 返回碼后,會在隔一段時間再去訪問這個地址,在您的頁面建好上線后,就又能被重新抓取,保證頁面及時被抓取和索引,避免未建好的內容設為 404 后帶來不必要的收錄和流量損失。
其它建議和總結:
在百度 site 站點時,遇到 “連通率為 0” 說明 Baiduspider 在訪問站點時發現了問題,該問題非常嚴重,如果 Baiduspider 持續一天時間無法訪問有可能給站點帶來災難性的損失。
既然為率,那么就是一個統計相關概念。我們不妨可以這樣理解一個網站的連通率:百度蜘蛛在抓取網站頁面的時候計算的一個概率,比如它抓取某網站中的 N 個頁面,這 N 個頁面都能打開并被蜘蛛成功抓取,這樣的連通率就是 N/N=100%,反之蜘蛛抓取 N 個頁面有 M 個頁面能成功抓取,連通率就是 M/N
這里先說明幾個常識:
上述概念中,我們需要注意的幾個詞有:” 百度蜘蛛”; ” 在抓取”; ”N 個頁面”; ”M 個頁面”; ” 都能打開并被成功抓取”。
我們抓住上述 5 個提取出的核心詞進行分析。
所以我們首先要確保百度蜘蛛的訪問有沒有被操控或禁止。
完善聯系方式獲得百度站長工具消息提醒
雖然一些網站異常情況會收到百度站長工具消息提醒,然而我想告訴大家不是所有自己站點異常都可以寄希望于消息提醒的,自己心里要知道連發郵件都可能出現收不到的情況,更何況各種復雜的異常情況,因此不要出問題了只會問 “為什么站長工具沒有給我發消息”。
利用抓取異常和抓取頻次工具觀察抓取情況
↓抓取異常工具的網址異常情況
↓抓取頻次工具的抓取統計情況
↓每個工具頁面的右側下方都有使用說明,如下
(3)抓取診斷工具是重中之重
為了保證網站對百度蜘蛛的穩定訪問性能,日常我們需要養成定期抓取診斷的習慣,另外抓取診斷不是說光看看狀態是否 “抓取成功” 就行了。有下面幾步進行:
特別說明:有很多站長就光注意抓取成功,卻不知網站 ip 可能并非自己的實際 ip,被網絡商搞到哪里去了都不知道,還可能每隔一段時間都變。當發現 ip 有問題,及時跟網絡商溝通,并在網站 ip 旁點擊 “報錯” 按鈕,百度會更新網站 ip,但是切記不要 ip 變化頻繁。此外當然還可能出現實際抓取網址、頭部信息、網頁源碼等都不是自己本來設置的。
這是反映百度蜘蛛在抓取時的狀態,百度的工具顯示的數值肯定都是抓取后計算出來的數據,因此任何工具的連通率數據必定存在延遲性,另外這個計算過程也存在一定可能的錯誤,所以我們看到任何工具中關于連通率的數據,不要說 “我網站用抓取診斷等工具檢查訪問情況都好好的,為什么連通率還是 0”,因此除了上述建議的多抓取診斷測試外,自己可以加些監控網站連接狀態的措施,筆者本人就曾經接收了不少關于網站連接不通的提醒。這時我會及時跟網絡商溝通,然后及時用抓取診斷檢查蜘蛛的情況。
這 N、M 個頁面,可能百度蜘蛛很湊巧就趕上高峰的時候或者一些假死頁面(執行時間較長,超過蜘蛛的耐心),那么 M 這個數值就會很低,統計概率的東西大家都懂的,那么這時網站的連通率依舊很低或為 0。因此若連通率為 0,我們還可以知道自己應該注意查看訪問日志,及時清理死鏈,或者并發連接數增大,或者增加內存等等。
這里主要注意 DNS 和空間的穩定性。
提醒大家注意的是現在不少云類 ns 服務器,這個過程中由于處理機制問題,包括回源障礙等等,較容易造成這個問題。另外國內大型服務商提供,比如你使用了 dnspod,并不代表你的 dns 就應該是 ok 的。有的站長存在著對大型服務商的錯誤認識,如 “新網的 dns 就是不可靠的,我都用百度云加速”。我們要明白廉價的東西質量都有一定局限性,所以需要自己檢查 dns 解析情況,具體上網找找相關資料或平臺,看看 dns 解析出的 ip 以及解析延遲情況等等。
如果你的網站索引由于連通率而非懲罰原因被清理了,處理完畢問題,可以在抓取頻次工具中提交增加抓取頻次的請求,將抓取頻次增加到一定額度(建議自己查看工具中對抓取頻次的說明后再根據網站實際情況調整),然后增加自己的網站數據更新頻率與質量,加強與百度的數據溝通(如 url 提交、sitemap 等等),很快就能恢復。相關工具展示如下(每個工具頁面的右側下方都有相關說明鏈接,可以點擊去了解使用注意事項):
抓取頻次中的頻次調整工具:
鏈接提交工具:
鏈接提交工具中的主動推送、sitemap、手動提交方式:
2015 年 5 月 25 日,百度站長平臺發布公告,宣布全面放開對 https 站點的收錄,https 站點不再需要做任何額外工作即可被百度抓收。采用了本文之前建議的 https 站點可以關閉 http 版,或者將 http 頁面跳轉到對應的 https 頁面。
百度搜索引擎目前不主動抓取 https 網頁,導致大部分 https 網頁無法收錄。但是如果網站一定要使用 https 加密協議的話該如何做到對百度搜索引擎友好呢。其實很簡單:
為需要被百度搜索引擎收錄的 https 頁面制作 http 可訪問版。
通過 user-agent 判斷來訪者,將 Baiduspider 定向到 http 頁面,普通用戶通過百度搜索引擎訪問該頁面時,通過 301 重定向至相應的 https 頁面。如圖所示,上圖為百度收錄的 http 版本,下圖為用戶點擊后會自動跳入 https 版本。
http 版本不是只為首頁制作,其它重要頁面也需要制作 http 版本,且互相鏈接,切不要出現這種情況:首頁 http 頁面上的鏈接依然鏈向 https 頁面,導致 Baiduspider 無法繼續抓取——我們曾經遇到這種情況,導致整個網點我們只能收錄一個首頁。如下面這個做法就是錯誤的:http://www.abc.com/ 鏈向 https://www.adc.com/bbs/
可以將部分不需要加密的內容,如資訊等使用二級域名承載。比如支付寶站點,核心加密內容放在 https 上,可以讓 Baiduspider 直接抓取的內容都放置在二級域名上。
問:對于 http 和 https,Baiduspider 會不會區別對待? 答:不會區別對待。說得再全整專業一些:Baiduspider 在對于 http 和 https 站點的調度和解析方面沒有任何區別。至于建索引庫,年初的時候百度進行過升級,目前對 https 站點也是全力支持的。
問:Baiduspider 可以抓取 https 網站嗎?站點 https 以后應該做些什么? 答:在抓取方面,Baiduspider 完全支持 https 鏈接的抓取。站長需要注意的一點是要保證 http 鏈接到 https 鏈接良好的重定向(使用 301 或 302),這樣百度可以做到無縫切換。另外可以使用鏈接提交工具提交 https 鏈接,盡快通知百度。
問:站點切換 https 以后,新產生的 https 頁面,百度會將其視為新頁面重新收錄?重新計算排名? 答:不是的,不涉及重新收錄的問題。
問:https 以后可以使用改版工具向百度提交 http 與 https 的對應關系嗎? 答:http 站和 https 站會被百度視為同一個站點,不屬于改版,不適用改版工具。
問:https 以后,排序有可能發生什么變化?
答:在 rank 方面,現在對兩種鏈接無區別對待,從安全性考慮,以后可能會優待 https 的鏈接。
很多站點出于隱私的考慮不希望百度保留快照,網上也在討論如何禁止百度保留快照的方法。其實百度早已對此有過說明,但藏在一篇不起眼的文章中不引人注目,導致依然非常多的人不清楚該如何操作。上周恰好又有人問到這個問題,特意進行說明。
要防止所有搜索引擎顯示您網站的快照,請將此元標記置入網頁的
要允許其他搜索引擎顯示快照,但僅防止百度顯示,請使用以下標記:<meta name="Baiduspider" content="noarchive">
注:此標記只是禁止百度顯示該網頁的快照,并不會影響網頁建入索引,同時垃圾網頁也不可能依靠此手段逃避百度的判罰。
眾所周知,搜索引擎會對站點獲得鏈接的數量和質量進行分析,從而做出對網站的評價,最終影響站點在搜索結果中的表現。在搜索引擎看來,站點的鏈接質量比數量更為重要,然而愈演愈烈的鏈接買賣風潮,已經開始威脅到搜索引擎的公正性。為此百度質量團隊推出了綠蘿算法對買賣鏈接行為進行打擊。
搜索引擎認為站點每發出一個鏈接指向另一個站點,都是一次投票行為,請您珍惜每一次投票的權力,而不是將這個權力出售,更不應該打包賣給鏈接中介公司。如果搜索引索發現站點有出售鏈接的行為,則會影響到站點在搜索引擎系統中的整體表現。對于廣告類的鏈接,請您使用nofollow屬性進行設置。除不出售鏈接外,您還應該關注建站程序的安全更新,及時安裝補丁程序;經常對網站發出的鏈接進行檢查,看是否有多余的、非主觀意愿存在的鏈接,以免站點在不知情的情況下被黑帽SEO添加鏈接。
建議您不要企圖求助于黑帽SEO和鏈接中介公司,他們很有可能使用極不正當的手段令站點在短時間內獲得一定效果,但是搜索引擎有專門的程序去識別各種手段和行為,一旦被發現,站點會無法得到預期的效果,甚至被搜索引擎懲罰處理。最后,希望各位站長放眼于長遠的未來,不要為眼前的蠅頭小利所迷惑。將精力放在在自身內容和品牌建設上,拓展更多良性發展的盈利模式。
在《百度搜索引擎工作原理》課程中我們提到過,Baiduspider需要知道站點里哪個頁面更重要,其中一個渠道就是內鏈。那么內鏈建設有哪些大忌呢:
死循環鏈接:死循環鏈接是搜索引擎蜘蛛最郁悶的事情了,往往會把搜索引擎蜘蛛卡在一個角落中,無限的循環而走不出來,不僅白白浪費蜘蛛體力,也會占用網站大量爬取頻率,造成有價值的網頁抓取不全。比如萬年歷等非常實用的工具網站,很多時候這些工具你都可以無限的點擊,每次點擊都產生一個新的url,如果你沒有屏蔽蜘蛛爬取這些內容,那么蜘蛛有可能會被帶入到一個無限循環的境地,這樣的做法對任何一個搜索引擎都是不友好的。
還有一種就是動態、帶“?”號的url。這是由于動態網站的一個動態文件(如.php)可以產生上萬個或者無數個鏈接,如果部分php文件內部又再次鏈向自己。蜘蛛進去就很難再爬出來。
鏈接404后不消除內鏈入口:頁面404后,除了需要向百度站長平臺提交外,應該盡量關閉其在網站內部的入口,一來死鏈對用戶的傷害是極大的,二來避免令蜘蛛產生錯覺,認為你網站死鏈嚴重。
只有入鏈沒有出鏈:有些人認為網頁上的出鏈太多會分散頁面本身的得分,所以在重要頁面上不設計出鏈,實際這與百度的認知是相悖的,百度認為一個優質的網站結構應該像一張網,所有頁面都會與其他頁面產生鏈接,蜘蛛會順著一個頁面遍歷所以頁面。只有入鏈而沒有出鏈的結構對蜘蛛來說是不友好的。當然,整個網站僅一兩個網頁只有入鏈沒有出鏈是無所謂的,但數量千萬不要多。
無返回上級目錄的鏈接:我們提倡盡量在每個頁面上使用面包屑導航,以告訴搜索引擎頁面內容與首頁的關系及距離;同時對于用戶來說,面包屑導航也是延長用戶平均訪問時長的重要工具。只有內容而沒有返回上級目錄的頁面就像一本永遠無法訪問目錄的書,聽起來是不是怪怪的?
錯誤的錨文本:內鏈的作用并不僅僅是頁面權值傳遞和內部投票,百度還會通過錨文本輔助判斷網頁的內容,錯誤的錨文本很可能會誤導百度對于相關性的計算,對搜索排序產生負面影響。同時對于只能通過錨文本來判斷是否要點擊打開新網頁的用戶來說,無疑也是一種傷害。
百度搜索引擎雖然降低了對超鏈的依賴,但依然沒有放棄對不同質量鏈接的識別,制定了一套針對優質外鏈、普通外鏈、垃圾外鏈、作弊外鏈的識別原則和方法。在繼續信任優質外鏈的同時,加大對作弊外鏈的打擊,同時對部分作弊外鏈的受益站點進行打擊。為了避免被百度搜索引擎懷疑為超鏈作弊,建議站長定期檢查站點的外鏈情況,發現異常及時通過百度站長平臺的拒絕外鏈工具進行自我保護。同時如果你之前有過購買鏈接、群發外鏈的行為,可以通過拒絕外鏈工具進行修正。
那么除了要拒絕被黑網頁發出的鏈接、買來的鏈接外,還有哪些鏈接應該被拒絕呢。
使用拒絕外鏈工具還有一些注意事項:
為了改變站點運營效果,部分站長會選擇對網站進行改版。百度站長平臺站在搜索引擎的角度給站長朋友一些建議:首先站長們應該明確,網站只要發生大大的變化(如換域名、子目錄改版為二級域名等),流量就會受到損失;其次,百度站長平臺會幫助站長盡量將損失降到最低。請站長依次走完以下步驟以減少損失。
第一步:設置301跳轉
使用301跳轉進行重定向,跳轉最好有規律可循,百度搜索引擎會自動進行處理
提醒:301跳轉要保持一段時間,直至新網頁的抓取、收錄、排序達到預期。
第二步:使用改版工具
使用百度站長平臺工具,可加速百度搜索引擎對301跳轉的處理,盡快完成新舊內容的銜接。目前改版工具除了支持換域名外,還可以支持站點級改版和目錄級改版,都是通過工具的“目錄改版”功能實現的。
工具地址:http://zhanzhang.baidu.com/rewrite/index
第三步:使用抓取異常工具
已在改版工具中提交改版規則后,隨時關注新內容的抓取情況。如果不符合預期,可使用抓取異常工具查找部分原因,排除由服務器、運營商、DNS、IP、UA等導致的抓取不及時。
工具地址: http://zhanzhang.baidu.com/crawl/index 具體可參考百度站長平臺已有文章《抓取異常工具幫助》,里面對每項因素都有詳細說明和解決辦法。
第四步:使用抓取頻次工具
抓取頻次工具提供站點在百度近一個月的天級抓取量曲線圖,如果新內容抓取量不符合預期可在工具中進行反饋,spider會根據站長的申請和實際情況對抓取頻次進行調整。
工具地址:http://zhanzhang.baidu.com/pressure/index
具體使用方法可參考百度站長平臺已有文章《抓取頻次工具幫助》
第五步:使用百度索引量工具
一個站點的被抓取量多與少并不是重點,重點是索引量,只有被建為索引的頁面才有可能展現在用戶面前。站長可以通過百度索引量工具來對比新舊內容被建索引的數量,來確認改版后站點在百度搜索引擎的收錄是否已恢復正常。
工具地址:http://zhanzhang.baidu.com/indexs/index 該工具使用起來非常簡單,可參考百度站長平臺之前的文章《百度索引量工具幫助》
在與站長朋友私下交流中,站長表示:最怕改版,最怕換空間換IP,每次都是萬不得已身不由己。改版還好些,有改版工具可以使用。換了空間和IP都不知道怎么通知百度。其實,登錄百度站長平臺,使用抓取診斷工具,換空間和IP真的不是愁事。
抓取診斷工具會檢查站點與百度的連接是否暢通,若站長發現IP信息還是老舊的,可以通過“報錯”通知百度搜索引擎更新IP,如下圖所示:
重要提示:由于spider精力有限,如遇報錯后網站IP依舊沒有變化,站長可進行多次嘗試,直至達到預期。
由于大多數UGC建站系統存在漏洞,攻克技術成本較低,且群發軟件價格低廉,容易被作弊者利用,近期我們發現大量UGC站點被群發的垃圾信息困擾。這些垃圾群發內容無孔不入,除論壇、博客等傳統的UGC站點受到困擾外,現已蔓延到微博、SNS、B2B商情頁、公司黃頁、分類信息、視頻站、網盤等更多領域內,甚至連新興的分享社區也受到了影響。從以前的論壇帖子、博客日志,擴展到供求信息頁、視頻頁、用戶資料頁,這些任何由用戶填寫和生成內容的地方,都會被作弊者發掘利用,形成大量的UGC性質的垃圾頁面。
搜索引擎在發現UGC性質的垃圾頁面后必將做出相應應對,但對真正操作群發的作弊者很難有效的打擊,所以作弊者容易利用UGC站點極低成本且自身安全這些特點,做出更多危害網站、危害用戶、危害搜索引擎的行為。若網站自身管理不嚴控制不力,很容易成為垃圾內容的溫床;有些網站為了短期流量而對垃圾內容置之不理,這無異于飲鴆止渴。網站不應僅僅是平臺的提供者,更應該是內容的管理者,積極維護網站自身質量非常重要。若網站任由垃圾內容滋長,不僅會影響網站的用戶體驗,同時也會破壞網站口碑和自身品牌建設,造成正常用戶流失,嚴重時,還會使搜索引擎降低對網站的評價。
對于作弊者來說,在UGC站點上發布垃圾內容的目的就是被搜索引擎收錄,如果不能讓垃圾頁面在網站和搜索引擎上消失,他們依然會持續不斷地產生更多垃圾內容。百度站長平臺希望和站長一起打擊垃圾頁面,幫助網站良性發展,共同維護互聯網生態環境。
這里所說的被黑,指黑客通過網站漏洞篡改網頁內容、為網站惡意添加許多垃圾頁面,內容往往與博彩、游戲等熱門關鍵詞有關,然后利于網站在搜索引擎中的天然優勢騙取更多流量;ヂ摼W上所有網站其實都存在被黑的可能,尤其是已在搜索引擎中獲得較好表現的站點更要注意,千萬不要讓被黑令自己的心血付之東流。
先通過外界對網站進行觀察,如果有如下現象,那您的網站可能被黑了
**注:site查詢結合一些常見的色情、游戲、境外博彩類關鍵字,可幫助站長更快的找到異常頁面,例如“site:www.abcxyz.com 博彩”**
通過上述方法站長懷疑自己的網站被黑了,那么該如何對黑出來的內容進行排查呢?
【重要提示】若直接訪問網站時一切正常,但在百度的搜索結果展現了異常的快照內容,這可能是黑客做了特殊處理,只讓百度蜘蛛抓取到異常的頁面,以此來增加隱蔽性,讓站長難以發現;同理,若直接訪問網站正常,但從百度搜索結果頁進行訪問時,出現了異常頁面,這是黑客針對百度來源(refer)做了特殊處理
**注:可以從訪問日志中,確定可能的被黑時間。不過黑客可能也修改服務器的訪問日志。**
2014年5月14日,前瞻網官方微博發布公告,宣布域名被盜損失過億。在黑客遍行的今天,域名被盜被劫持幾乎每天都在發生。百度搜索引擎希望站長在關注收錄、流量、變現的同時,多多關注域名安全,畢竟域名安全是生存之本。在之前與站長接觸中,發現站長都有如下心理:域名控制權完全在服務商,我們處于被動的一方。那么站長就真的什么都不用做、什么都無法做了么?
1,域名被解析到其它地址,用戶無法正常訪問,網站流量受損 2,通過泛解析生成大量子域名,共同指向其它地址(往往是惡意垃圾網站) 3,域名被解析到惡意釣魚網站,導致用戶財產損失 4,當域名被劫持后的內容干擾搜索結果時,為保障用戶的使用體驗和安全,百度搜索引擎會暫時關閉對域名的收錄和展示,待嚴格審核確認后才會再度放開
**使用此方法后,需要做域名解析都要通過服務商來完成,時效性較差**
關于網站建設,其實還有很多零碎的問題要注意,所以在這里單啟一篇,日后再根據反饋不斷補充完善。
搜索引擎往往將二級域名當作一個獨立的網站看待,同時會視情況將主域名的評價傳遞一部分給二級域名。使用二級域名會使同domain下站點變多,但是每個站點的體量變小。二級域名的SEO特點是:
將不同內容通過子目錄的情況放在同一個網站下,會使網站體量變得越來越大,可以使網站積累更多的投票:
選擇使用二級域名還是子目錄來分配網站內容,對網站在搜索引擎中的表現會有較大的影響,為此百度站長平臺建議:
在某個頻道的內容沒有豐富到可以當作一個獨立站點存在之前,使用目錄形式;等頻道下積累了足夠的內容,再通過改版成二級域名的形式。
一個網頁能否排到搜索引擎結果的前面,“出身”很重要,如果出自一個站點評價較高的網站,那排到前面的可能性就較大,反之則越小。通常情況下,二級域名會從主站點繼承一部分權重,繼承多少視二級域名質量而定。
在內容沒有豐富到可以作為一個獨立站點之前,使用子目錄更能在搜索引擎中獲得較好表現。
內容差異較大、關聯度不高的內容,建立使用二級域名的形式。
搜索引擎會識別網站的主題,如果網站中各子目錄的內容關聯度不高,可能導致搜索引擎錯誤地判斷網站的主題。所以,關聯度不高的內容放在不同的二級域名中,可以幫助搜索引擎更好的理解網站的主題。
二級域名間的服務器權限應該嚴格控制,a.domain.com下的內容,最好不能域名替換通過b.domain.com訪問。如:a.domain.com/abc.html 不應該通過b.domain.com/abc.html訪問到。
二級域名的內容能夠互相訪問,可能會被搜索引擎當作重復內容進行去重處理,保留的URL不一定能符合站長預期。
網站在生存發展中會遇到很多問題,會因為各種原因產生不同的域名,而這些域名的內容卻都是相同的。百度一直在說拒絕重復內容,那么,多域名同內容是否會對SEO產生負影響呢?我們收集了眾多站長對多域名同內容的問題后,請百度spider專家做了統一解答,現公布出來供各站長參考。
問:多個域名指向同一個域名算是作弊么?
答:如果某公司從品牌保護或長遠發展角度出發,注冊了多個域名,且多域名301重定向指向一個常用域名,那此行為本身不屬于作弊。但是如果進行301重定向的多域名本身有作弊行為,那么被指向的域名有可能受到牽連。
問:多個域名同內容是否有利于提高排名?
答:此舉非常不利于提高排名,因為多個域名會分散原本應該屬于單獨域名的外鏈進而影響權重,不利于單獨域名獲得更好的排名。
問:我們先推個測試域名,走上正軌后再啟用正式域名,會有什么影響嗎?
答:如果兩個域名的內容完全一樣,對正式域名的收錄可能會有影響。搜索引擎會認為這兩個網站重復,在已經收錄了前者的前提下,會對后者限制收錄。的確曾經有某理財網站先搞一個臨時域名在搜索引擎試水,結果等正牌域名上線后卻遲遲得不到收錄的事情發生。
問:如果公司已經有多個域名是相同內容該怎么處理?
答:先確認一個好記易懂的域名作為“唯一域名”,進行重點宣傳推介,其余的域名也千萬不能放任自流,尤其是當測試域名已經有了較好的收錄和排位時,可以設置301重定向,指向唯一域名。同時登錄百度站長平臺對新舊網站進行驗證,然后在網站改版工具中進行相應的操作,可以讓“唯一域名”繼承原域名已獲得的權重。
網站改版工具地址&幫助說明