建站知識
|
建站知識百度VIP大講堂(上海站)QA集錦——抓取建庫篇來源:http://zhanzhang.baidu.com/wiki/346 首先,小編要對各位站長朋友說聲抱歉,VIP大講堂上海站已經(jīng)過去N久,QA內容今天才發(fā)布出來。各位站長參加VIP大講堂,除了聆聽官方聲音外,更重要的是可以與百度專家進行面對面的溝通。VIP大講堂上海站請出了百度spider專家孫權,這是他第一次走出來與站長進行培訓交流,課程中抖出干貨無數(shù),各位無法參與現(xiàn)場培訓的站長除了申請觀看培訓現(xiàn)場視頻外,還可以通過QA記錄看看自己心中的疑問是否已被解答。 由于現(xiàn)場QA環(huán)節(jié)火爆熱烈內容超多,故本次僅放出spider抓取建庫部分,其它內容請靜待下期。 問:為什么收錄量像坐過山車一樣的,還有為什么有些網(wǎng)頁今天在明天就沒了? 問:我們站點使用CDN加速會不會比較容易造成蜘蛛無法抓?因為有時候修改掉他綁定的什么東西。 問:你們百度自己也有一個CDN加速,對抓錄排名有沒有影響? 問:剛才您說IP上的站點數(shù)不能太多,那CDN這種情況怎么辦? 問:還是IP上站點數(shù)量的問題,如果是主域跟二級域名呢?也受數(shù)量限制? 問:多個域名,他有相同的一些內容,怎么建庫? 問:剛才講的IP如果是多域名的話,好幾百個IP域名,現(xiàn)在我們也用了CDN,按照剛才的說法,單個IP最多抓多少?1000萬是說對站點還是對IP? 問:現(xiàn)在我的網(wǎng)站被很多蜘蛛爬,我想只讓百度蜘蛛爬,百度蜘蛛IP多少?能設白名單么? 問:如果我寫robots只想禁掉動態(tài)鏈接的話,會不會影響動態(tài)參數(shù)前面正常鏈接的抓取? 問:比如我們一個域名www.abcde.com,我們想把帶?號的url全部禁掉,首頁我們不要禁掉,怎么弄?? 問:我想了解,如果我現(xiàn)在收錄有5萬,大概多長時間才能把我原來收錄5萬重新抓取一遍? (接上個問題) 問:百度站長平臺上有數(shù)據(jù)提交的工具,我們實時提交,你們也會實時抓取嗎? 問:我網(wǎng)站有一些列表頁,都沒有鏈接,擔心百度抓不到 (接上個問題)
問:現(xiàn)在很多網(wǎng)站都有自己的站內搜索,都會產(chǎn)生站內搜索結果頁,百度不喜歡搜索結果頁的話,我們用這個會不會對我們有影響?只是不喜歡還是對我們網(wǎng)站會有懲罰 問:新出的時效性文章當時沒有被收錄,后期是否還會被收錄? 問:站點每天最高爬蟲多少次? 推薦鏈接:棗莊seo |