亚洲一区视频/黄色片网站免费在线观看/521国产精品视频/eeuss影院98747部 - 灭火宝贝啄木鸟

網站優化之防止網站被采集

發布時間:2018-08-08來源:本站點擊數:14
  采集就是使用程序通過自動化操作復制數據。首先說明,只要是能讓瀏覽器訪問的,就沒有不能采集的。但是可以通過一定的手段讓采集變得非常麻煩,進而在大量數據的情況下延遲采集完成時間,加大采集難度。一般的情況略過不說,幾種情況比較特別的:1、驗證來路,cookie,...
  采集就是使用程序通過自動化操作復制數據。

首先說明,只要是能讓瀏覽器訪問的,就沒有不能采集的。

但是可以通過一定的手段讓采集變得非常麻煩,進而在大量數據的情況下延遲采集完成時間,加大采集難度。

一般的情況略過不說,幾種情況比較特別的:

1、驗證來路,cookie,session這些,比如PHP可以用fsockopen自定義HTTPHeader,基本上這些方法沒什么效果。

2、限速,限制某段時間內打開頁面數量。這個只是推遲了下,大部分時間效果一般。比如某站限制一分鐘之內只能打開30個網頁,頁面大小平均30K,則用迅雷批量下載就OK了,設置限速為2K,一覺醒來什么都好了。這個方法效果也基本沒有。

3、比較特別的方法,設置一個數量級的閥值,達到這樣數量后,必須驗證方能繼續,比如打開10個頁面需要輸入驗證碼,這個時候只需要保證驗證碼不可識別,分配一個session,以后的瀏覽過程中用session保證用戶合法性,這樣不影響后續訪問,同時可以有效防止采集。

4、第三條對蜘蛛是致命的,此時可通過手機蜘蛛IP段,放行,其它的按照嚴格規則來。

5、3+4真是無敵的嗎?遠非可以高枕無憂,比如此站有10萬個頁面,則設置100個代理,在閥值前循環使用代理,這樣實際上繞過了3的限制。

6、還有別的辦法嗎?不能,因為你的網站能用瀏覽器打開。


首頁
銷售熱線
郵箱
聯系