国际艺术界  
国际艺术界首页
 
    国际美术网 国际书法网
国际音乐网                    
国际影视网
 
国际设计网
  国际摄影网   国际广告网    
书画装裱|配框 国际文学网
国际艺术市场       LOGO标志设计  
 
艺术原创区
 
   
   
 艺术家库 | 人体艺术 | 会员中心 | 资源下载 | LOGO设计 | 艺术展厅 | 艺术家排行榜 | 艺术设计 | 作品欣赏库 | 在线投稿
  您的位置:国际艺术界-->国际设计网-->网页多媒体  
国际设计网   
每期榜上星闻   
热点推荐    
  标志设计欣赏    
  平面设计欣赏    
  设计精品    
  设计师加盟    
  包装设计欣赏    
视觉识别    
  标志设计    
  平面设计    
  包装设计    
  服装设计    
  名片设计    
工业设计    
  交通工具    
  电子产品    
  日常用品    
  其他用品    
  设计作品欣赏    
网页多媒体    
  网页设计    
  多媒体作品    
  酷站收录    
  网页理念    
  作品欣赏    
CG 动画    
  CG 插画    
  手绘插画    
  动漫Flash    
  素材与教程    
  作品欣赏    
建筑与环境    
  城市景观    
  园林园艺    
  室内艺术    
  建筑艺术    
  作品欣赏    
学艺沙龙    
  高考辅导    
  设计教程    
  学习院校    
  推荐图书    
  设计对话    
设计服务商    
  设计资讯    
  人才中心    
  设计公司    
  个人与团体    
  设计书籍    
  广告作品欣赏图库   
  媒体广告欣赏   
  室内外广告欣赏   
  展览展示欣赏   
  广告礼品欣赏   
  优秀广告欣赏   
  广告设计   
  公益广告   
  化妆品品牌   
  设计作品欣赏图库   
  LOGO-标志设计欣赏   
  平面设计欣赏   
  包装设计欣赏   
  服装设计欣赏   
  交通工具欣赏   
  电子产品欣赏   
  日常用品欣赏   
  其他用品欣赏   
  网页设计欣赏   
  多媒体作品欣赏   
  CG插画欣赏   
  手绘插画欣赏   
  动漫Flash欣赏   
  城市景观欣赏   
  园林园艺欣赏   
  室内设计 室内装修   
  建筑艺术欣赏   
  精品海报欣赏   
  QQ头像   
  QQ网名   
  名片设计欣赏   
  字体设计   
  画册封面|画册设计   
  商标设计商标转让查询   
  书法作品欣赏图库   
  毛笔(软笔)书法欣赏   
  硬笔书法欣赏   
  篆刻艺术欣赏   
  美术作品欣赏图库   
  国画欣赏   
  油画欣赏   
  工艺美术欣赏   
  雕塑浮雕欣赏   
  装饰画图片素材   
  素描头像素描静物   
  景泰蓝工艺画   
  摄影作品欣赏图库   
  老照片欣赏   
  新闻摄影欣赏   
  人体艺术|人体摄影   
  广告摄影欣赏   
  人物摄影欣赏   
  体育摄影欣赏   
  风光摄影欣赏   
  婚纱照片欣赏   
  影视曲艺作品图库   
  影视精彩片段欣赏   
  戏剧艺术片段欣赏   
  曲艺艺术片段欣赏   
  戏曲艺术片段欣赏   
  音乐作品欣赏图库   
  声乐欣赏   
  器乐欣赏   
  FlashMV欣赏   
  音乐作品(MV)欣赏   
  非主流图片   
  非主流图片素材   
  非主流图片设计   
  非主流签名   
  非主流闪图   
  非主流头像   
  非主流动画   
  非主流歌曲   
  桌面壁纸欣赏图库   
  WINDOWS主题壁纸   
  苹果主题壁纸   
  动物植物风光   
  经典设计壁纸   
  人物主题壁纸   
  高分辨率壁纸   
  游戏卡通壁纸   
  其他类别壁纸   
  个性图标头像   
 
网站十种防采集的建议
2007/11/2 10:56:38   
 

 

 很多防采集方法在施行的时候需要考虑是否影响搜索引擎对网站的抓取,所以先来分析下一般采集器和搜索引擎爬虫采集有何不同。
相同点:a. 两者都需要直接抓取到网页源码才能有效工作,b. 两者单位时间内会多次大量抓取被访问的网站内容;c. 宏观上来讲两者IP都会变动;d. 两者多没耐心的去破解你对网页的一些加密(验证),比如网页内容通过js文件加密,比如需要输入验证码才能浏览内容,比如需要登录才能访问内容等。

不同点:搜索引擎爬虫先忽略整个网页源码脚本和样式以及html标签代码,然后对剩下的文字部分进行切词语法句法分析等一系列的复杂处理。而采集器一般是通过html标签特点来抓取需要的数据,在制作采集规则时需要填写目标内容的开始标志何结束标志,这样就定位了所需要的内容;或者采用对特定网页制作特定的正则表达式,来筛选出需要的内容。无论是利用开始结束标志还是正则表达式,都会涉及到html标签(网页结构分析)。

然后再来提出一些防采集方法
1、限制IP地址单位时间的访问次数
分析:没有哪个常人一秒钟内能访问相同网站5次,除非是程序访问,而有这种喜好的,就剩下搜索引擎爬虫和讨厌的采集器了。
弊端:一刀切,这同样会阻止搜索引擎对网站的收录
适用网站:不太依靠搜索引擎的网站
采集器会怎么做:减少单位时间的访问次数,减低采集效率

2、屏蔽ip
分析:通过后台计数器,记录来访者ip和访问频率,人为分析来访记录,屏蔽可疑Ip。
弊端:似乎没什么弊端,就是站长忙了点
适用网站:所有网站,且站长能够知道哪些是google或者百度的机器人
采集器会怎么做:打游击战呗!利用ip代理采集一次换一次,不过会降低采集器的效率和网速(用代理嘛)。

3、利用js加密网页内容
Note:这个方法我没接触过,只是从别处看来
分析:不用分析了,搜索引擎爬虫和采集器通杀
适用网站:极度讨厌搜索引擎和采集器的网站
采集器会这么做:你那么牛,都豁出去了,他就不来采你了

4、网页里隐藏网站版权或者一些随机垃圾文字,这些文字风格写在css文件中
分析:虽然不能防止采集,但是会让采集后的内容充满了你网站的版权说明或者一些垃圾文字,因为一般采集器不会同时采集你的css文件,那些文字没了风格,就显示出来了。
适用网站:所有网站
采集器会怎么做:对于版权文字,好办,替换掉。对于随机的垃圾文字,没办法,勤快点了。

5、用户登录才能访问网站内容
分析:搜索引擎爬虫不会对每个这样类型的网站设计登录程序。听说采集器可以针对某个网站设计模拟用户登录提交表单行为。
适用网站:极度讨厌搜索引擎,且想阻止大部分采集器的网站
采集器会怎么做:制作拟用户登录提交表单行为的模块

6、利用脚本语言做分页(隐藏分页)
分析:还是那句,搜索引擎爬虫不会针对各种网站的隐藏分页进行分析,这影响搜索引擎对其收录。但是,采集者在编写采集规则时,要分析目标网页代码,懂点脚本知识的人,就会知道分页的真实链接地址。
适用网站:对搜索引擎依赖度不高的网站,还有,采集你的人不懂脚本知识
采集器会怎么做:应该说采集者会怎么做,他反正都要分析你的网页代码,顺便分析你的分页脚本,花不了多少额外时间。

7、防盗链措施(只允许通过本站页面连接查看,如:Request.ServerVariables(“HTTP_REFERER“) )
分析:asp和php可以通过读取请求的HTTP_REFERER属性,来判断该请求是否来自本网站,从而来限制采集器,同样也限制了搜索引擎爬虫,严重影响搜索引擎对网站部分防盗链内容的收录。
适用网站:不太考虑搜索引擎收录的网站
采集器会怎么做:伪装HTTP_REFERER嘛,不难。

8、全flash、图片或者pdf来呈现网站内容
分析:对搜索引擎爬虫和采集器支持性不好,这个很多懂点seo的人都知道
适用网站:媒体设计类并且不在意搜索引擎收录的网站
采集器会怎么做:不采了,走人

9、网站随机采用不同模版
分析:因为采集器是根据网页结构来定位所需要的内容,一旦先后两次模版更换,采集规则就失效,不错。而且这样对搜索引擎爬虫没影响。
适用网站:动态网站,并且不考虑用户体验。
采集器会怎么做:一个网站模版不可能多于10个吧,每个模版弄一个规则就行了,不同模版采用不同采集规则。如果多于10个模版了,既然目标网站都那么费劲的更换模版,成全他,撤。

10、采用动态不规则的html标签
分析:这个比较变态。考虑到html标签内含空格和不含空格效果是一样的,所以<   div >和<    div     >对于页面显示效果一样,但是作为采集器的标记就是两个不同标记了。如果每次页面的html标签内空格数随机,那么
采集规则就失效了。但是,这对搜索引擎爬虫没多大影响。
适合网站:所有动态且不想遵守网页设计规范的网站。
采集器会怎么做:还是有对策的,现在html cleaner还是很多的,先清理了html标签,然后再写采集规则;应该用采集规则前先清理html标签,还是能够拿到所需数据。


总结:
一旦要同时搜索引擎爬虫和采集器,这是很让人无奈的事情,因为搜索引擎第一步就是采集目标网页内容,这跟采集器原理一样,所以很多防止采集的方法同时也阻碍了搜索引擎对网站的收录,无奈,是吧?以上10条建议虽然不能百分之百防采集,但是几种方法一起适用已经拒绝了一大部分采集器了。

 
编辑:国际艺术界  
设计大师帮扶:标志logo设计 包装设计 画册设计 广告设计 平面设计等VI系统设计 在线QQ:104601249
上一篇】   【下一篇】    【字体: 】【打印


      
   
《国际艺术界名家大典》征稿  弘扬中国梦传递“真正美”免费送名人书法题字QQ:306646416  
本站文章、作品、留言只代表作者和留言者本人,不代表国际艺术界网观点……
 
 
精品标志设计
点击 697042 次
 
六安瓜片茶包装
点击 282549 次
 
法国巴黎铁塔夜景
点击 138120 次
 
国外书籍装帧封面设计[15]
点击 114959 次
 
电影海报-欧美创意篇
点击 113458 次
 
丹麦--陶瓷灯具品欣赏[7]
点击 92454 次
 


图片素材 平面设计欣赏 标志设计欣赏 包装设计欣赏 书法欣赏 名片设计 人体艺术 油画欣赏 国画欣赏

 推荐文章
 文章标题 点击次数 发布日期
==>  如何下载 设计 制作极简网站 25283 2010/3/23 13:52:10
==>  国外摄影网站网页设计欣赏 24027 2011/6/3 15:20:57
==>  国外优秀的室内设计网站 21498 2010/9/28 13:40:40
==>  黑白经典网页设计欣赏 21308 2010/12/10 10:22:05
==>  时尚服装电子商务网站设计 18006 2011/4/20 13:01:59
 相关文章
 资讯标题 点击次数 发布日期
==>  如何下载 设计 制作极简网站 25283 2010/3/23 13:52:10
==>  国外摄影网站网页设计欣赏 24027 2011/6/3 15:20:57
==>  国外优秀的室内设计网站 21498 2010/9/28 13:40:40
==>  黑白经典网页设计欣赏 21308 2010/12/10 10:22:05
==>  时尚服装电子商务网站设计 18006 2011/4/20 13:01:59
 
   
关于我们 | 诚邀合作 | 免责声明 | 意见反馈 | 招贤纳士 | 法律顾问 | 在线投稿 | 友情链接 | 联系站长
  www.gjart.cn QQ: 306646416 
  版权:中国.国际艺术界网 美国-国际艺术界联合会G.J.Art (USA) Association