当前位置:主页 > 网络营销讲堂 > SEO技术 >

避免不利于蜘蛛抓取网页的9大陷阱

adfadf
  
蜘蛛陷阱是指对于搜索引擎并不友好,让蜘蛛在爬行和抓取的时候出现困难的网站设计技术。作为SEOers,我们要了解什么是蜘蛛陷阱,以及如何避免和解决部分蜘蛛陷阱。
 
常见的蜘蛛陷阱有:
1) 网站URL含有动态元素
这些动态元素包括问号,参数以及等号等,一般由数据库驱动的网站自动生成。
比如这个典型的论坛URL:
http://www.example.com/viewthread.php?tid=12121&extra=page=3
百度等搜索引擎蜘蛛在发展初期一般不太喜欢爬行和抓取此类URL,原因在于极有可能陷入无限循环或收录大量重复内容,造成资源的极大浪费。
解决方法:
将URL静态化,严格说来应该是“伪静态化”。最常用的方法是使用服务器的URL重写模块,在LAMP(Linux+Apache+MySQL+PHP)服务器上一般使用mod_rewrite模块,Windows服务器也有功能类似的ISAPI Rewrite等模块。
 
2) 网站使用FLASH
虽然搜索引擎近些年来已经不断努力提高FLASH这方面的内容读取,但其抓取能力还有待考究。
解决方法:
建议将网站做成普通的HTML版本。如果实在到了非要FLASH不可的地步,不妨使用SWFObject和sIFR等便于搜索引擎抓取的技术。
 
3) 登陆后方可看内容
这部分需要填入登陆信息才能看到的内容,搜索引擎是看不到的。
解决方法:
可以适当将一部分内容公开化,方便搜索引擎抓取。其余内容使用登陆后方能查阅这种做法。
 
4) 强制使用Cookies
有些网页为了跟踪用户访问行为,启用了强制用户使用COOKIE的功能。如果用户的浏览器停掉COOKIE,页面的内容便会无法显示或者不能正常显示。这也会造成搜索引擎没有办法正常访问抓取。
 
5) 弹出的聊天窗口
显示在聊天窗口的内容,搜索引擎是也是无法读取的。
 
6) URL里含有Session ID,即(会话ID)
每个用户在访问网站时会有一个唯一的Session ID 存在于URL中。这会导致同个页面出现不同的URL的状况,导致搜索引擎认为网站有大量重复内容,这对网站来讲是极端不利的。
 
7) 搜索引擎所敏感的各种跳转
搜索引擎对一些类似于302跳转,Javascript跳转,Flash跳转,Meta Refresh跳转相对来讲比较敏感。如果必须要使用,推荐301跳转。
 
8) 网站的框架结构
虽然搜索引擎蜘蛛可以根据跟踪框架里所调用的HTML文件,然而通常情况下这些文件是不完整的,这导致搜索引擎无法判断框架中的内容到底是属于主框架还是框架调用的文件。
解决方法:
避免在建站时使用框架
9) Javascript 链接的使用
据了解,对于权重不高的网站,搜索引擎会认为没有必要浪费精力去执行脚本,跟踪链接的。所以做导航时,应该避免使用Javascript.

 

------分隔线----------------------------点击:
业务范围 成功案例 技术产品 关于我们 联系我们

达闻博客RSS  达闻新浪微博  达闻腾讯微博  达闻微信账号,扫一扫

上海市黄陂南路700号D座303室
电话:400 669 8281
Email:marketing@darwinmarketing.com
  征信网  上海网警网络110

Copyright© 2014 Darwin Marketing Ltd. All Rights Reserved.