服务器
想要能够正常的访问网站,首先要保证服务器的稳定性。网站就好比是搭建在地面上的楼房,而服务器就是承载楼房的地基。没有牢固结实的地基,那么建立在其上的楼房就有随时倒塌的危险。如果服务器不稳定,蜘蛛在抓取的时候就随时有可能面临楼房坍塌的危险,就会导致爬行抓取失败,对这样的网站蜘蛛是非常不友好的。
域名
新域名一般是不会有问题的,但如果使用的域名是老域名就必须无任何不良记录,如果域名被计入黑名单,有过作弊行为,被k过,这样的域名来建站是很难被收录的。
协议
每一个网站就好像是站长自己的私密房间,既然是私密的,那么当有人要来拜访的时候就必须得遵守主人的协议了,至少也得先敲敲门、打声招呼吧。一样的道理,蜘蛛到达网站之后,首先也是要和网站打声招呼的,这个就是robots.txt协议了。每一个站长都必须在网站添加一份robots协议,告诉蜘蛛网站方不方便访问,如果是robots是禁止的写法,蜘蛛就不会再继续访问,如果是同意的写法,蜘蛛将按照协议进行爬行。虽然只是一份很简单的协议,却也是尤其重要的,这直接关系到网站能不能收录的问题,新站长们尤其要特别关注一下。至于robots的写法和坚持方法,网上有很多教程,大家自己去搜索一番即可得到想要的。
以上就是蜘蛛的爬行规则,了解了蜘蛛的爬行规则,我们再来看看哪些是对收录有帮助的。
内容
保证了蜘蛛能够正常访问和抓取的问题之后,自然是页面内容丰富的问题。一个网站如果没有任何内容,就算来再多的蜘蛛爬行,也抓取不到任何的信息,更加不会被收录。蜘蛛比较喜欢新鲜的原创性的文字内容,对于图片视频的抓取目前还是比较困难,所以对网站增加原创文章的方法是快速收录的不二之选。
HTML静态页面
笔者发现动态URL链接其实也是可以收录的,像很多的论坛链接都是动态的,收录一样不错。实际上动态页面是可以收录,只是相比较静态页面比较繁杂一些。相对而言,蜘蛛更加喜欢简洁的HTML页面,爬行抓取会更加轻松不费什么力气。
URL层级
层级优化很多人都建议三级栏目,即首页--栏目页--内容页。这样的层级是最简洁的,简洁简短的URL是受蜘蛛青睐的,会更加容易爬行。这里建议层级命名尽量简短好记,层级尽量缩短,减少蜘蛛爬行困难。当然并非是说一定要是三级层级,根据网站需求调整,笔者看到有一些网站也是四级栏目,收录也是挺好的,这并不是取决收录的唯一标准。
sitemap网站地图
顾名思义,网站地图就是站长为搜索引擎蜘蛛制作的一份网站URL链接爬行地图指南。有了这份地图,蜘蛛爬行会更新方便简单,不会出现迷路的情况,对网站也就会生出更多的好感。
看到这里,不知道读者们有无了解清楚,要如何做才能够提高网站的收录问题。想要新网站能够快速的被收录,就必须要了解收录的原理。从稳定的服务器,域名的选择,robots协议的正确写法等等,再到对网站内容、页面、层级、sitemap的优化,都是为了使网站能够得到搜索引擎蜘蛛的青睐,让更多的搜索引擎蜘蛛能够来爬行网站,这样才能提高网站的收录。