1、robots.txt
robots是干嘛用的?就是告诉搜索引擎什么内容允许搜索什么内容不允许搜索!如下面的robots:
user-agent:*
Disallow: /?p=*
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-login.php
Disallow: /wp-register.php
Sitemap: http://aikenote.com/sitemap.xml.gz
意思就是告诉搜索引擎:admin文件夹、includes文件夹、login和register页面不要去搜索和收录。
为什么有些内容不让搜索引擎收录?
(1)这些内容涉及机密或者是登录和注册地址,如果发现你网站的动态地址(?p)也被收录进去了,查看动态地址也被收录了进去即可解决;
(2)一些老文件不想被客户看到也不想删掉的;
(3)一些没用的页面;
(4)最厉害的就是:不想让百度收录,跟度娘有仇;
例如:淘宝网的robots.txt
User-agent: Baiduspider
Disallow: /
User-agent: baiduspider
Disallow: /
淘宝网是拒绝百度收录的,如果你不想百度蜘蛛访问你网站的任何部分,可以这样写:
User-agent: *
Disallow: /
允许访问所有的写法为:
User-agent: *
Allow: /
更多robots写法请查看百度官方的说明:http://www.baidu.com/search/robots.html#7
2、提交网站给各大搜索引擎,提交可以让网站更快的收录(学习seo必要操作),建议手动提交:
常见的网站收录入口如下
百度搜索网站登录口:http://www.baidu.com/search/url_submit.html
Google网站登录口:http://www.google.com/addurl/?hl=zh-CN&continue=/addurl
Google新闻网站内容:http://www.google.com/support/news_pub/bin/request.py?contact_type=suggest_content&hl=cn
搜狗网站收录提交入口:http://www.sogou.com/feedback/urlfeedback.php
SOSO搜搜网站收录提交入口:http://www.soso.com/help/usb/urlsubmit.shtml
雅虎中国网站登录口:http://search.help.cn.yahoo.com/h4_4.html
中搜网站登录口:http://ads.zhongsou.com/register/page.jsp
网易有道搜索引擎登录口:http://tellbot.youdao.com/report
MSN必应网站登录口:http://cn.bing.com/docs/submit.aspx?FORM=WSDD2
英文雅虎登录口:http://search.yahoo.com/info/submit.html
快速登录20个搜索引擎:http://www.trafficzap.com/searchsubmit.php
TOM搜索网站登录口:http://search.tom.com/tools/weblog/log.php
新浪爱问网站登录口:http://www.iask.com/guest/add_url.php
新浪登录口(收费):http://bizsite.sina.com.cn/newbizsite/docc/index-2jifu-03.htm
3、做好sitemap,也就是网站地图有利于收录网站的各类页面:
sitemap引导引擎蜘蛛来搜索各个页面,可以用工具生成也可以用插件。
谷歌地图:以sitemap.xml结尾 百度地图:以sitemap_baidu.xml结尾 提供网站优化提示
4、做好404页面:
什么是404页面?就是平常说的死链或者是错误页面,可能也是无意的。死链对搜索引擎来说是非常不好或者说很差的体验。所以我们就做个404页面,任何死链打开都是404页面,这样对引擎蜘蛛就友好多了。