您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 市场营销 > 搜索引擎基础知识蜘蛛基础知识
搜索引擎基础知识|蜘蛛基础知识章基础篇任何一门学科,基础知识都是非常重要的,只有在掌握了大量的基础知识之后,才会在实践中游刃有余。本章主要介绍SEO的定义、国内主要搜索引擎简介、搜索引擎的工作原理、SEO与网络营销以及常见的SEO术语和专业的搜索引擎指令。通过阅读本章,读者可以对SEO概念有一个大致的了解。当然,如果读者已经对这方面比较熟悉,可以跳过本章,直接进入第2章站内篇。1.1什么是SEOSEO是英文SearchEngineOptimization的缩写,中文翻译为“搜索引擎优化”。简单地说,SEO就是从搜索引擎上获得流量的技术。搜索引擎优化的主要工作包括:通过详细了解搜索引擎的工作原理、如何在浩瀚的网页流中爬取网页、如何进行索引以及如何确定某一关键词排名位置从而对网页内容进行科学的优化,使其符合用户浏览习惯,在不损害用户体验的情况下提高搜索引擎排名,从而提高网站访问量,最终提升网站的销售能力或宣传能力的技术。所谓“针对搜索引擎优化处理”是为了要让网站更容易被搜索引擎认可。搜索引擎会将网站彼此间的内容做一些相关性的分析对比,然后再由浏览器将这些内容以最快速且近乎最完整的方式,呈现给搜索者。不少研究者发现,搜索引擎的用户往往只会留意搜索结果最开始的几项条目,所以很多商业网站都希望通过各种方式来干扰搜索引擎的排序,其中以依靠各种广告为生的网站居多。目前SEO技术被很多目光短浅的人,用一些SEO作弊的不正当手段,牺牲用户体验,一味地迎合搜索引擎的缺陷来提高排名,这种SEO方法是不可取的,最终也会受到用户的唾弃。网站的优化分为站内优化和站外优化两部分。站内优化指的是站长能控制网站本身所有细节的调整,如网站结构、页面HTML代码、服务器设置、文章优化等。站外优化指的是外部链接建设及行业社群的参与互动,这些活动不在网站本身进行的。获得和提高关键词自然排名是SEO效果的表现之一,但最终目的是获得搜索网站运营直通车——7天精通SEO2流量,没有流量的排名是没有意义的。因此,关键词研究、文案写作十分重要。进一步说,SEO追求的是目标流量,能最终带来盈利的流量。网站的最终目的是完成流量转化,记住要做科学的SEO,切不可为SEO而SEO。1.2SEO的作用SEO在今天看来已是一个非常热门的行业,尤其是电子商务的兴起,对SEO的需求也越来越大。每个经营性网站需要大流量的支撑才有转化的可能,搜索流量显得异常重要。SEO的作用主要有以下几个分类。(1)通过搜索引擎引来足够的流量,进一步扩大品牌的知名度,使其得到小投入大回报。如中国移动、国美电器等。(2)力图让搜索引擎给网站带来大的流量,以使网站的业绩指标攀升,吸引投资者或者收购等。(3)吸引在搜索引擎上搜索某一需求的精准客户,使他们了解并购买搜索的目标产品。如网店、销售型企业网站等。(4)依靠搜索引擎流量,换取广告商的青睐使其投放一定程度的广告。如百度联盟。(5)希望获得来自搜索引擎的大流量,向浏览者推介某一产品,而不是当场购买。如生产型品牌企业网站、交友网站、会员模式站点等。1.3常用搜索引擎简介这里主要列举国内使用频率相对较高的四个搜索引擎,分别是:百度、谷歌、搜搜、搜狗。通过对这四个搜索引擎的简单介绍,让我们对搜索引擎有一个简单的了解。1.3.1百度百度(),全球最大的中文搜索引擎、最大的中文网站。2000年1月创立于北京中关村,它的Logo如图1-1所示。从创立之初,百度便将“让人们最便捷地获取信息,找到所求”作为自己的使命,10年来,公司秉承“以用户为导向”的理念,始终坚持如一地响应广大网第1章基础篇3民的需求,不断地为网民提供基于搜索引擎的各种产品,其中包括:以网络搜索为主的功能性搜索,以贴吧为主的社区搜索,针对各区域、行业所需的垂直搜索,MP3搜索,以及门户频道、IM等,全面覆盖了中文网络世界所有的搜索需求,根据第三方权威数据,百度在中国的搜索份额超过70%。图1-1百度网站的Logo百度的中文搜索优势如下:(1)百度中文数据库不仅最全,也是质量最好的。(2)全球第一的数据挖掘、分布式索引和检索技术与处理速度,以及大规模的工业级系统的开发,支持百度以最快的速度呈现搜索目标内容相关的一切。(3)百度首页不到4K,最干净、最简洁的页面,随区域合理密布的多组服务器机群,架构于强大的网通及电信的骨干网上,可以在瞬间呈现搜索结果。(4)百度拥有全球第一的网页分析技术、世界上独一无二的“中文分词”技术及全球最完善的反垃圾网页技术与流程,因此,百度对搜索结果的显示最为准确。百度在中国的地位已经举足轻重,尤其是谷歌退出之后,百度在中文搜索市场更占据领导地位。很多小站长也靠百度过活,比如做淘宝客、做产品等。在中国要做SEO优化首先要研究的就是百度。1.3.2GoogleGoogle的使命是整合全球信息,使人人皆可访问并从中受益。他拥有全世界最先进的搜索技术。虽然Google已经退出中国大陆市场,但它还是学习SEO的好对象,推荐大家多去关注谷歌的站长管理员指南,所谓“知己知彼,百战不殆”。以下网址可以获知很多的SEO入门材料。图1-2Google网站的Logo网站运营直通车——7天精通SEO41.3.3搜搜SOSO是腾讯QQ旗下重点发力的搜索引擎,现在整合了QQ客户端,给SOSO加上了强大有力的助推器。现有很多营销人士已开始对SOSO进行布局,您还等什么。从SOSO实验室的网址:可以了解更多与SOSO相关的知识,网站Logo如图1-3所示。图1-3搜搜网站的Logo1.3.4搜狗搜狗是搜狐旗下的搜索引擎,现为淘宝合作项目,如果您是从事电子商务行业的,完全可以在这里开拓市场,网站Logo如图1-4所示。搜狗拼音是搜狐于2006年推出的一款汉字拼音输入法。凭着易用、灵活、全面等特点,再加上推广得当很快就在网络上蔓延开来。搜狗输入法最显著的特点是基于搜狗搜索引擎,很多在搜狗搜索引擎中所查询的热门关键词会同步到搜狗输入法当中,如图1-5所示。图1-4搜狗网站的Logo图1-5搜狗拼音输入法自动更新搜狗输入法有一个自己特有的搜狗细胞词库,里面有网友自己创建的关键第1章基础篇5词,基本上都是日常所用到的,还有很多是最新最热门的关键词。词库的首页还有一个热词指数,对SEO人员很有参考价值。搜狗与搜狗拼音整合之后最大的好处就是方便SEO人员查询当下热门关键词,以备工作之需。搜狗拼音细胞库网址为:。1.4搜索引擎工作原理从事SEO(搜索引擎优化)工作的人可以比喻成搜索引擎的贴身管家,作为一名合格称职的管家必须了解所服务对象的习性、爱好、健康程度等。SEO服务的对象就是搜索引擎,必须对它的运行规律、工作原理、习性、优缺点等都要铭记在心,多多实践操作,平时实践的越多,经验也就越丰富。搜索引擎是由人创造出来的,所以也是有理可寻的。搜索引擎工作过程有主要有三段工作流程,爬行抓取、预处理及服务输出。1.4.1爬行抓取爬行抓取是搜索引擎工作最重要的一步,把所有需要抓取的地方抓取回来处理分析,因此如果在抓取这部分出了错,后面完全就瘫痪了。回想一下每当我们用搜索引擎输入关键词后,会出现许许多多所查询的关键词信息,这个过程是以秒来计算的。这时我们可以想一想,搜索引擎是在1秒钟之内把所查询的关键词从广大的互联网中逐一抓取一遍,还是事先已经处理好了这部分数据呢。平时我们上网的时候随便打开一个网页的时间也是在1秒钟之内,这仅仅是打开一个网页的时间,所以搜索引擎在以秒计算的情况下是不可能把互联网上的信息都查询一遍,这不仅耗时也耗钱。因此现在的搜索引擎是事先已经处理好了所抓取的网页。搜集工作也是要按照一定的规律来进行的,基本上有如下两种特征。•批量收集:对互联网上只要是存在链接的网页都收集一遍,耗时在几周左右。缺点在于增加了额外的带宽消耗,时效性也不高。•增量收集:是批量收集的一个技术升级,完美的弥补了批量收集的缺点。在原有的基础上搜集新增加的网页,变更上次收集之后有改变的页面,删除收集重复和不存在的网页。还有一种比较简单的方法让搜索引擎来爬行,自己主动向搜索引擎提交网站,等到一定的时间就会来爬取。不过现在主动提交后再来爬行的速度越来越慢网站运营直通车——7天精通SEO6了,最理想的办法还是顺着自然链接来收集比较好。这就需要我们在前期做好蜘蛛爬行的入口,一定要找一个和网站自身相关的入口。下面将详细介绍搜索引擎蜘蛛的情况。1.各搜索引擎蜘蛛介绍搜索引擎蜘蛛是搜索引擎的一个自动程序。它的作用是访问互联网上的网页、图片、视频等内容,建立索引数据库,使用户能在搜索引擎中搜索到您网站的网页、图片、视频等内容。一般用法为“spider+URL”,后面的URL(网址)是搜索引擎的痕迹,如果要查看某搜索引擎是否来爬取过你们的网站,可查看服务器的日志里是否有该URL,同时还能查看来的时间、频率等……(1)百度蜘蛛:可以根据服务器的负载能力调节访问密度,大大降低服务器的服务压力。根据以往的经验百度蜘蛛通常会过度重复地抓取同样的页面,导致其他页面无法被抓取到而不能被收录。这种情况可以采取robots协议的方法来调节。百度蜘蛛的用法如下:Baiduspider+(+)(2)谷歌蜘蛛:谷歌蜘蛛属于比较活跃的网站扫描工具,其间隔28天左右就派出“蜘蛛”检索有更新或者有修改的网页。与百度蜘蛛最大的不同点是谷歌蜘蛛的爬取深度要比百度蜘蛛多一些。其用法如下:Mozilla/5.0(compatible;Googlebot/2.1;+)(3)雅虎中国蜘蛛:如果某个网站在谷歌网站下没有很好的收录,在雅虎下也不会有很好的收录和爬行。雅虎蜘蛛的数量庞大,但平均的效率不是很高,相应的搜索结果质量不高,其用法如下:Mozilla/5.0(compatible;Yahoo!SLurpChina;)(4)雅虎英文蜘蛛:雅虎英文蜘蛛的用法与中文蜘蛛不同,其用法如下:Mozilla/5.0(compatible;Yahoo!SLurp/3.0;)(5)微软必应蜘蛛:必应与雅虎有着深度的合作关系,所以基本运行模式和雅虎蜘蛛差不多,其用法如下:msnbot/1.1(+)(6)搜狗蜘蛛:搜狗蜘蛛的爬取速度比较快,抓取的数量比起速度来说稍微少点。搜狗蜘蛛最大的特点是不抓取robot.txt文件,其用法如下:Sogou+web+robot+(+(7)搜搜蜘蛛:搜搜早期是运用谷歌的搜索技术,谷歌有收录,搜搜肯定也会收录。2011年搜搜已经宣布采用自己的独立搜索技术,但搜搜蜘蛛的特性和谷歌蜘蛛的特点还是有着相似的地方,其用法如下:Sosospider+(+)第1章基础篇7(8)有道蜘蛛:和其他搜索引擎蜘蛛一样,凡是高权重网站的链接一般都能将其收录。爬行原理也是通过链接之间的爬行,其用法如下:Mozilla/5.0(compatible;YodaoBot/1.0;)2.链接布局蜘蛛主要通过爬取页面上的链接来发现新的页面,以此类推不停地十字交叉爬行下去便形成一张蜘蛛网。爬行主要按两种策略来执行:一是深度优先爬行,二是广度优先爬行。•深度优先爬行:如图1-6
本文标题:搜索引擎基础知识蜘蛛基础知识
链接地址:https://www.777doc.com/doc-4874567 .html