友情提示:如果本网页打开太慢或显示不完整,请尝试鼠标右键“刷新”本网页!阅读过程发现任何错误请告诉我们,谢谢!! 报告错误
热门书库 返回本书目录 我的书架 我的书签 TXT全本下载 进入书吧 加入书签

网络营销知识仓库-第50章

按键盘上方向键 ← 或 → 可快速上下翻页,按键盘上的 Enter 键可回到本书目录页,按键盘上方向键 ↑ 可回到本页顶部!
————未阅读完?加入书签已便下次继续阅读!



多的访问量 这就有点买椟还珠的意思了。从根本上说,无论 SEO 还是网站优化,都只是手段,是为了网站的ROI (Return On Investment ),无论让网站获得高排名还是高访问量都是为了一个简单的目的:为网站带来更多的潜在消费者。 十、竞争对手无法破坏我的排名 人人都希望这是真的,尤其在道德感缺失的 SEO 行业,但很多时候,事实并不那么乐观。很多例子表明,恶意的竞争对手还是能够通过某些方式伤害你的网站的。

    第四章 SEO 相关的搜索引擎技术

    第一节 搜索引擎机器人一、什么是搜索引擎机器人? 搜索引擎机器人也称网络蜘蛛(Web Spider),这是一个很形象的名字。把互联网比喻 成一个蜘蛛网,那么 Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。 在抓取网页的时候,网络蜘蛛一般有两种策略:广度优先和深度优先。 广度优先是指网络蜘蛛会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。这是最常用的方式,因为这个方法可以让网络蜘蛛并行处理,提高其抓取速度。 深度优先是指网络蜘蛛会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。这个方法有个优点是网络蜘蛛在设计的时候比较容易。 由于不可能抓取所有的网页,有些网络蜘蛛对一些不太重要的网站,设置了访问的层数。 例如上图 A为起始网页,属于 0 层,B、C、D、E、F 属于第 1 层,G、H 属于第 2 层,I属于第3 层。如果网络蜘蛛设置的访问层数为2 的话,网页I 是不会被访问到的。这也让有些网站上一部分网页能够在搜索引擎上搜索到,另外一部分不能被搜索到。对于网站设计者来说,扁平化的网站结构设计有助于搜索引擎抓取其更多的网页。 网络蜘蛛在访问网站网页的时候,经常会遇到加密数据和网页权限的问题,有些网页是需要会员权限才能访问。当然,网站的所有者可以通过协议让网络蜘蛛不去抓取,但对于一些出售报告的网站,他们希望搜索引擎能搜索到他们的报告,但又不能完全免费的让搜索者查看,这样就需要给网络蜘蛛提供相应的用户名和密码。网络蜘蛛可以通过所给的权限对这些网页进行网页抓取,从而提供搜索。而当搜索者点击查看该网页的时候,同样需要搜索者提供相应的权限验证。 二、如何辨别搜索引擎机器人身份搜索引擎派出他们的搜索机器人去访问、索引网站内容,网站管理员也默认、欢迎它们 来访。但是由于搜索引擎派机器人来访会在一定程度上影响网站性能,因此并非所有的机器 人都是无害的,有一些非法机器人伪装成主流搜索引擎漫游器对网站大量遍历,并且不遵循 robots。txt 规范,会严重拖垮网站性能而又无其它益处。因此,网站管理员需要验证每个机器人身份是否合法。在你的服务器日志文件中,可见每次访问的路径和相应的 IP 地址,如果是机器人来访, 则user…agent 会显示 Googlebot 或MSNBot 等搜索引擎漫游器名称,每个搜索引擎都有自己的user…agent,但仅有这个还不足以证明这个机器人的合法性,因为很多垃圾制造者可能将他们的机器人也命名为Googlebot,以伪装蒙混进入网站,大肆采掘内容。目前,主流搜索引擎都建议网站管理员通过这种方式来辨别真实的机器人身份:通过 DNS 反向查询找出搜索引擎机器人IP 地址对应的主机名称;用主机名查找IP 地址以确认该主机名与IP 地址匹配。 首先,使用DNS 反向查询(Reverse DNS Lookup),找出机器人IP 地址对应的主机名称。主流搜索引擎的主机名称通常情况下应是这样的:够充分利用的话,可以极大地提高检索结果的质量。超链分析技术,是新一代搜索引擎的关键技术。一、基本原理 超链分析的基本原理是:在某次搜索的所有结果中,被其他网页用超链指向得越多的网 页,其价值就越高,就越应该在结果排序中排到前面。 超链分析是一种引用投票机制,对于静态网页或者网站主页,它具有一定的合理性,因 为这样的网页容易根据其在互联网上受到的评价产生不同的超链指向量,超链分析的结果可 以反映网页的重要程度,从而给用户提供更重要、更有价值的搜索结果。 搜索引擎,并不能真正理解网页上的内容,它只能机械地匹配网页上的文字。它收集了 互联网上几千万到几十亿个网页并对网页中的每一个文字(即关键词)进行索引,建立索引 数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词 的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索 关键词的相关度高低,依次排列。搜索引擎在查询时主要根据一个站点的内容与查询词的关联程度进行排序。对于一个站 点的内容搜索引擎则是根据标题、关键词、描述、页面开始部分的内容以及这些内容本身之 间的关联程度以及一个站点在整个网络上的关联程度来确定的。 使用超链分析技术,除要分析索引网页本身的文字,还要分析索引所有指向该网页的链接的 URL、AnchorText,甚至链接周围的文字。所以,有时候,即使某个网页 A中并没有某个词,比如“软件”,但如果有别的网页B 用链接“软件”指向这个网页A,那么用户搜索“软件”时也能找到网页A 。而且,如果有越多网页(C、D、E、F……)用名为“软件”的链接指向这个网页 A,或者给出这个链接的源网页(B、C、D、E、F……)越优秀,那么网页A 在用户搜索“超链分析”时也会被认为相关度越高,排序也会越靠前。 二、工作步骤1、从互联网上抓取网页 专门用于检索信息的Robot 程序像蜘蛛一样在网络间爬来爬去,利用能够从互联网上自动收集网页的 Spider 系统程序, 自动访问互联网,并沿着任何网页中的所有 URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。随着互联网的迅速发展,检索所有新出现的网页变得越来越困难。因此,在Wan…derer 基础上,一些编程者将传统的 Spider 程序工作原理作了些改进。其设想是,既然所有网页都可能有连向其他网站的链接,那么从一个网站开始,跟踪所有网页上的所有链接,就有可能检索整个互联网。2、建立索引数据库 由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在 URL、编码类型、页面内容包含的所有关键词、关键词位置、生成时间、大小、与其它网页 的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面文字 中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。3、索引数据库中搜索排序 当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。 三、搜索效果搜索引擎 Spider 一般要定期重新访问所有网页(各搜索引擎的周期不同,可能是几天、 几周或几月,也可能对不同重要性的网页有不同的更新频率),更新网页索引数据库,以反 映出网页文字的更新情况,增加新的网页信息,去除死链接,并根据网页文字和链接关系的 变化重新排序。这样,网页的具体文字变化情况就会反映到用户查询的结果中。 互联网虽然只有一个,但各搜索引擎的能力和偏好不同,所以抓取的网页各不相同,排 序算法也各不相同。大型搜索引擎的数据库储存了互联网上几千万至几十亿的网页索引,数 据量达到几千 G 甚至几万G。但即使最大的搜索引擎建立超过20 亿网页的索引数据库,也 占不到互联网上普通网页的30%,不同搜索引擎之间的网页数据重叠率一般在70%以下。 人们使用不同搜索引擎的重要原因,就是因为它们能分别搜索到不同的网页。而互联网上有 更大量的网页,是搜索引擎无法抓取索引的,也是无法用搜索引擎搜索到的。 使用超链分析的搜索引擎未能收录的网页有:Spider 未能正确处理的网页性质及文件类型(如Flash、script、JS,某些动态网页及Frame、数据库);没有主动登录搜索引擎而且没有指向链接的孤岛网页;Spider 访问时因为某些原因正好是死链接的网页;被认为是劣质网页而不抓;因为色情、反动、spam等问题而不抓的非法网页;需要输入用户名、密码方可打开的网页;网站用robots 协议拒绝搜索引擎抓取的网页;搜索引擎还未来得及抓取的新网页;go…pher、newsgroups、Telnet、np、wais 等非http 信息的网页。 任何地址中带“?”和“&”号(及其他类似符号)的网页都会被“蜘蛛”程序挡在门外。这些网页通常由 CGL、PHP、ASP等程序产生,技术上较先进,但不适合搜索引擎的“蜘蛛”程序。虽然目前有的大型搜索引擎(如 Google)已具备检索动态网页的能力,但相当一部分引擎还是不支持它的。而且即使是能够索引动态网页的 Google,也在多个场合中明确表示不保证检索
返回目录 上一页 下一页 回到顶部 0 0
未阅读完?加入书签已便下次继续阅读!
温馨提示: 温看小说的同时发表评论,说出自己的看法和其它小伙伴们分享也不错哦!发表书评还可以获得积分和经验奖励,认真写原创书评 被采纳为精评可以获得大量金币、积分和经验奖励哦!