重写初学者的SEO指南,第2章:抓取,索引和排名

  • A+
所属分类:SEO优化

正如我们在第1章中提到的,搜索引擎是应答机器。它们的存在是为了发现,理解和组织互联网的内容,以便为搜索者提出的问题提供最相关的结果。

为了显示在搜索结果中,您的内容首先需要对搜索引擎可见。它可以说是搜索引擎优化难题中最重要的一部分:如果找不到您的网站,您将无法在SERP(搜索引擎结果页面)中显示。

搜索引擎如何运作?

搜索引擎有三个主要功能:

  1. 抓取:在互联网上搜索内容,查看他们找到的每个网址的代码/内容。
  2. 索引:存储和组织在爬网过程中找到的内容。一旦页面在索引中,它就会在运行中显示为相关查询的结果。
  3. 排名:提供最能回答搜索者查询的内容。通过对特定查询最有帮助的搜索结果排序。

什么是搜索引擎抓取?

抓取是搜索引擎发送一组机器人(称为爬虫或蜘蛛)以发现新的和更新的内容的发现过程。内容可能会有所不同 - 可能是网页,图片,视频,PDF等 - 但无论格式如何,内容都是通过链接发现的。

机器人首先获取几个网页,然后按照这些网页上的链接查找新的URL。通过沿着这条链路跳过,爬行器能够找到新内容并将其添加到它们的索引 - 一个发现的URL的庞大数据库 - 以便稍后在搜索者搜索该URL上的内容与。

什么是搜索引擎索引?

搜索引擎处理并存储他们在索引中找到的信息,索引是他们发现并认为足以为搜索者提供服务的所有内容的庞大数据库。

搜索引擎排名

当某人执行搜索时,搜索引擎会在其索引中搜索高度相关的内容,然后对该内容进行排序,以期解决搜索者的查询问题。搜索结果按相关性排序称为排名。通常,您可以假设网站排名越高,搜索引擎认为该网站对查询的相关性就越高。

可以阻止部分或全部网站的搜索引擎抓取工具,或指示搜索引擎避免在索引中存储某些网页。虽然可能有理由这样做,但如果您希望搜索者找到您的内容,则必须首先确保爬虫可以访问它并且可以编制索引。否则,它就像看不见一样好。

到本章结束时,您将拥有使用搜索引擎所需的上下文,而不是反对它!

注意:在SEO中,并非所有搜索引擎都是平等的

许多初学者都对特定搜索引擎的相对重要性感到疑惑。大多数人都知道谷歌拥有最大的市场份额,但对Bing,雅虎和其他公司进行优化有多重要?事实是,尽管存在超过30个主要的网络搜索引擎,SEO社区真的只关注谷歌。为什么?简短的回答是谷歌是绝大多数人搜索网络的地方。如果我们包括谷歌图片,谷歌地图和YouTube(谷歌财产),超过90%的网络搜索发生在谷歌 - 这是Bing和雅虎合并的近20倍。

抓取:搜索引擎可以找到您的网站吗?

正如您刚刚了解到的那样,确保您的网站被抓取并编入索引是显示在SERP中的先决条件。首先要做的事情是:您可以使用“site:yourdomain.com ”(一种高级搜索运算符)来查看Google为您的网站编制了多少页面和哪些页面。

如果您没有在搜索结果中的任何位置显示,则可能有以下几种原因:

  • 您的网站是全新的,尚未抓取。
  • 您的网站未链接到任何外部网站。
  • 您网站的导航使机器人难以有效地抓取它。
  • 您的站点包含一些称为爬虫指令的基本代码,阻止搜索引擎。
  • 您的网站因Google垃圾邮件策略而受到了处罚。

如果您的网站没有链接到其中的任何其他网站,您仍然可以通过在Google Search Console中提交XML站点地图或手动向Google提交单个网址来将其编入索引。不能保证他们会在索引中包含提交的URL,但值得一试!

搜索引擎可以看到您的整个网站吗?

有时,搜索引擎可以通过抓取来查找您网站的某些部分,但其他页面或部分可能会因某种原因而模糊不清。确保搜索引擎能够发现您想要编入索引的所有内容,而不仅仅是您的主页,这一点非常重要。

问问你自己:能机器人爬行通过您的网站,而不是只它?

您的内容隐藏在登录表单后面吗?

如果您要求用户在访问某些内容之前登录,填写表单或回答调查,搜索引擎将无法看到这些受保护的页面。爬虫绝对不会登录。

您是否依赖搜索表单?

机器人无法使用搜索表单。有些人认为,如果他们在自己的网站上放置搜索框,搜索引擎就能找到访问者搜索的所有内容。

文本是否隐藏在非文本内容中?

非文本媒体表单(图像,视频,GIF等)不应用于显示您希望编入索引的文本。虽然搜索引擎在识别图像方面越来越好,但仍无法保证他们能够阅读和理解图像。最好在网页的<HTML>标记中添加文本。

搜索引擎可以关注您的网站导航吗?

正如爬虫需要通过其他网站的链接发现您的网站一样,它需要您自己网站上的链接路径,以便在页面之间引导它。如果你有一个页面,你希望搜索引擎找到它,但它没有链接到任何其他页面,它就像看不见一样好。许多网站都在以搜索引擎无法访问的方式构建导航,从而阻碍了他们在搜索结果中列出的能力。

常见的导航错误可能会使抓取工具无法看到您的所有网站:

  • 移动导航显示的结果与桌面导航不同
  • 菜单项不在HTML中的任何类型的导航,例如启用JavaScript的导航。谷歌在抓取和理解Javascript方面做得更好,但它仍然不是一个完美的过程。确保Google发现,理解和索引某些内容的更加可靠的方法是将其放入HTML中。
  • 对于特定类型的访问者而言,个性化或显示独特的导航与其他访问者相比,可能会隐藏在搜索引擎抓取工具中
  • 忘记通过导航链接到您网站上的主页 - 请记住,链接是抓取工具跟随新页面的路径!

这就是为什么您的网站必须具有清晰的导航和有用的URL文件夹结构。

信息架构

信息架构是在网站上组织和标记内容以提高用户效率和可资性的实践。最好的信息架构是直观的,这意味着用户不必非常努力地想通过您的网站或找到一些东西。

当访问者点击死链接或错误输入网址时,您的网站还应该有一个有用的404(页面未找到)页面。最好的404页面允许用户点击回到您的网站,这样他们就不会因为他们试图访问不存在的链接而退回。

重写初学者的SEO指南,第2章:抓取,索引和排名

告诉搜索引擎如何抓取您的网站

除了确保抓取工具可以访问您最重要的网页之外,还要注意您的网站上有不希望他们找到的网页。这些可能包括具有精简内容的旧URL,重复的URL(例如电子商务的排序和过滤器参数),特殊促销代码页,登台或测试页等等。

阻止搜索引擎中的网页也可以帮助抓取工具确定最重要网页的优先级,并最大限度地提高抓取预算(搜索引擎机器人在您网站上抓取的平均网页数)。

通过抓取工具指令,您可以使用robots.txt文件,元标记,sitemap.xml文件或Google Search Console来控制Googlebot要抓取和索引的内容。

robots.txt的

Robots.txt文件位于网站的根目录(例如yourdomain.com/robots.txt)中,并建议您的网站搜索引擎的哪些部分应该也不应该通过特定的robots.txt指令进行抓取。当尝试阻止您网站上的非私人网页搜索引擎时,这是一个很好的解决方案。

您不希望阻止私人/敏感页面在此处被抓取,因为用户和机器人可以轻松访问该文件。

专家提示:

  • 如果Googlebot无法找到网站的robots.txt文件(40X HTTP状态代码),则会继续抓取该网站。
  • 如果Googlebot找到网站的robots.txt文件(20X HTTP状态代码),它通常会遵守这些建议并继续抓取该网站。
  • 如果Googlebot既未找到20X或40X HTTP状态代码(例如501服务器错误),则无法确定您是否拥有robots.txt文件,并且不会抓取您的网站。
  • Meta指令

    两种类型的元指令是元机器人标签(更常用)和x机器人标签。每个都为抓取工具提供了有关如何抓取和索引网址内容的更强说明。

    如果您想大规模阻止搜索引擎,x-robots标记提供了更多的灵活性和功能,因为您可以使用正则表达式,阻止非HTML文件以及应用全站点的noindex标记。

    这些是阻止搜索引擎中更敏感的* /私人URL的最佳选择。

    *对于非常敏感的URL,最佳做法是从中删除它们或要求安全登录以查看页面。

    WordPress提示:在仪表板>设置>阅读中,确保未选中“搜索引擎可见性”框。这会阻止搜索引擎通过您的robots.txt文件访问您的网站!

    避免这些常见的陷阱,并且您将拥有干净,可抓取的内容,以便机器人轻松访问您的网页。

    一旦确保您的网站已被抓取,下一个业务目标就是确保将其编入索引。

    站点地图

    站点地图就是这样的:网站上的网址列表,抓取工具可以使用这些网址来发现和索引您的内容。确保Google找到最高优先级网页的最简单方法之一是创建符合Google标准的文件,并通过Google Search Console提交。虽然提交站点地图并不能取代对良好站点导航的需求,但它肯定可以帮助爬​​虫跟踪所有重要页面的路径。

    Google Search Console

    某些网站(最常见的是电子商务)通过将某些参数附加到网址,在多个不同的网址上提供相同的内容。如果您曾在网上购物,则可能会通过过滤器缩小搜索范围。例如,您可以在亚马逊上搜索“鞋子”,然后按大小,颜色和样式优化搜索。每次细化时,URL都会略有变化。Google如何知道向搜索者提供哪个版本的网址?Google在确定代表性网址方面做得非常出色,但您可以使用Google Search Console中的网址参数功能告诉Google您希望他们如何处理您的网页。

  • 索引:搜索引擎如何理解并记住您的网站?

    一旦确保您的网站已被抓取,下一个业务目标就是确保将其编入索引。这是正确的 - 只是因为您的网站可以被搜索引擎发现和抓取并不一定意味着它将存储在他们的索引中。在上一节关于抓取的部分中,我们讨论了搜索引擎如何发现您的网页。该指数是你找到的网页存储。在爬虫找到页面后,搜索引擎会像浏览器一样呈现它。在这样做的过程中,搜索引擎分析该页面的内容。所有这些信息都存储在其索引中。

    继续阅读以了解索引如何工作以及如何确保您的站点进入这个非常重要的数据库。

    我可以看到Googlebot抓取工具如何看到我的网页吗?

    是的,您网页的缓存版本将反映googlebot最后一次抓取它的快照。

  • 您还可以查看网站的纯文本版本,以确定是否正在有效地抓取和缓存重要内容。

    页面是否已从索引中删除?

    是的,页面可以从索引中删除!可能会删除URL的一些主要原因包括:

    • 该URL返回“未找到”错误(4XX)或服务器错误(5XX) - 这可能是偶然的(页面被移动并且没有设置301重定向)或故意(页面被删除和404ed以便把它从索引中删除)
    • 该URL添加了noindex元标记 -网站所有者可以添加此标记,以指示搜索引擎从其索引中省略该页面。
    • 该网址因违反搜索引擎的网站管理员指南而受到人工处罚,因此已从索引中删除。
    • 在访问者访问该页面之前,已添加密码,因此已阻止URL进行爬网

    如果您认为以前在Google索引中的网站上的页面不再显示,您可以通过导航到Search Console中的“ 提交网址 ”工具手动将网址提交给Google 。

    排名:搜索引擎如何对网址进行排名?

    搜索引擎如何确保当有人在搜索栏中输入查询时,他们会得到相关的结果?该过程称为排名,或者与特定查询最不相关的搜索结果的排序。

    为了确定相关性,搜索引擎使用算法,过程或公式,通过该过程或公式以有意义的方式检索和排序存储的信息。多年来,这些算法经历了许多变化,以提高搜索结果的质量。例如,Google 每天都会进行算法调整- 其中一些更新是次要的质量调整,而另一些则是部署用于解决特定问题的核心/广泛算法更新,例如企鹅解决链接垃圾邮件问题。查看我们的Google算法更改历史记录,查看可追溯到2000年的已确认和未经证实的Google更新列表。

    为什么算法经常变化?谷歌只是想让我们保持警惕吗?虽然谷歌并不总是透露具体细节,但他们确实知道谷歌在进行算法调整时的目标是提高整体搜索质量。这就是为什么,为了回应算法更新问题,谷歌会回答一些问题:“我们一直在进行质量更新。”这表明,如果您的网站在算法调整后受到影响,请将其与Google的质量进行比较指南或搜索质量评估指南,都非常适合搜索引擎的需求。

  • 搜索引擎想要什么?

    搜索引擎一直想要同样的事情:以最有用的格式为搜索者的问题提供有用的答案。如果这是真的,那么为什么现在看来SEO与过去几年不同?

    从某人学习新语言的角度考虑一下。

    起初,他们对语言的理解非常简陋 - “参见Spot Run。”随着时间的推移,他们的理解开始加深,他们学习语义 - 语言背后的意义以及单词和短语之间的关系。最后,通过足够的练习,学生能够很好地理解语言,甚至能够理解细微差别,并且能够为甚至模糊或不完整的问题提供答案。

    当搜索引擎刚刚开始学习我们的语言时,通过使用实际违反质量指南的技巧和策略来游戏系统要容易得多。以关键字填充为例。如果你想为某个特定的关键词排名,比如“有趣的笑话”,你可以在你的页面上多次添加“有趣的笑话”这些词,然后加粗,以期提高你对该词的排名:

    欢迎来到有趣的笑话!我们讲述世界上最有趣的笑话有趣的笑话既有趣又疯狂。你有趣的笑话等待着。坐下来阅读有趣的笑话,因为有趣的笑话可以让你快乐和有趣。一些有趣的搞笑搞笑笑话

    这种策略造成了糟糕的用户体验,而不是嘲笑有趣的笑话,人们被恼人的,难以阅读的文字轰炸。它可能在过去有效,但这绝不是搜索引擎想要的。

    角色链接在SEO中发挥作用

    当我们谈论链接时,我们可能意味着两件事。反向链接或“入站链接”是指向您网站的其他网站的链接,而内部链接是您自己网站上指向其他网页(在同一网站上)的链接。

    链接历史上在SEO中发挥了重要作用。很早以前,搜索引擎需要帮助确定哪些URL比其他URL更值得信赖,以帮助他们确定如何对搜索结果进行排名。计算指向任何给定站点的链接数有助于他们这样做。

    反向链接与现实生活中的口碑(口碑)推荐非常相似。我们以一家假想的咖啡店Jenny's Coffee为例:

    • 来自他人的推荐=良好的权威标志
      示例:许多不同的人都告诉过你,Jenny's Coffee是镇上最好的
    • 来自你自己的推荐=有偏见,所以不是权威的好兆头
      示例:珍妮声称珍妮的咖啡是镇上最好的
    • 来自不相关或低质量来源的推荐=不是一个好的权威标志,甚至可能会让你被标记为垃圾邮件
      示例:Jenny支付给那些从未访问过她的咖啡店的人告诉别人它有多好。
    • 没有推荐=不明确的权威
      例如:Jenny's Coffee可能会很好,但你一直找不到任何有意见的人,所以你无法确定。

    这就是创建PageRank的原因。PageRank(谷歌核心算法的一部分)是一种以谷歌创始人之一拉里佩奇命名的链接分析算法。PageRank通过测量指向它的链接的质量和数量来估计网页的重要性。假设网页越相关,重要且值得信赖,它将获得的链接越多。

    您从高权威(可信)网站获得的自然反向链接越多,您在搜索结果中排名越高的几率就越大。

    角色内容在SEO中扮演

    如果他们没有将搜索者引向某事,就没有任何关联点。那东西是满足的!内容不仅仅是文字; 它是任何意味着被搜索者消费的东西 - 有视频内容,图像内容,当然还有文字。如果搜索引擎是应答机器,则内容是引擎提供这些答案的手段。

    每当有人进行搜索时,都会有数千种可能的结果,那么搜索引擎如何确定搜索者将找到哪些有价值的页面呢?确定页面对给定查询的排名位置的一个重要部分是页面上的内容与查询意图的匹配程度。换句话说,这个页面是否匹配搜索到的单词并帮助完成搜索者试图完成的任务?

    由于这种注重用户满意度和任务完成,因此没有严格的基准来确定您的内容应该有多长,应该包含关键字的次数,或者您在标题标记中添加的内容。所有这些都可以在页面在搜索中的表现如何发挥作用,但重点应放在将要阅读内容的用户身上。

    今天,有数百甚至数千个排名信号,前三名保持相当一致:链接到您的网站(作为第三方可信度信号),页面内容(满足搜索者意图的高质量内容),以及RankBrain。

  • 什么是RankBrain?

    RankBrain是Google核心算法的机器学习组件。机器学习是一种计算机程序,通过新的观察和训练数据不断改进其预测。换句话说,它总是在学习,并且因为它总是在学习,所以搜索结果应该不断改进。

    例如,如果RankBrain注意到排名较低的URL向用户提供比排名较高的URL更好的结果,则可以打赌RankBrain将调整这些结果,将更相关的结果移动得更高并将较低相关页面降级为副产品。

    与搜索引擎的大部分内容一样,我们并不确切知道RankBrain是什么,但显然,谷歌的人也不知道。

    这对SEO有何意义?

    由于谷歌将继续利用RankBrain推广最相关,最有用的内容,因此我们需要专注于比以往更多地实现搜索者的意图。为可能登陆您网页的搜索者提供最佳信息和体验,并且您已经迈出了在RankBrain世界中表现良好的第一步。

    参与度量:相关性,因果关系或两者兼而有之?

    通过谷歌排名,参与度指标很可能是部分关联和部分因果关系。

    当我们说参与度指标时,我们指的是代表搜索者如何通过搜索结果与您的网站进行互动的数据。这包括以下内容:

    • 点击次数(来自搜索的访问)
    • 页面上的时间(访问者在离开之前在页面上花费的时间)
    • 跳出率(用户仅查看一页的所有网站会话的百分比)
    • Pogo-sticking(点击有机结果,然后快速返回SERP选择另一个结果)

    许多测试,包括Moz自己的排名因素调查,都表明参与度指标与更高的排名相关,但因果关系一直备受争议。良好的互动指标是否仅仅表明排名很高的网站?或者网站排名高,因为他们拥有良好的互动指标?

  • 谷歌所说的话

    虽然他们从未使用过“直接排名信号”这一术语,但Google已明确表示他们绝对会使用点击数据来修改特定查询的SERP。

    根据Google前搜索质量主管 Udi Manber的说法

    “排名本身受点击数据的影响。如果我们发现,对于特定查询,80%的人点击#2,只有10%点击#1,过了一段时间我们发现可能#2是人们想要的,所以我们将切换它。“

    前谷歌工程师Edmond Lau的另一个评论证实了这一点:

    “很明显,任何合理的搜索引擎都会在自己的搜索引擎上使用点击数据反馈到排名中,以提高搜索结果的质量。使用点击数据的实际机制通常是专有的,但谷歌明显表示它使用点击数据及其专利等系统,如排名调整的内容项目。“

    由于Google需要维护和提高搜索质量,因此参与度指标不仅仅是相关性似乎是不可避免的,但似乎Google未能将参与度指标称为“排名信号”,因为这些指标用于提高搜索质量,各个URL的排名只是其中的副产品。

  • 搜索结果的演变

    当搜索引擎缺乏今天的复杂性时,术语“10蓝色链接”被用来描述SERP的扁平结构。每次执行搜索时,Google都会返回一个包含10个自然结果的页面,每个结果都采用相同的格式。

  • 在这个搜索领域,持有#1点是SEO的圣杯但后来发生了一件事。谷歌开始在搜索结果页面上添加新格式的结果,称为SERP功能。其中一些SERP功能包括:
    • 付费广告
    • 精选片段
    • 人们也问箱子
    • 本地(地图)包
    • 知识小组
    • 附加链接

    谷歌一直在增加新的。它甚至试验了“零结果SERP”,这种现象只有一个知识图表的结果显示在SERP上,除了“查看更多结果”的选项之外没有任何结果。

    由于两个主要原因,这些特征的增加引起了一些初步的恐慌。首先,这些特征中的许多特征导致有机结果在SERP上被进一步推迟。另一个副产品是搜索器点击有机结果的次数较少,因为SERP本身会回答更多查询。

    那谷歌为什么会这样做呢?这一切都可以追溯到搜索体验。用户行为表示不同内容格式可以更好地满足某些查询。请注意不同类型的SERP功能如何匹配不同类型的查询意图。

    查询意图 可能的SERP功能被触发
    信息化 精选片段
    信息与一个答案 知识图/即时答案
    本地 地图包
    交易 购物

    我们将在第3章中更多地讨论意图,但是现在,重要的是要知道答案可以以多种格式提供给搜索者,以及如何构建内容可能会影响它在搜索中出现的格式。

    本地化搜索

    像谷歌这样的搜索引擎拥有自己的本地商业列表专有索引,可以从中创建本地搜索结果。

    如果您正在执行的具有物理位置的客户可以访问企业的本地搜索引擎优化工作(例如:牙医)或为前往参观他们的客户(例如:管道工)业务,请务必要求,验证和优化一免费的Google我的商家信息。

    在本地化搜索结果方面,Google使用三个主要因素来确定排名:

    1. 关联
    2. 距离
    3. 突出物

    关联

    相关性是当地企业与搜索者所寻求的匹配程度。为确保业务部门能够尽一切可能与搜索者相关,请确保完整准确地填写业务信息。

    距离

    Google会使用您的地理位置来更好地为您提供本地搜索结果。本地搜索结果对邻近度极其敏感,其指的是搜索者的位置和/或查询中指定的位置(如果搜索者包括一个)。

    有机搜索结果对搜索者的位置很敏感,但很少像本地包装结果那样明显。

    突出物

    作为一个突出因素,谷歌正在寻求奖励在现实世界中众所周知的企业。除了商业“离线突出”之外,谷歌还会考虑一些在线因素来确定本地排名,例如:

    评测

    本地商家收到的Google评论数量以及这些评论的情绪会对他们在本地搜索结果中排名的能力产生显着影响。

    引文

    “商业引用”或“商业列表”是对本地化平台(Yelp,Acxiom,YP,Infogroup,Localeze等)上的本地商家“NAP”(姓名,地址,电话号码)的基于Web的引用。 。

    本地排名受当地商业引用的数量和一致性的影响。谷歌从不同来源获取数据,不断构成其本地商业指数。当Google发现对商家名称,位置和电话号码的多个一致引用时,它会加强Google对该数据有效性的“信任”。这导致Google能够以更高的信心展示业务。Google还使用来自网络上其他来源的信息,例如链接和文章。

    在此处查看当地商家的引文准确性。

    有机排名

    SEO最佳实践也适用于本地搜索引擎优化,因为谷歌在确定本地排名时也会考虑网站在自然搜索结果中的位置。

    在下一章中,您将学习有助于Google和用户更好地理解您的内容的页面最佳做法。

    [奖金!]当地参与

    虽然谷歌没有将其列为本地排名限制因素,但参与的作用只会随着时间的推移而增加。Google通过整合真实世界数据(如热门时间访问和平均访问时间)继续丰富本地搜索结果......

    毫无疑问,现在比以往任何时候都更多地受到现实世界数据的影响。这种互动性是搜索者与本地企业互动和响应的方式,而不是纯粹的静态(和游戏能力)信息,如链接和引用。

    由于Google希望向搜索者提供最佳,最相关的本地商家,因此他们使用实时互动指标来确定质量和相关性是完全合理的。


    您不必了解Google算法的细节(这仍然是一个谜!),但到目前为止,您应该对搜索引擎如何查找,解释,存储和排名内容有一个很好的基线知识。有了这些知识,让我们学习如何选择您的内容所针对的关键词!

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: