分享SEM、信息流广告推广优化经验。
面向企业提供专业SEM优化顾问服务。

Google搜索工作原理及算法:发现、抓取和呈现网页

内容目录

本文主要介绍Google 搜索的工作原理及算法,了解 Google 如何发现、抓取和呈现网页。下文将依次提供简要版、详尽版、图文版的官方回答。

Google 会从很多不同的来源获取信息,包括:

  • 网页;
  • 用户提交的内容,例如“Google 我的商家”和地图用户提交的内容;
  • 图书扫描;
  • 互联网上的公共数据库;
  • 以及许多其他来源。

但是,此页面内容将重点介绍 Google 如何通过网页获取信息。
Google搜索引擎

简要版

Google 按照以下三个基本步骤来生成基于网页的结果:

抓取

第一步是找出网络上存在哪些网页。不存在包含所有网页的中央注册表,因此 Google 必须不断搜索新网页并将其添加到已知网页列表中。由于 Google 之前已经访问过某些网页,因此这些网页是 Google 已知的网页。当跟踪已知网页上指向新网页的链接时,Google 会发现其他网页。当网站所有者以列表形式(站点地图)提交一系列网页供 Google 抓取时,Google 也会发现其他网页。如果您使用受管的网站托管服务,如 Wix 或 Blogger,这些服务可能会让 Google 抓取您更新后的网页或添加的新网页。

Google 发现网页网址后,会访问或抓取该网页以了解其中的内容。Google 会呈现该网页,并分析文字和非文字内容以及整体视觉布局,确定该网页应显示在搜索结果中的什么位置。Google 越了解您的网站,就越能准确地将您的网站与正在查找您内容的用户相匹配。

如何改善网站抓取效果:

  • 验证 Google 能否访问您网站上的网页,以及这些网页看起来是否正确。确保 Google 能以匿名用户(没有密码和信息的用户)的身份访问网页。Google 还应该能够查看该网页的所有图片和其他元素,以便能够正确了解该网页。您可以在移动设备适合性测试工具中输入网页网址快速检查网页。
  • 如果您创建或更新了单个网页,您可以向 Google 提交具体网址。如需让 Google 同时了解多个新网页或更新后的网页,您可以使用站点地图。
  • 如果您想让 Google 只抓取 1 个网页,请将该网页设为首页。在 Google 看来,您的首页就是您网站上最重要的网页。为促成完整网站抓取,请确保您的首页(以及所有网页)包含一个良好的网站导航系统,能链接到您网站上的所有重要版块和网页。这会有助于用户(和 Google)在您的网站上找到所需内容。对于小型网站(少于 1000 个网页),只需让 Google 知道您的首页即可,前提是 Google 可以通过从首页开始的链接路径访问所有其他网页。
  • 将您的网页链接到 Google 已知的其他网页。但是,请务必注意,Google 不会跟踪广告中的链接、其他网站中由您付费的链接、评论中的链接或其他未遵循 Google 网站站长指南的链接。

您无法通过向 Google 付费来提高网站抓取频率或网站排名。任何关于 Google 会在收取费用后提高网站抓取频率的消息均是子虚乌有。

编入索引

发现网页后,Google 会尝试了解该网页的内容。此过程称为“编入索引”。Google 会分析该网页的内容、为网页上嵌入的图片和视频文件编制目录,并通过其他方式尝试了解网页。这些信息存储在 Google 索引中,而 Google 索引是一个存储在很多很多计算机中的巨大数据库。

如何改善网页索引编制效果:

  • 制作简短且有意义的网页标题。
  • 使用传达网页主题的网页标题。
  • 使用文字(而非图片)传达内容。(尽管 Google 能够理解一些图片和视频,但相比图片和视频,文字更易于理解。请至少使用替代文本和其他属性为视频和图片添加适当的注释。)

呈现(和排名)

当用户输入查询时,Google 会根据许多因素尝试从其索引中找到最相关的答案。Google 会努力确定最优质的答案,并会考虑其他因素(例如,考虑用户所在位置、使用的语言及设备(桌面设备或手机)等因素),以便提供最佳用户体验和最恰当的答案。例如,在用户搜索“自行车维修店”后,Google 向巴黎用户显示的答案与向香港用户显示的答案有所不同。Google 不会通过收取费用来提高网页排名,网页排名是以编程方式完成的。

要改善您的网页呈现和排名效果,请注意以下事项:

  • 提高网页加载速度,并使其适合移动设备访问。
  • 在网页上发布实用的内容并保持更新。
  • 遵循 Google 网站站长指南,这有助于提供良好的用户体验。
  • 详细了解搜索引擎优化 (SEO) 新手指南中的提示和最佳做法。
  • 您可以点击此处以了解详情,包括我们为确保提供理想结果而制定的质量评分者指南

详尽版

抓取

抓取是指 Googlebot 访问要添加到 Google 索引中的新网页和更新后的网页的过程。

我们使用大量计算机提取(或“抓取”)网络上的数十亿个网页。执行抓取任务的程序叫做 Googlebot(也称为漫游器或“蜘蛛”程序)。Googlebot 使用算法流程确定要抓取的网站、抓取频率以及要从每个网站抓取的网页数量。

Google 首先会根据一份网页网址列表开始其抓取过程,该列表是在之前进行的抓取过程中生成的,且随着网站站长所提供的站点地图数据的增多而不断扩大。Googlebot 在访问每个网页时,会查找每个网页上的链接,并将这些链接添加到它要抓取的网页的列表中。它会记录新建立的网站、对现有网站进行的更改以及无效链接,并据此更新 Google 索引。

在抓取过程中,Google 会使用 Chrome 的最新版本呈现网页。在呈现过程中,它会运行找到的所有网页脚本。如果您的网站使用动态生成的内容,请务必遵循 JavaScript SEO 基础知识页面上的要求。

主要抓取/辅助抓取

Google 使用两种不同的抓取工具抓取网站:移动版抓取工具和桌面版抓取工具。每种抓取工具类型都会使用该类型的设备模拟访问您网页的用户。

Google 使用 1 种抓取工具类型(移动版或桌面版)作为网站的主要抓取工具。网站上被 Google 抓取的所有网页都是使用主要抓取工具抓取的。对所有新网站使用的主要抓取工具都是移动版抓取工具。

此外,Google 还会使用其他类型的抓取工具(移动版或桌面版)重新抓取网站上的一些网页。这称为辅助抓取,目的在于了解其他设备类型对您网站的适用情况。

Google 如何得知哪些网页无法抓取?

  • robots.txt 中屏蔽的网页无法抓取,但如果这些网页链接到其他网页,系统仍可能会将其编入索引。(Google 可以通过指向相应网页的链接来推断页面内容,并且在不解析其内容的情况下将相应网页编入索引。)
  • Google 无法抓取任何匿名用户无法访问的网页。因此,任何登录或其他授权防护措施都将阻止 Google 抓取网页。
  • Google 不会频繁地抓取先前已被抓取且被视为与其他网页重复的网页。

改善抓取质量

您可以利用以下这些技巧帮助 Google 发现您网站上的正确网页:

  • 提交站点地图。
  • 提交单个网页的抓取请求。
  • 针对网页使用简单易懂的逻辑网址路径,并在网站中提供清晰直接的内部链接。
  • 如果您在网站上使用网址参数进行导航,例如,如果您在全球购物网站上指明用户所在的国家/地区,请使用网址参数工具告知 Google 关于重要参数的信息。
  • 谨慎使用 robots.txt:使用 robots.txt 指明您希望 Google 优先了解或抓取哪些网页,从而降低服务器负载,请勿将其作为阻止材料出现在 Google 索引中的方法。
  • 使用 hreflang 指向其他语言版本的网页。
  • 明确指出规范网页和备用网页。
  • 通过“索引涵盖范围”报告查看您的抓取和索引涵盖范围。
  • 确保 Google 可以访问主要网页以及正确呈现网页所需的重要资源(图片、CSS 文件、脚本)。
  • 用网址检查工具检查实际网页,确认 Google 可以正常访问并呈现您的网页。

编入索引

Googlebot 会处理它抓取的每个网页,以便了解每个网页的内容。这包括处理文字内容、关键内容标记和属性,例如 <title> 标记和 Alt 属性、图片、视频等。Googlebot 可处理多种类型的内容,但并不是所有类型的内容都能处理。例如,我们无法处理某些富媒体文件的内容。

在抓取和编入索引的间隙,Google 会确定网页是否是另一网页的重复网页或规范网页。如果该网页被视为重复网页,Google 便会显著降低对它的抓取频率类似网页会归入一个文档中,其中列出了一个或多个网页,包括规范网页(这组网页中最具代表性的网页)和找到的所有重复网页(可能只是访问同一网页的备用网址,或者可能是同一网页的备用移动版或桌面版)。

请注意,Google 不会将包含 noindex 指令(标头或标记)的网页编入索引。但前提是 Google 必须能够看到该指令;如果网页被 robots.txt 文件、登录页或其他设备屏蔽了,那么即使 Google 并未访问该网页,也可能会将其编入索引!

改善编入索引的效果

您可以通过多种技巧使 Google 更加了解您的网页内容:

  • 使用 noindex 阻止 Google 抓取或找到您要隐藏的网页。请勿对 robots.txt 屏蔽的网页添加“noindex”;如果您这样做,Google 将看不见“noindex”指令,并且仍会将该网页编入索引。
  • 使用结构化数据。
  • 遵循 Google 网站站长指南。
  • 查看基本 SEO 指南和高级用户指南,了解更多提示。

什么是“文档”?

Google 在内部将网页表示为大量文档。每个文档都表示一个或多个网页。这些网页完全相同或非常相似但本质上内容相同,可以通过不同网址访问。文档中的不同网址可能会指向完全相同的网页(例如,example.com/dresses/summer/1234 和 example.com?product=1234 可能会显示同一网页),或同一网页对使用不同设备的用户来说具有细微差别(例如,example.com/mypage 适合桌面设备用户,m.example.com/mypage 适合移动设备用户)。

Google 会从文档中选择 1 个网址,并将其定义为该文档的规范网址。文档的规范网址是 Google 最常抓取和编入索引的网址;其他网址会被视为重复网址或备用网址,并且可能会偶尔被抓取,或根据用户请求将其作为结果呈现:例如,如果文档的规范网址是移动网址,Google 仍可能会为用桌面设备搜索的用户提供桌面(备用)网址。

Search Console 中的大多数报告都会将数据归到文档的规范网址名下。某些工具(例如“检查网址”工具)支持测试备用网址,但检查规范网址也应提供有关备用网址的信息。

您可以告知 Google 您认为哪个网址是规范网址,但 Google 仍可能会因各种原因而选择其他网址作为规范网址。

下面简要说明了这些术语,以及这些术语在 Search Console 中的用法:

  • 文档:一个类似网页的集合。包含规范网址,如果您的网站有重复网页,还包含备用网址。文档中的网址可能来自相同或不同的组织(根域名,例如 www.google.com 中的“google”)。Google 会根据平台(移动设备/桌面设备)、用户语言或地理位置以及多个其他变量,选择要显示在搜索结果中的最佳网址。Google 可通过自然抓取或网站实现的功能发现网站上的相关网页,这些功能包括重定向或 <link rel=alternate/canonical> 标记。其他组织的相关网页只有在您网站通过重定向或链接标记明确编码的情况下才会被标记为备用网页。
  • 网址:用于访问网站上指定内容的网址。网站可能会将不同网址解析为指向同一网页。
  • 网页:通过一个或多个网址访问的指定网页。网页可能有不同的版本,具体取决于用户的平台(移动设备、桌面设备、平板电脑等)。
  • 版本:网页的一个变体,通常分为“移动版”、“桌面版”和“AMP”(但 AMP 网页本身可以有移动版和桌面版)。每个版本都可以有不同网址(example.com 与 m.example.com)或相同网址(如果您的网站动态提供内容或使用自适应设计,那么同一网址可以显示同一网页的不同版本),具体取决于您的网站配置。语言变体不会被视为不同版本,而是被视为不同的文档。
  • 规范网页或网址:Google 认为最能代表文档的网址。Google 始终会抓取此网址,偶尔也会抓取文档中的重复网址。
  • 备用/重复网页或网址:Google 可能会偶尔抓取的文档网址。如果这些网址适合用户和请求,Google 也会呈现这些网址(例如,会为在桌面设备上提出请求的桌面设备用户提供备用网址,而不是规范移动网址)。
  • 网站 (Site):通常用作网站 (website)(概念相关的一组网页)的同义词,但有时也可用作 Search Console 资源的同义词,而实际上可以将资源定义为网站的一部分。网站可以跨子网域(甚至跨组织,如果具有正确关联的 AMP 网页的话)。

采用不同语言但具有相同内容的网页会存储在不同文档中,这些文档使用 hreflang 标记相互引用;这就是为什么务必要用 hreflang 标记翻译内容的原因。

呈现结果

用户输入查询时,我们的机器会在索引中搜索匹配网页,并返回我们认为与用户搜索最相关的结果。相关性是由数百个因素决定的,我们一直在努力改进算法。Google 在选择结果和对其进行排名时会考虑用户体验,因此请务必确保您的网页能快速加载且适合移动设备。

改善结果呈现

  • 如果您的结果针对的是特定地点或使用特定语言的用户,可以告知 Google 您的偏好。
  • 确保您的网页能快速加载且适合移动设备。
  • 遵循网站站长指南,避免常见的潜在问题并提高网站排名。
  • 考虑为您的网站实施搜索结果功能,例如食谱卡片或文章卡片。
  • 实施 AMP,以加快网页在移动设备上的加载速度。某些 AMP 网页也可以使用其他搜索功能,例如“焦点新闻”轮换展示。
  • Google 的算法一直在不断改进,您应遵循我们的指南,努力创建符合用户需求的精彩内容,而不应尝试去猜测算法并根据算法来设计网页。

抓取和编入索引

Google 搜索如何整理信息

在您搜索之前,网页抓取工具会从数千亿个网页中收集信息,然后在 Google 搜索索引中进行整理。

Google 搜索基础知识

抓取流程是从以往所抓取内容的网址列表和由网站所有者提供的站点地图开始的。在访问这些网站时,我们的抓取工具会使用网站上的链接来探索其他网页。该软件会特别关注新网站、对现有网站进行的更改以及无效链接。计算机程序会确定要抓取的网站、抓取频率以及要从每个网站中抓取的网页数量。

为了让网站所有者能够更精细地指定 Google 如何抓取他们的网站,我们推出了 Search Console:网站所有者可以详细指导我们如何处理其网页,申请重新抓取,或使用 robots.txt 文件完全禁止抓取工具抓取他们的网站。Google 绝不接受网站为获得更频繁地抓取而付费的行为 - 我们为所有网站提供相同的工具,以确保尽可能为用户提供最理想的搜索结果。

通过抓取查找信息

网络就像一个规模与日俱增的图书馆,虽然收藏的图书已有数十亿本之多,却没有中央档案管理系统。我们使用一种称为网页抓取工具的软件来发现供公众访问的网页。抓取工具会查看网页,并跟踪访问这些网页上的链接,就好像您在网上浏览内容一样。这类抓取工具会逐一访问各个链接,并将各网页的相关数据返回至 Google 的服务器。
抓取查找信息

通过编入索引整理信息

当抓取工具找到一个网页时,我们的系统就会像浏览器一样呈现该网页的内容。我们会记下关键信号(从关键字到网站新鲜度),然后会在 Google 搜索索引中跟踪所有这些内容。

Google 搜索索引中包含数千亿个网页,其大小远远超过 1 亿千兆字节。它就像图书后部的索引一样 - 编入索引的每个网页上出现的每个字词都对应着一个条目。在将某个网页编入索引时,系统会将该网页分别添加到其包含的所有字词的对应条目中。
索引整理信息
借助知识图谱,我们将继续超越关键字匹配,以更好地了解您关注的人、地点和事物。为此,我们不仅要整理有关网页的信息,还要整理其他类型的信息。如今,Google 搜索不仅可帮助您搜索大型图书馆内数百万册图书中的内容,查找当地公交公司的线路和车次安排,还可帮助您浏览世界银行等公开来源的数据。

搜索算法

搜索算法的工作方式

网络上的信息繁多庞杂,如果不借助一些服务对信息进行整理和排序,要找到您需要的内容会如同大海捞针。Google 排名系统旨在实现这一目标:它们会对 Google 搜索索引中的数千亿个网页进行整理和排序,以便瞬间找出最相关、最实用的结果,并将这些结果以一种有助于您查找所需内容的方式呈现出来。

这些排名系统由一系列算法组成,而不是一个算法。为了向您提供最实用的信息,Google 搜索算法会考虑很多因素,包括您查询的字词、网页的相关性和可用性、来源的专业度,以及您所在的位置和您采用的设置。系统为每个因素赋予的权重因查询的性质而异,例如,与字典定义的查询结果相比,对于时事新闻主题的查询结果,内容的新鲜度更加重要。

为了协助确保 Google 搜索算法符合严苛的相关性和质量标准,我们制定了严格的流程,不仅展开现场测试,更有数千位来自世界各地训练有素的外部 Google 搜索质量评分者参与评估。这些质量评分者会遵循严格的指南,该指南明确指出了 Google 搜索算法的目标,可供所有人查看。

下文详细介绍了 Google 搜索会根据哪些主要因素来确定对于每个查询要返回哪些结果:

分析您的字词

理解搜索字词的含义对于返回优质结果至关重要。因此,为了找到包含相关信息的页面,我们的第一步就是分析您的搜索查询中的字词的含义。我们创建了语言模型,试图了解应该使用关键词的哪些部分在索引中进行查询。

这会涉及到看起来如同解析拼写错误一样简单的步骤,并会扩展到通过将自然语言理解方面的部分最新研究成果付诸应用来尝试理解您输入的查询的类型。例如,即便一个字词有多种定义,我们的同义词系统也能帮助 Google 搜索理解您的意思。该系统的开发过程历时超 5 年,大幅改善了超过 30% 的搜索的结果(涵盖各种语言)。
分析关键词
我们还会尝试理解您要寻找的信息所属的类别。是非常具体的搜索还是宽泛的查询?是否存在“审核”、“照片”或“营业时间”等能够表明搜索所蕴含的具体信息需求的字词?您是否在搜索暗示您想查找当天所发布内容的热门关键字?或者,您是否在搜索附近的商家并需要获得相关的本地信息?

对于这种查询分类,一个非常重要的方面在于,我们会分析您的查询,以确定您是不是想要获取新鲜内容。如果您搜索热门关键字,我们的新鲜度算法会将其解读为这样一种信号:最新信息可能比日期较早的网页更有用。也就是说,当您搜索最新的“中国男子篮球职业联赛比分”、《星光大道》比赛结果或“中石油收益”时,您将会看到最新信息。

与您的搜索内容相符

接下来,我们会寻找包含与相应查询匹配的信息的网页。当您搜索时,在最基本的层面上,我们的算法会在索引中查询您的搜索关键词以找到适当的网页。这些算法会分析相关关键字在某个网页上(不论是在标题中还是在正文中)的出现频率和显示位置。

当某个网页中包含与您的搜索查询内容相同的关键字时,这是表示搜索到的信息可能与您要查找的内容相关的最基本信号。如果网页或者文本的标题或正文中出现这些关键字,则表示该信息与您要查找的内容相关的可能性更大了。除了简单的关键字匹配之外,我们还使用经过汇总和匿名化处理的互动数据来评估搜索结果是否与查询内容相关。我们会将这些数据转换为信号,以协助我们的机器学习系统更好地评估相关性。
搜索内容相关性
除了匹配关键字,我们的算法还会寻找线索来衡量潜在搜索结果能从多大程度上满足用户的搜索需求。当您搜索“狗”时,您想看到的应该不是含有数百个“狗”字的网页。我们会尽力确定网页是否包含与您的查询对应的答案(而非只是重复您的查询)。因此,Google 搜索算法会分析网页是否包含相关内容,例如狗的图片、视频,甚至是品种列表。最后,我们会检查网页所用的语言是否与您的查询所用的语言相同,以便优先显示采用您的首选语言的网页。

需要说明的是,尽管我们的系统确实会通过寻找这类可量化的信号来评估相关性,但并不会因此用于分析主观观念,例如分析网页内容的观点或政治倾向。

为实用网页排名

对于一项典型的查询,含有可能相关的信息的网页会多达数千个甚至数百万个。因此,为了帮助将最符合需求的网页排在靠前的位置,我们还编写了算法来评估这些网页的实用性。

这些算法会分析数百种不同的因素 - 从内容的新鲜度,到您的搜索关键词的出现次数以及网页能否提供出色的用户体验 - 以尽力呈现网络所能提供的最有用的信息。为了评估内容在相关主题方面的可信度和权威性,我们会寻找那些看起来在类似查询中受到大量用户青睐的网站。如果与该主题相关的其他知名网站链接到了相应页面,则可充分说明此页面上的信息具有较高的品质。
网页排名
网络中有很多垃圾网站会试图通过再三重复关键字或购买可提升 PageRank 的链接等各种不当手段,蒙混到搜索结果中靠前的位置。这些网站提供的用户体验非常糟糕,甚至可能会伤害或误导 Google 用户。因此,我们编写了算法来识别网络垃圾并将那些违反 Google 网站站长指南的网站从结果中移除。

网络和更广阔信息生态系统中的内容在不断变化,因此我们不会停止衡量和评估自身系统的质量,确保在信息相关性和权威性之间实现适当的平衡,让用户始终信任看到的搜索结果。

返回最佳结果

在为您提供结果之前,我们会评估所有相关信息的综合效果:这些搜索结果是只有一个主题,还是有很多主题?是否有过多的页面在着重探讨一条狭义的诠释?我们会努力根据您的搜索类型以最有用的格式提供一系列多样的信息。此外,随着网络不断发展,我们会不断优化排名系统,以便为更多查询提供更优质的结果。

这些算法会通过分析相关信号来评估是否所有用户都能查看搜索结果。例如:网站是否能在不同的浏览器中正常显示;网站是否适合各种类型和尺寸的设备(包括桌面设备、平板电脑和智能手机);以及网页加载时间对于互联网连接速度较慢的用户而言是否合适。

鉴于网站所有者可以提高其网站的易用性,我们会在对 Google 搜索算法做出重大更改时尽量提前通知网站所有者以便其可以做出应对。例如,在 2018 年 1 月,我们宣布 Google 搜索算法将开始把网站的“网页速度”纳入考量范围,这一通知比更改的正式实施时间提早了 6 个月。为协助网站所有者,我们提供了详细的指导以及 PageSpeed Insights 和 Webpagetest.org等工具,这样网站所有者就可以了解他们需要调整哪些方面(如果有)来使其网站更适合移动设备。

您可以在此处详细了解 Google 为网站所有者提供的工具和提示。
评估相关信息

考虑具体环境

您的位置、过往搜索记录和搜索设置等信息可帮助我们即时地为您量身显示最实用且最相关的结果。

我们使用您的国家/地区和位置信息来提供与您所在区域相关的内容。例如,如果您身处芝加哥并搜索“橄榄球”,Google 便极有可能会先为您显示有关美国橄榄球和芝加哥熊队的结果。但如果您是在伦敦搜索“足球”,Google 则会在比较靠前的位置显示有关英式足球和英超联赛的结果。搜索设置也是一项重要的指标,可表明哪些结果可能会对您有用。例如,如果您设置了首选语言或已选择启用安全搜索(一种有助于滤除露骨结果的工具)。
搜索环境
在某些情况下,我们可能还会使用您的近期搜索活动的相关信息为您提供个性化的结果。例如,如果您搜索“巴塞罗那”,而且您最近搜索过“巴塞罗那 vs 阿森纳”,系统便可能会将您的这条搜索记录视为一个重要线索,从而推断出您十有八九是想查找与足球俱乐部(而非城市)相关的信息。您可通过访问 myaccount.google.com 来控制系统可使用哪些搜索活动来提升您的搜索体验,包括调整哪些数据会保存到您的 Google 帐号。

Google 搜索还有其他一些功能也有助于根据您 Google 帐号中的搜索活动记录为您显示个性化的搜索结果。例如,如果您搜索“附近的活动”,Google 可能会专门向您推荐我们认为您可能感兴趣的那些类活动。这些系统旨在协助 Google 搜索提供与您的兴趣相符的信息,而不会推断敏感性特征,例如您的种族、宗教或党派。

您可以在myaccount.google.com上控制系统为提升您的搜索体验可使用的搜索活动信息,包括设置系统可将哪些数据保存到您的 Google 帐号中。要停用 Google 搜索根据您帐号中的活动记录提供个性化结果的功能,请关闭“网络与应用活动记录”。