必须了解的搜索知识

[复制链接]
查看: 591|回复: 0

14

主题

14

帖子

46

积分

新手上路

Rank: 1

积分
46
发表于 2020-11-17 10:02:32 | 显示全部楼层 |阅读模式
必须了解的搜索知识
搜索是一个复杂的系统,了解一些基础搜索知识,有助于开发者少走弯路。

百度搜索引擎原理:了解搜索引擎工作原理,可以更好的指导开发者,提高智能小程序和网站的搜索友好性。百度搜索引擎工作原理主要包括资源抓取、页面分析、建立索引、搜索排序。

1、资源抓取:指百度蜘蛛对开发者主动提交的资源,以及互联网发布的资源进行抓取和存储的过程,为搜索结果展现提供了基础数据支持。

2、页面分析:对抓取的资源进行信息提取和分析处理,包括TDK参数和页面正文信息、服务价值等,为精准匹配搜索用户需求提供参考。

3、建立索引:参考页面分析情况,建立URL索引、关键词索引关系,同时索引库分层级存储,便于不同搜索关键词需求下快速定位资源页面。

4、搜索排序:结合用户搜索需求、页面因素、索引关系(存储层级),综合计算得到搜索排序。

百度蜘蛛(UA/IP):智能小程序抓取蜘蛛,即智能小程序UA/IP,开发者要正确识别抓取蜘蛛,确保未针对其进行任何封禁设置,正常访问返回码为200,访问异常时可能会返回404、503等。

robots文件:开发者可通过 robots 文件声明智能小程序中不想被搜索引擎收录的部分,如果您的智能小程序高度开放,完全可以不必设置robots文件。

索引量与流量:索引量是指智能小程序资源中可以被搜索用户搜索到的资源量,流量是指智能小程序资源在百度APP内搜索结果中的点击量。

首先需要澄清,索引量的下降,不一定会带来流量下降。

因为基于智能小程序资源内容质量和服务价值,百度搜索会对智能小程序资源进行分层管理,内容质量和服务价值越高,层级越高,在搜索中被展现和被用户点击的可能性越大,从而获取更多的搜索流量收益。搜索会定期评估资源情况更新分层,同时对质量差和服务价值低的底层资源进行删除,因而索引量数据可能会下降,被删除的该类资源在搜索中被展现和被点击的可能性很小,所以一般不会影响流量收益。

搜索排序:搜索结果的排序策略一直是严格保密的,智能小程序的介入,让排序策略进一步复杂化。

1、传统排序原则:时效性、权威性、内容丰富度,以及与用户需求的相关性匹配度永远是搜索排序不变的考量因素。

2、优待浏览和服务体验好的智能小程序:由于智能小程序给搜索用户带来了浏览和服务体验增益,所以在N个搜索结果得分相近的情况下,搜索会优先展现智能小程序的结果。

3、优待性能稳定的智能小程序:百度搜索非常重视搜索结果的稳定性,H5结果的死链问题,智能小程序的白屏、加载失败等问题严重影响用户体验,不仅造成用户流失,更有可能被搜索限制展现。

4、优待用心经营用户的智能小程序:百度搜索希望搜索用户可以通过智能小程序获得更好的服务,同时为智能小程序经营用户提供了诸多能力,对于认真经营用户的智能小程序会有更多的倾斜扶持。

掌握常用工具
智能小程序开发者掌握以下常用工具,可以更好的辅助智能小程序的开发和资源管理。

代码检测工具
预检测:排查开发代码问题,提高审核通过率。

检测包括页面白屏、控件点击有效性、图片加载情况、文字展现异常等体检检测,以及是否存在诱导用户下载APP、诱导用户关注等内容检测。

智能小程序资源管理工具
URL适配:提交适配规则,加速资源替换展现。

已有H5站点的开发者,使用该工具提交URL适配规则,将H5站点下资源快速替换为智能小程序资源。工具使用见【3.1.2.1已有H5站点,如何接入自然搜索】

新资源提交:主动提交新资源,加速资源收录。

无H5站点,或者H5站点收录不好时,为了便于智能小程序资源的快速收录,可以使用该工具提交资源。工具使用见【3.1.2.2 无H5站点时,如何接入自然搜索】

资源删除:删除无价值资源,降低低质比例。

开发者可通过该工具向百度搜索提交需要删除的已索引资源,包括死链、低质等对搜索用户无价值的资源。工具使用见【4.2.3开发者自主删除资源】

如何搭建智能小程序更友好
智能小程序的搭建过程中,开发者对目录和path路径、页面基础信息、页面内容布局等的设置,需要符合一定的操作规范,才能确保对百度搜索的友好性,保障智能小程序资源在百度搜索中的抓取收录和展现。

设置目录和path路径
目录设置

智能小程序资源目录层级设置,可参考H5网站目录层级,遵循简单、清晰的原则,不要将内容全部放在根目录下,也不要设置过深目录层级,既能方便开发者管理与维护,也方便百度蜘蛛的快速发现和抓取。

path路径设置

智能小程序接入自然搜索结果时,web化路径设置需遵循以下规范,否则会影响资源的索引和适配,进而影响智能小程序资源在搜索中的展现:

l  web化路径不能带有#标记

一般来说,URL当中的#号是一个锚点的标志位,和不带#的URL表示同一个页面。不要在web化路径中夹带#标记,避免资源适配异常。

l  web化路径的参数不能为一条路径

web化路径可以带参数,但参数本身不可以是一条路径,不可以是一条URL。以下这三类都是不符合规范的:
  1. xxx.smartapp.cn/parameter_a=/path1/file, xxx.smartapp.cn/parameter=http://xxx.baidu.com/path1/1.html, xxx.smartapp.cn/parameter=xxx.baidu.com/path1/1.html。
复制代码
如需带相关参数,务必清晰表述参数名和参数定义,如dir_name=news。

l  智能小程序页面不允许做第三方跳转

如果智能小程序页面存在第三方跳转,将被判定为低质资源,一般不会被收录。若智能小程序页面存在跳转H5、嵌套H5等情况,需尽快自查整改,并重新提交资源或适配规则。

设置页面基础信息
智能小程序被搜索引擎正常收录的前提是 web 化,web 化后智能小程序将以普通网页的形式被蜘蛛发现和抓取,页面基础信息能提升资源在搜索中的收录和展现效果,同时,智能小程序资源替换H5资源时,页面基础信息相似度校验是非常重要的部分。所以设置符合规范的页面基础信息是至关重要的。

页面基础信息主要包括标题(title)、摘要(description)等信息。


标题

标题能够让用户快速洞察页面内容,了解该结果与需求的相关性,通常是用来决定用户点击行为的主要信息。所以,使用高质量的页面标题对页面来说至关重要。

1. 设置标题的原则:

1) 应确保智能小程序下的每个页面都有指定的标题,且同一智能小程序的不同页面应分别使用不同的标题,切勿多页面标题重复。

2) 页面标题应准确概括页面内容,避免使用模糊和不相关的描述。

3) 页面标题应简明扼要,避免使用冗长的标题,避免关键词堆砌。

4) 页面标题的符号使用正确,可以参考百度建议的标题符号用法。

百度搜索建议标题符号用法:


如何制作优质标题

页面标题的构成,可以概括为“核心词+修饰词”格式,修饰词建议不多于3个。不同页面类型制作不同的标题形式。


页面类型

页面类型说明

建议标题格式

举例

首页

首页是整个网站的入口

站点名/品牌名 - 首页/官网/slogan

注:此类页面的核心词为品牌词/网站名称,修饰词包括“官网“、“官方网站”、“首页”、“主页”、“Home”、网站的slogan、站点父品牌词等。

优酷首页

淘宝网 - 淘!我喜欢

京东 - 正品低价、品质保障、配送及时、轻松购物!

列表

站点内频道/列表类页面

列表/频道名 - 上级频道(可省) - 站点名

注:此类页面的核心词为列表/频道方向内容,修饰词可以是站点名和上级频道内容,站点名为修饰词时必须放在最末尾

男士频道 - 唯品会

优酷财经 - 优酷

主题聚合页

主体聚合页是围绕某一主题各方面属性聚合而成的内容集合。

“主题 - 属性1 - 属性2 - 站点名”

注:此类页面的核心词是围绕的主题,修饰词可以是主题的属性、上级频道内容、站点名,站点名为修饰词时必须放在最末尾

成都旅游攻略 - 玩法路线 - 自由行攻略 - 携程旅行

内容页

内容页是指具体的内容页,比如文章详情页、商品详情页、具体视频的播放页等

标题格式:“内容标题 - 列表/频道名(可省) - 站点名”

注:1、此类页面的核心词是内容的主体说明,比如文章的标题、视频的名称、商品/店铺的名称等,修饰词可以是上级频道内容、站点名,站点名为修饰词时必须放在最末尾

2、内容标题建议一句话表明,不重复表述,重复不超过3次

红烧肉的做法 - 菜谱 - 香哈网

18号台风“泰利”生成,或成今年“风王”! - 中国新闻网

标题设置的常见问题


为了方便搜索引擎分析和展示页面内容,在设置标题时,应区分清楚tag title、real title和page title。 其中tag title是指页面 <title> 标签中的标题,对应HTML页面中的 <head><title></title><head>;real title 是指页面正文中的标题,即用户看到的内容标题;page title是指页面顶部的标题组件,通常为网站名称。


为了使用户能正常在搜索结果中看到对应页面的标题内容,tag title应与real title一致,即<title>标签中的标题应与页面正文标题一致。若不一致,则可能会影响该页面在搜索结果中的展现效果。


以下为几个badcase及对应修改方式:


1)错误设置:


tag title:xx汽车网


real title:后备箱放2箱水果被交警罚款?车主:我要这后备箱有何用?


page title:文章详情

正确设置:

tag title:后备箱放2箱水果被交警罚款?车主:我要这后备箱有何用?- xx汽车网

(即下图红框部分应修改如上)


page title:xx汽车网(也可为当前频道名称)

4. 不允许出现的标题

1) 标题内容虚假。指标题和页面内容不相符,欺骗诱导用户点击的情况。

2) 标题重复、堆砌。指通过页面标题过度重复或堆砌等手段,获取不正当流量的情况。

2.3.2.2 摘要

1. 摘要设置原则

(1)要求在前150个字符中体现出描述与目标关键词的相关性(注:汉字及中文标点符号等于2个字符,英文字母、英文符号及数字等于1个字符)。目标关键词中最核心的词汇,必须完整地出现在描述中。

(2)不同页面的摘要内容不能完全相同。

2. 如何制作优质摘要

(1)首页页面摘要,将首页的标题、关键词和一些特殊栏目的内容融合到里面,写成简单的介绍形式,不要只写关键词。
(2)栏目页面摘要,将栏目的标题、关键字、分类列表名称,一同写入description中,写成介绍形式。

(3)分类页面摘要,将这个栏目中的主要关键字写入。



注:避免在摘要中重复堆砌关键词。

搜索结果标题和摘要的展现,参考页面设置的TDK内容,但不保障内容完全一致。搜索结果的标题和摘要展现,一般会结合搜索用户需求和页面设置内容综合评估展现。

2.3.2.3 如何设置操作

由于每个页面基础信息和页面内容强相关,建议先通过 swan.request 请求开发者server,由开发者server返回相关信息,再通过页面基础信息的API设置到页面中。

页面基础信息通过 swan.setPageInfo设置。在 web 化环境下,页面基础信息会通过 meta 标签插入页面 head 中。恰当的页面基础信息可以帮助爬虫更精准的理解页面内容。

注:这里的页面标题与智能小程序页面 json 配置中设置的navigationBarTitleText不同,navigationBarTitleText仅用于页面顶部展示,页面基础信息中的title不会在页面中展示,而是在web化的title标签中。

页面基础信息设置的title:


json配置中设置的navigationBarTitleText:

注:如果您按照以上规范设置,搜索结果中依然存在标题和摘要展现异常,影响用户浏览体验,可以将问题反馈至智能小程序客服。

反馈路径:【智能小程序开发者平台】-> 右下角悬浮【客服支持】

设置页面内容布局
发布时间

内容需要有显著规范的发布时间,在每一篇文章中增加“明显的”“规范的”发布时间,例如pubdate:2019.08.08 18:08。这有助于您的文章被解析出正确的时间信息,在搜索排序中获得合理的展现效果。

页面分块

内容需要有规律的、合理的页面分块。在您的内容页中,应有规律的组织网页内数据,合理的进行分块,主体内容不和作者、时间、回复等其他信息混在一起,区域独立。这有助于百度搜索正确解析页面内容,避免由于内容混乱影响搜索展现。

一般页面从上到下,分别是主体内容、广告区域、相关推荐,彼此之间界限清晰,分布合理。如下图所示:




腾讯云
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

精彩图文



在线客服(工作时间:9:00-22:00)
400-600-6565

内容导航

微信客服

Copyright   ©2015-2019  云服务器社区  Powered by©Discuz!  技术支持:尊托网络     ( 湘ICP备15009499号-1 )