我将在本文后面提供一些数据

生动地说明这种划分以及它与不同排名信号的关系。查询和文档模型
将查询和文档从原始字符串转换为可以进行计算的内容是计算相似度得分的第一个障碍。为此,我们使用“查询模型”和“文档模型”。这里的“模型”只是一种奇特的说法,即字符串以某种其他方式表示,从而使计算成为可能。

和维基百科关于费城人队的页面的这一过程

计算相似度得分的最后一步是通过 电话号码 评分函数运行查询和文档表示。查询模型图说明了一些不同类型的查询模型:
底部的构建块包括标记化(将字符串拆分成单词)、单词规范化(例如,词干提取,删除常见单词的结尾)和拼写纠正(如果查询包含拼写错误的单词,搜索引擎会对其进行纠正并返回纠正后单词的结果)。

这些构建块之上构建了查询分类和意图等内容

如果搜索引擎确定某个查询具 内容营销策略的 5 个常见问题 有时间敏感性,它将返回新闻结果,或者如果它认为查询意图具有交易性,它将显示购物结果。

最后,金字塔的顶端是查询的更抽象的表示

例如实体提取或潜在主 俄罗斯号码列表 题表示 (LDA)。事实上,Google 知道“费城费城人队”是一支美国职棒大联盟球队,而且由于现在是棒球赛季,所以昨晚的比分会显示在搜索结果的顶部(右侧的知识图谱除外)。

文档模型

与查询模型一样,搜索中常使用几种不同类型的文档模型。TF-IDF是最古老和最著名的方法之一,它将每个查询和文档表示为一个向量,并使用余弦相似度的某种变体作为评分函数。语言模型对语言统计信息进行编码,并包括一些知识,例如短语“搜索引擎优化”比“搜索引擎行走”更常见。

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部