语义搜索是现代搜索引擎用来返回最相关搜索结果的一种信息检索过程。它侧重于搜索查询背后的意图,而不是传统的关键词匹配。该术语来自语言学的一个分支,称为语义学,它涉及对意图的研究。
一、尽管有无数的变量在起作用,但是语义搜索的原理,为什么需要它,以及它如何被影响,是很容易理解的。
*用户使用的语言往往与所需内容不一样
*很多搜索都在无意中产生歧义
*了解词汇层级和实体关系的需要
*反映个人兴趣和趋势的需要
1、用户使用的语言往往与所需内容不一样
更糟糕的是,我们有时甚至不知道如何正确表达我们想搜索的是什么。比方说,你听到了一首陌生的歌曲, 你喜欢它,于是开始在Google上随机搜索歌词,直到你终于找到它为止。
表达同一个想法的方式太多了,搜索引擎需要处理所有这些方式。 搜索引擎需要能够根据两者的意义,将其索引中的内容与你的搜索查询进行匹配。
无论这听起来多么具有挑战性,这仅仅是个开始。
2、很多搜索都在无意中产生歧义
大约40%的英语单词是多义词——它们有两个或更多的含义。这可以说是语义搜索要解决的最重大的挑战。例如,仅在美国,关键词 “python “的月搜索量就有53.3万次。 “python"可能指的是编程语言, 但科技行业以外的人很可能会想到真正的蟒蛇,或者是传奇的英国喜剧团。
这里的问题是,如果没有上下文,单词很少有明确的含义。在多义词的基础上,有无数的名词也可以同时是形容词,动词,或者两者兼而有之。而且我们还只是在谈论字面意思的范畴。如果我们深入研究其推论的话(譬如讽刺的时候),就会变得更加有趣。
在语义学中,语境就是一切,这将为我们引出了接下来的两点。
3、了解词汇层级和实体关系的需要
词汇层级说明了单词之间的关系。 比如伴侣这个词对妻子,男友,配偶等词来说是上一级的(上位词)。
如前所述,我们的查询通常与所需内容的确切词组不匹配。 知道“负担得起”是介于便宜,中档和合理价格之间的任何事物,这一点至关重要。
如果所有的这些语言的复杂性还不够的话,我们还必须再深入一些。
4、反映个人兴趣和趋势的需要
无论我们多么不喜欢任何使用我们个人数据的方式,至少这对搜索引擎来说是有用的。Google结合了有限的数据和你的搜索历史,以提供更准确和个性化的搜索结果。
我们都知道这一点。只要在搜索栏中输入任何类型的服务,你就会得到本地化的结果。但更吸引人的是,谷歌能够根据动态变化的搜索意图临时调整搜索结果。
二、哪些Google技术在语义搜索的工作方式中发挥了作用?
Google不断推出算法更新和新技术,以进一步提高其理解自然语言和搜索意图的能力。
语义搜索发展到今天的成果,一共经历了四个重要的里程碑。
知识图谱
蜂鸟算法
RankBrain算法
BERT模型
1、知识图谱
Google的知识图谱于2012年发布,是实体及实体之间关系的知识库。简而言之,这是一项启动并实现了从关键字匹配到语义匹配转变的技术。
向知识图谱提供信息的方法主要有两种:
结构化数据
从文本中提取实体
对于第二点,搜索引擎需要理解自然语言。这时候,下面三个算法的更新就会发挥作用。
2、蜂鸟算法
早在2013年,Google推出了一个名为Hummingbird(蜂鸟)的搜索算法,以返回更好的搜索结果。这个算法尤其有助于应对复杂的搜索查询。
蜂鸟算法是第一个重大更新,它更加强调搜索请求背后的意图,而非单个关键词。 它极速催化了“为话题而创作内容”的热潮,而不是“为单个关键词而写作”。
RankBrain算法
如果你曾经遇到过“潜在语义索引”或LSI关键词这一短语,可以忽略这个了。Google用RankBrain算法解决了LSI产生的问题。而我们前面已经讨论过这个问题。是关于搜索请求中所使用的语言和所需内容之间的不匹配。
Google的RankBrain采用了优于LSI的技术。通俗地说,通过使用复杂的机器学习算法,RankBrain甚至可以理解不熟悉的单词和短语的含义。而考虑到15%的搜索请求都是新的,这可是一项巨大的工程。
我们可以认为RankBrain是蜂鸟算法的升级版,而不是一个独立的搜索算法。它是最强的排名信号之一,但你能主动为其做出的优化,也就只有满足搜索意图了。
BERT模型
基于Transformer的双向编码器表示(BERT)这一自然语言表示模型,是对语义搜索运作方式的最新的重大升级。自2019年底以来,它影响了大约10%的查询。
BERT可以提高对长而复杂的句子以及查询的理解。它是一种处理歧义和细微差别的解决方案,因为它力图更好地理解单词的上下文。
虽然你并不能做什么事情来优化BERT本身,但简单地了解下它的含义和作用总是好的。
本文链接:http://www.awyerwu.com/240.html ,转载需注明文章链接来源:http://www.awyerwu.com/
- 喜欢(0)
- 不喜欢(0)