在当今的互联网中网页数量日趋庞大,为了建立网页与网页、网页与网站之间的链接关系,经常使用基于超链接和/或锚文本的链接技术。一般来说,超链接是一种 对象,它以特殊编码的文本或图形的形式来实现链接,当点击该链接时,相当于指令浏览器移至同一网页内的某个位置、或打开一个新的网页、或打开一个新的 WWW网站中的网页。例如,网页中的超链接大致分为绝对URL的超链接、相对URL的超链接和书签超链接。另外,超链接中的锚文本通常是对一个网页内容的 高度概括描述,与该网页有着高度的内容相关性。将超链接的锚文本应用于搜索引擎,还可以基于所述锚文本进行内容相关度计算,以获取用户查询序列与网页的相 关度,从而对搜索结果中的网页进行精确排名。
因此在正常情况下,锚文本均可以对超链接指向的页面内容进行高度概括,并相当程度上反映出该页面的内容。但是互联网上存在大量的超链作弊行为,锚文本与超 链接指向页面之间不再总是内容高度相关,当搜索引擎基于锚文本来获取搜索结果时,甚至还有可能出现与查询序列内容不相关而排名却很高的网页。有鉴于此,如 何确定超链接的锚文本可信度,以评估和分析超链接的锚文本与超链接指向页面之间内容相关性,是搜素引擎工程技术人员迫切解决的一项课题。
百度搜索引擎提供了一种计算机实现用于确定超链接的锚文本可信度的方法。其中该方法包括以下步骤:a获取与所述超链接相对应的锚文本;b根据所述锚文本获 取与所述锚文本对应的锚文本相关信息;c根据所述锚文本相关信息加权确定所述超链接的锚文本可信度。并且还提供了一种用于确定超链接的锚文本可信度的分析 设备;其中该分析设备包括:第一获取装置,用于获取与所述超链接相对应的锚文本;第二获取装置,用于根据所述锚文本获取与所述锚文本对应的锚文本相关信 息;锚文本可信度确定装置用于根据所述锚文本相关信息,加权确定所述超链接的锚文本可信度。
与现有技术相比,基于锚文本相关信息来加权确定超链接的锚文本可信度,使超链接的锚文本与超链接指向页面之间的内容相关性更加合理。还可精确地检测作弊超 链的虚假锚文本、过期超链的失效锚文本,调整基于所述锚文本可信度对包含所述虚假锚文本和失效锚文本的超链接指向页面的权威度和排名,进而提升搜索引擎搜 索结果的排序质量。
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,其特征、目的和优点将会变得更明显:
图1示出依据一个用于确定超链接的锚文本可信度的分析设备的结构示意图;图2示出依据优选实例用于确定超链接的锚文本可信度的分析设备的结构示意图;图3 示出依据本发明另一方面的用于确定超链接的锚文本可信度的流程图;图4示出依据优选实例用于确定超链接的锚文本可信度的流程图。附图中相同或相似的附图标 记代表相同或相似的部件。下面结合附图作进一步详细描述。
图1示出依据一个用于确定超链接的锚文本可信度的分析设备的结构示意图。其中,分析设备1包括但不限于单个网络服务器、多个网络服务器集、基于云计算的计 算机集合等,其中,云计算是分布式计算的一种,由一群松散祸合的计算机集组成的一个超级虚拟计算机。参照图1,所述分析设备1包括第一获取装置11、第二 获取装置12和锚文本可信度确定装置13。具体地,分析设备1的第一获取装置11获取与所述超链接相对应的锚文本;接着,第二获取装置12根据所述锚文 本,获取与所述锚文本相对应的锚文本相关信息;最后,锚文本可信度确定装置13根据所述锚文本相关信息,加权确定所述超链接的锚文本可信度。
第一获取装置m用于获取与超链接相对应的锚文本。具体地,第一获取装置m例如通过页面技术,如HTML,DHTML等页面技术,解析超链接的链接信息或者 切分和提取所述超链接中的链接文字从而获取与所述超链接相对应的锚文本。在浩瀚的互联网海洋中,所有的网站都是可以互通的,而把它们链接在一起的纽带就是 超链接,在所述超链接中的锚文本既可以包括一个关键词,也可以包括一句话,此时锚文本在所述超链接所在页面的作用是告知浏览者在点击该锚文本后会从当前所 在页面跳转到哪里。例如,某大学的官方网站做了一个百度主页的友情链接,其具体代码为<a href = ” http : //www. baidu.com”>百度</a},那么超链接www. baidu. com的锚文本即为“百度”,当点击“百度”时就可以跳转显示百度的主页。又例如,某网页利用一句话“最好的中文搜索引擎是什么”做了一个相关链接,其具 体代码为<a href = ” http : //www. baidu. com”>最好的中文搜索引擎是什么</a},那么超链www.baidu. com的锚文本即为“最好的中文搜索引擎是什么”,当点击网页中的“最好的中文搜索引擎是什么”后,当前网页就可以跳转显示百度的主页。
第二获取装置12用于根据所述锚文本,获取与所述锚文本相对应的锚文本相关信息。具体地,通过第一获取装置11得到与所述超链接相对应的锚文本后,第二获 取装置12通过诸如计算所述锚文本与所述超链接指向页面之间的关联度来获取与所述锚文本相对应的锚文本相关信息。优选地,所述锚文本相关信息包括以下至少 仟一项:锚文本在所述超链接指向页面的所有入链的锚文本的统计分析结果中所占比例;所述锚文本在所述超链接所在页面的所有出链的锚文本的统计分析结果中所 占比例;所述锚文本与所述超链接指向页面的关联度。以所述锚文本相关信息包括所述锚文本在所述超链接指向页面的所有入链的锚文本的统计分析结果中所占比例 来举例说明,假定所述超链接指向的页面为专门经营婴儿用品的网站主页,在该网站主页的所有入链的锚文本中绝大多数锚文本都是类似于“奶粉”、“奶瓶”、 “婴儿用品”等链接文字,而当前待确定超链接的锚文本可信度的锚文本为“科研”时,计算当前超链接的锚文本在所有入链的锚文本统计分析结果中所占比例,例 如,当前超链接的锚文本在所有入链的锚文本统计分析结果中所占比例非常低,那么所述超链接的锚文本可信度也相对较低。类似地,当所述锚文本相关信息包括所 述锚文本在所述超链接所在页面的所有出链的锚文本的统计分析结果中所占比例时,假定所述超链接所在页面为某大学的官方网站主页,在该大学官方网站主页的所 有出链的锚文本中大多数锚文本都是类似于“高校”、“大学”、“就业率”、“招生说明”等链接文字,将所有出链的锚文本进行统计分析,计算所述超链接的锚 文本在所述统计分析结果中所占比例。例如,若所述超链接的锚文本为婴儿用品,则该锚文本在所有出链的锚文本的统计分析结果中所占比例较低。再以所述锚文本 相关信息包括所述锚文本与所述超链接指向页面的关联度为例,当所述锚文本与所述超链接指向页面的标题之间的关联度较高时,所述超链接的锚文本可信度相对较 高;当所述锚文本与所述超链接指向页面的标题之间的关联度较低时,所述超链接的锚文本可信度相对较低。
锚文本可信度确定装置13用于根据所述锚文本相关信息,加权确定所述超链接的锚文本可信度。具体地,通过第二获取装置12得到与所述锚文本相对应的锚文本 相关信息后,锚文本可信度确定装置13根据所述锚文本相关信息,结合所述锚文本相关信息中每一项的权重,来加权确定所述超链接的锚文本可信度。接上例,当 所述锚文本相关信息包括所述锚文本在所述超链接指向页面的所有入链的锚文本的统计分析结果中所占比例、所述锚文本在所述超链接所在页面的所有出链的锚文本 的统计分析结果中所占比例以及所述锚文本与所述超链接指向页面的关联度时,可以结合所述锚文本在所述超链接指向页面的所有入链的锚文本的统计分析结果中所 占比例的第一权重、所述锚文本在所述超链接所在页面的所有出链的锚文本的统计分析结果中所占比例的第二权重以及所述锚文本与所述超链接指向页面的关联度的 第三权重,来加权确定所述超链接的锚文本可信度。此外,上述用于确定超链接的锚文本可信度的分析设备可以与现有的搜索引擎相结合,构成一种新的搜索引擎, 现有的搜索引擎可以是采用已知的如百度、Google,Yahoo等搜索引擎。
优选地,该新的搜索引擎在提供搜索结果时,还提供与所述搜索结果相对应的权威值。具体地,与现有搜索引擎相结合且用于确定超链接的锚文本可信度的搜索引 擎,在为用户提供搜索结果时,还通过诸如特别字体、浮动窗口等方式,提供这些搜索结果相应的页面权威值。例如,与现有搜索引擎相结合,且用于确定超链接的 锚文本可信度的搜索引擎,在根据用户的查询序列提供相应的搜索结果时,在这些搜索结果的页面说明中添加相应页面的页面权威值;进一步地,这些页面的页面权 威值还可以通过特别字体或浮动窗口等方式显示,如在用户的鼠标停留在搜索结果的页面链接、或者页面说明时,以悬浮窗曰显示该停留搜索结果相应的页面权威 值。
优选地,所述分析设备1还包括第一调整装置(图1未示出),用于根据所述超链接指向页面,例如通过分析所述页面的网址或页面内容,当确定所述超链接指向页 面为所述页面黑名单中的页面,或所述超链接指向页面的页面内容与页面黑名单中的页面的页面内容一致或近似一致时,调整所述超链接的锚文本可信度。更优选 地,所述分析设备1还包括更新装置(图1未示出),用于获取作弊页面或不良页面,根据所述作弊页面或不良页面来建立或更新所述页面黑名单。优选地,所述分 析设备1还包括第四获取装置(图1未示出),用于获取所述超链接指向页面更新前与更新后的相关度,并且所述锚文本可信度确定装置13根据所述锚文本相关信 息结合所述相关度,确定所述超链接的锚文本可信度。具体地,当所述超链接指向页面进行了改版操作或者调整了页面内容后,可以计算改版前后或内容调整前后所 述超链接指向页面自身的相关度,并根据所述锚文本相关信息与所述相关度的结合,确定所述超链接的锚文本可信度。例如在将所述锚文本相关信息与所述相关度相 结合时,通过所述超链接指向页面更新前与更新后的较高相关度,来增加所述超链接的锚文本可信度。或者,在将所述锚文本相关信息与所述相关度相结合时,通过 所述超链接指向页面更新前与更新后的较低相关度,来降低所述超链接的锚文本可信度。
优选地,所述分析设备1还包括第五获取装置(图1未示出),用于根据用户通过用户设备输入的查询序列,获取与所述查询序列相对应的超链接,并且所述第一获 取装置11还用于根据所述超链接,获取与所述超链接相对应的锚文本,以及所述分析设备1还包括排序装置(图1未示出),用于根据所述超链接的锚文本与所述 查询序列的内容相关度,并结合所述锚文本可信度,对与所述超链接对应的搜索结果进行排序。具体地,首先获取所述超链接的锚文本与所述查询序列的内容相关 度,再根据所述锚文本可信度来调整所述查询序列与所述超链接指向页面之间的相关度,最后使用基于所述锚文本可信度修正后的相关度结合所述超链接指向页面的 标题和/或正文等其他内容信息得出综合的相关性权值,并根据所述相关性权值对与所述超链接相对应的搜索结果进行排序。
在一优选实施例中,搜索引擎在计算所 述查询序列与所述超链接指向页面的基础相关性权值时,首先利用锚文本可信度来调整所述超链接的锚文本与所述查询序列的内容相关度,并结合所述超链接指向页 面的标题和正文的内容信息得出综合的相关性权值。由此可知,该技术用于确定超链接的锚文本可信度的分析设备应用到搜索引擎领域,可以精确地检测诸如作弊超 链的虚假锚文本、过期超链的失效锚文本,从而调整基于所述虚假锚文本和失效锚文本的页面权威度和排名,进而提升搜索引擎搜索结果的排序质量。 优选地,所述分析设备1还包括分配装置(图1未示出),用于根据所述锚文本可信度,将所述超链接所在页面的权威值分配给所述超链接所在页面的出链。具体 地,所述超链接所在页面包括一个或多个锚文本,而这些锚文本分别对应于所述超链接所在页面的出链,根据超链接的锚文本可信度,可以将所述超链接所在页面的 权威值分配给所述超链接所在页面的出链。优选地,所述分析设备1还包括第二调整装置(图1未示出),用于根据下述关系式,调整所述超链接的锚文本可信度Ci=λ× Ci-1+(1-λ)× Cu其中Cu为第i时刻未经调整的锚文本可信度,Ci为第i-1时刻所述超链接的锚文本可信度,λ为 0至i之间的修正因子。具体地,由于所述超链接指向页面的内容在短时间内可能会有不可预期的变化,例如所述超链接指向页面突然改版或进行常规维护而无法访 问,为修正所述不可预期的变化,以减少锚文本可信度的波动,从而提高搜索结果排序的计算效率与稳定性。例如,第二调整装置根据锚文本可信度确定装置13所 确定的第i时刻的锚文本可信度C,第i-1时刻所述超链接的锚文本可信度Ci一1,并根据公式Ci=λ× Ci-1+(1-λ)× Cu进 行调整,以获得所述超链接的锚文本可信度Ci,其中,入为0至1之间的修正因子。例如,假设锚文本可信度确定装置13所确定的第i时刻的锚文本可信度C 为0. 8,第i-1时刻所述超链接的锚文本可信度Ci,为0. 6,假设入取0. 25,则通过计算,所述超链接的锚文本可信度C,为0. 75。上述数值仅为优选地描述本发明的方案,本领域技术人员应能根据实际情况和需求确定上述数值。图2示出依据优选实施例的用于确定超链接的锚文本可信度的分析设备的结构示意图。其中,所述分析设备1’包括但不限于单个网络服务器、多个网络服务器集、 基于云计算的计算机集合等,其中,云计算是分布式计算的一种,由一群松散祸合的计算机集组成的一个超级虚拟计算机。参照图2,所述分析设备1’包括第一获 取装置11’、第二获取装置12’、第三获取装置14’、锚文本可信度确定装置13’。具体地,分析设备1’的第一获取装置11’获取与所述超链接相对应 的锚文本;接着,第二获取装置12’根据所述锚文本,获取与所述锚文本相对应的锚文本相关信息;与此同时,第三获取装置14’获取与所述超链接相对应的超 链接相关信息;最后锚文本可信度确定装置13’根据所述锚文本相关信息,结合所述超链接相关信息,加权确定所述超链接的锚文本可信度。也就是说,第二获取 装置12’和第三获取装置14’可以并行地分别获取与所述锚文本相对应的锚文本相关信息以及与所述超链接相对应的超链接相关信息。
锚文本可信度确定装置13’对应, 故此处不再赘述,仅通过引用的方式包含于图2所描述的优选实施例。第三获取装置14’用于获取与所述超链接相对应的超链接相关信息,并且所述锚文本可信度 确定装置13’还用于根据所述锚文本相关信息,结合所述超链接相关信息,确定所述超链接的锚文本可信度。优选地,所述超链接相关信息包括以下至少任一项: 所述超链接的产生时间;所述超链接的位置;所述超链接在所述超链接指向页面的所有入链的统计分析结果中所占比例;所述超链接在所述超链接所在页面的所有出 链的统计分析结果中所占比例。以所述超链接相关信息包括所述超链接的产生时间为例,当所述超链接与所述超链接指向页面之间的链接期限为10年,而超链接的 产生时间为距离现在的时间间隔为10年以上时,根据超链接的产生时间可以确定所述超链接为过期超链接。类似地,当所述超链接位于反映所述超链接指向页面的 主要内容的定语部分时,根据超链接的位置可以确定所述超链接与所述超链接指向页面的关联度。再例如,所述超链接指向的页面为专门经营婴儿用品的网站主页, 在该网站主页的所有入链中绝大多数超链接都是类似于“奶粉”、“奶瓶”、“婴儿用品”等链接信息,而当前待确定超链接的锚文本可信度的超链接为“科研” 时,计算当前超链接在所有入链统计分析结果中所占比例,例如,当前超链接在所有入链统计分析结果中所占比例非常低,然后与第二获取装置12’获取的锚文本 相关信息相结合,以通过锚文本可信度确定装置13’来确定超链接的锚文本可信度。类似地,当所述超链接相关信息包括所述超链接在所述超链接所在页面的所有 出链的统计分析结果中所占比例时,假定所述超链接所在的页面为应届大学毕业生的就业信息公共平台主页,在该就业信息公共平台主页的所有出链中绝大多数超链 接都是包含“electronic”,”computer”,”research”,”company”等字符的超链接,将所有出链进行统计分析,计算所 述超链接在所述统计分析结果中所占比例,根据比例数值来获取所述超链接相关信息。例如,若所述超链接指向的页面旨在提供婴儿用品相关服务,则该超链接在所 述超链接所在页面的所有出链的统计分析结果中所占比例较低,相应地,将所述超链接相关信息与第二获取装置12获取的锚文本相关信息相结合,例如,将与所述 超链接相关信息对应的超链接比例数值结合与所述锚文本相关信息对应的锚文本比例数值,通过锚文本可信度确定装置13’来确定基于所述超链接相关信息和所述 锚文本相关信息的超链接的锚文本可信度。 优选地,在结合上述图2所描述的实施例的基础上,所述分析设备1’还包括第四获取装置(图2未示出),用于获取所述超链接指向页面更新前与更新后的相关 度,并且所述锚文本可信度确定装置13’根据所述锚文本相关信息结合所述相关度,确定所述超链接的锚文本可信度。具体地,当所述超链接指向页面进行了改版 操作或者调整了页面内容后,可以计算改版前后或内容调整前后所述超链接指向页面自身的相关度,并根据所述锚文本相关信息与所述相关度的结合,确定所述超链 接的锚文本可信度。例如,在将所述锚文本相关信息与所述相关度相结合时,通过所述超链接指向页面更新前与更新后的较高相关度,来增加所述超链接的锚文本可 信度。或者,在将所述锚文本相关信息与所述相关度相结合时,通过所述超链接指向页面更新前与更新后的较低相关度,来降低所述超链接的锚文本可信度。 优选地,所述分析设备1’还包括第五获取装置(图2未示出),用于根据用户通过用户设备输入的查询序列,获取与所述查询序列相对应的超链接,并且所述第一 获取装置11’还用于根据所述超链接,获取与所述超链接相对应的锚文本,以及所述分析设备1’还包括排序装置(图2未示出),用于根据所述超链接的锚文本 与所述查询序列的内容相关度,并结合所述锚文本可信度,对与所述超链接对应的搜索结果进行排序。具体地,首先获取所述超链接的锚文本与所述查询序列的内容 相关度,再根据所述锚文本可信度来调整所述查询序列与所述超链接指向页面之间的相关度,最后使用基于所述锚文本可信度修正后的相关度结合所述超链接指向页 面的标题和/或正文等其他内容信息得出综合的相关性权值,并根据所述相关性权值对与所述超链接相对应的搜索结果进行排序。在一优选实施例中,搜索引擎在计 算所述查询序列与所述超链接指向页面的基础相关性权值时,首先利用本发明的锚文本可信度来调整所述超链接的锚文本与所述查询序列的内容相关度,并结合所述 超链接指向页面的标题和正文的内容信息得出综合的相关性权值。由此用于确定超链接的锚文本可信度的分析设备应用到搜索引擎领域,可以精确地检测诸如作弊超 链的虚假锚文本、过期超链的失效锚文本,从而调整基于所述虚假锚文本和失效锚文本的页面权威度和排名,进而提升搜索引擎搜索结果的排序质量。 优选地,所述分析设备1’还包括分配装置(图2未示出),用于根据所述锚文本可信度,将所述超链接所在页面的权威值分配给所述超链接所在页面的出链。具体 地,所述超链接所在页面包括一个或多个锚文本,而这些锚文本分别对应于所述超链接所在页面的出链,根据本发明的超链接的锚文本可信度,可以将所述超链接所 在页面的权威值分配给所述超链接所在页面的出链。优选地,所述分析设备1’还包括第二调整装置(图2未示出),用于根据下述关系式,调整所述超链接的锚文 本可信度Ci=λ× Ci-1+(1-λ)× Cu其中, Cu为第i时刻未经调整的锚文本可信度,Ci,为第i-1时刻所述超链接的锚文本可信度,λ为 0至1之间的修正因子。具体地,由于所述超链接指向页面的内容在短时间内可能会有不可预期的变化,例如所述超链接指向页面突然改版或进行常规维护而无法访 问,为修正所述不可预期的变化,以减少锚文本可信度的波动,从而提高搜索结果排序的计算效率与稳定性。例如,第二调整装置根据锚文本可信度确定装置13所 确定的第i时刻的锚文本可信度C,第i-1时刻所述超链接的锚文本可信度Ci一1,并根据公式Ci=λ× Ci-1+(1-λ)× Cu进 行调整,以获得所述超链接的锚文本可信度Ci,其中,入为0至1之间的修正因子。例如,假设锚文本可信度确定装置13所确定的第i时刻的锚文本可信度C 为0. 8,第i-1时刻所述超链接的锚文本可信度Ci,为0. 6,假设入取0.25,则通过计算,所述超链接的锚文本可信度C,为0. 75。上述数值仅为优选地描述本发明的方案,本领域技术人员应能根据实际情况和需求确定上述数值。 图3示出另一方面的用于确定超链接的锚文本可信度的流程图。其中,用于确定所述超链接的锚文本可信度的分析设备包括但不限于,单个网络服务器、多个网络服 务器集、基于云计算的计算机集合等,其中,云计算是分布式计算的一种,由一群松散祸合的计算机集组成的一个超级虚拟计算机。在步骤Sl中,所述分析设备用 于获取与所述超链接相对应的锚文本。具体地,所述分析设备例如通过页面技术,如HTML,DHTML等页面技术,解析所述超链接的链接信息或者切分和提取 所述超链接中的链接文字来获取与所述超链接相对应的锚文本。在浩瀚的互联网海洋中,所有的网站都是可以互通的,而把他们链接在一起的纽带就是超链接,在所 述超链接中的锚文本既可以包括一个关键词,也可以包括一句话,此时锚文本在所述超链接所在页面的作用是告知浏览者在点击该锚文本后会从当前所在页面跳转到 哪里。例如,某大学的官方网站做了一个百度主页的友情链接,其具体代码为<a href = ” http://www.baidu. com”>百度</a},那么超链接www. baidu. com的锚文本即为“百度”,当点击“百度”时就可以跳转显示百度的主页。又例如,某网页利用一句话“最好的中文搜索引擎是什么”做了一个相关链接,其具 体代码为<a href=’‘http : //www. baidu. com”>最好的中文搜索引擎是什么<}a},那么超链接www. baidu. com的锚文本即为“最好的中文搜索引擎是什么”,当点击网页中的“最好的中文搜索引擎是什么”后,当前网页可以跳转显示百度的主页。 在步骤S2中,所述分析设备用于根据所述锚文本,获取与所述锚文本相对应的锚文本相关信息。具体地,所述分析设备通过步骤Sl得到与所述超链接相对应的锚 文本后,还通过诸如计算所述锚文本与所述超链接指向页面之间的关联度来获取与所述锚文本相对应的锚文本相关信息。优选地,所述锚文本相关信息包括以下至少 任一项:所述锚文本在所述超链接指向页面的所有入链的锚文本的统计分析结果中所占比例;所述锚文本在所述超链接所在页面的所有出链的锚文本的统计分析结果 中所占比例;所述锚文本与所述超链接指向页面的关联度。以所述锚文本相关信息包括所述锚文本在所述超链接指向页面的所有入链的锚文本的统计分析结果中所占 比例来举例说明,假定所述超链接指向的页面为专门经营婴儿用品的网站主页,在该网站主页的所有入链的锚文本中绝大多数锚文本都是类似于“奶粉”、“奶 瓶”、“婴儿用品”等链接文字,而当前待确定超链接的锚文本可信度的锚文本为“科研”时,计算当前超链接的锚文本在所有入链的锚文本统计分析结果中所占比 例,例如,当前超链接的锚文本在所有入链的锚文本统计分析结果中所占比例非常低,那么所述超链接的锚文本可信度也相对较低。类似地,当所述锚文本相关信息 包括所述锚文本在所述超链接所在页面的所有出链的锚文本的统计分析结果中所占比例时,假定所述超链接所在页面为某大学的官方网站主页,在该大学官方网站主 页的所有出链的锚文本中绝大多数锚文本都是类似于“高校”、“大学”、“就业率”、“招生说明”等链接文字,将所有出链的锚文本进行统计分析,计算所述超 链接的锚文本在所述统计分析结果中所占比例。例如,若所述超链接的锚文本为婴儿用品,则该锚文本在所有出链的锚文本的统计分析结果中所占比例较低。再以所 述锚文本相关信息包括所述锚文本与所述超链接指向页面的关联度为例,当所述锚文本与所述超链接指向页面的标题之间的关联度较高时,所述超链接的锚文本可信 度相对较高;当所述锚文本与所述超链接指向页面的标题之间的关联度较低时,所述超链接的锚文本可信度相对较低。 在步骤S3中,所述分析设备用于根据所述锚文本相关信息,加权确定所述超链接的锚文本可信度。接上例,当所述锚文本相关信息包括所述锚文本在所述超链接指 向页面的所有入链的锚文本的统计分析结果中所占比例、所述锚文本在所述超链接所在页面的所有出链的锚文本的统计分析结果中所占比例以及所述锚文本与所述超 链接指向页面的关联度时,可以结合所述锚文本在所述超链接指向页面的所有入链的锚文本的统计分析结果中所占比例的第一权重、所述锚文本在所述超链接所在页 面的所有出链的锚文本的统计分析结果中所占比例的第二权重以及所述锚文本与所述超链接指向页面的关联度的第三权重,来加权确定所述超链接的锚文本可信度。 优选地,该方法还包括步骤S5(图3未示出),用于根据所述超链接指向页面,例如通过分析所述页面的网址或页面内容,当确定所述超链接指向页面为所述页面 黑名单中的页面,或所述超链接指向页面的页面内容与页面黑名单中的页面的页面内容一致或近似一致时,调整所述超链接的锚文本可信度。更优选地,所述方法还 包括更新步骤(图3未示出),用于获取作弊页面或不良页面,根据所述作弊页面或不良页面来建立或更新所述页面黑名单。 优选地,该方法还包括步骤S6(图3未示出),用于获取所述超链接指向页面更新前与更新后的相关度,并且所述步骤S3根据所述锚文本相关信息结合所述相关 度,确定所述超链接的锚文本可信度。具体地,当所述超链接指向页面进行了改版操作或者调整了页面内容后,可以计算改版前后或内容调整前后所述超链接指向页 面自身的相关度,并根据所述锚文本相关信息与所述相关度的结合,确定所述超链接的锚文本可信度。例如,在将所述锚文本相关信息与所述相关度相结合时,通过 所述超链接指向页面更新前与更新后的较高相关度,来增加所述超链接的锚文本可信度。或者,在将所述锚文本相关信息与所述相关度相结合时,通过所述超链接指 向页面更新前与更新后的较低相关度,来降低所述超链接的锚文本可信度。 优选地,该方法还包括步骤S7(图3未示出),用于根据用户通过用户设备输入的查询序列,获取与所述查询序列相对应的超链接,并且所述步骤Sl根据所述超 链接,获取与所述超链接相对应的锚文本,以及所述方法还包括排序步骤(图3未示出),用于根据所述超链接的锚文本与所述查询序列的内容相关度,并结合所述 锚文本可信度,对与所述超链接对应的搜索结果进行排序。具体地,首先获取所述超链接的锚文本与所述查询序列的内容相关度,再根据所述锚文本可信度来调整所 述查询序列与所述超链接指向页面之间的相关度,最后使用基于所述锚文本可信度修正后的相关度结合所述超链接指向页面的标题和/或正文等其他内容信息得出综 合的相关性权值,并根据所述相关性权值对与所述超链接相对应的搜索结果进行排序。在一优选实施例中,搜索引擎在计算所述查询序列与所述超链接指向页面的基 础相关性权值时,首先利用本发明的锚文本可信度来调整所述超链接的锚文本与所述查询序列的内容相关度,并结合所述超链接指向页面的标题和正文的内容信息得 出综合的相关性权值。由此可知,将本发明中用于确定超链接的锚文本可信度的分析设备应用到搜索引擎领域,可以精确地检测诸如作弊超链的虚假锚文本、过期超 链的失效锚文本,从而调整基于所述虚假锚文本和失效锚文本的页面权威度和排名,进而提升搜索引擎搜索结果的排序质量。 优选地,该方法还包括分配步骤(图3未示出),用于根据所述锚文本可信度,将所述超链接所在页面的权威值分配给所述超链接所在页面的出链。具体地,所述超 链接所在页面包括一个或多个锚文本,而这些锚文本分别对应于所述超链接所在页面的出链,根据超链接的锚文本可信度,可以将所述超链接所在页面的权威值分配 给所述超链接所在页面的出链。优选地,该方法还包括步骤S8(图3未示出),用于根据下述关系式,调整所述超链接的锚文本可信度Ci=λ× Ci-1+(1-λ)× Cu其中,Cu为第i时刻未经调整的锚文本可信度,ci为第i-i时刻所述超链接的锚文本可信度,λ为 0至i之间的修正因子。具体地,由于所述超链接指向页面的内容在短时间内可能会有不可预期的变化,例如所述超链接指向页面突然改版或进行常规维护而无法访 问,为修正所述不可预期的变化,以减少锚文本可信度的波动,从而提高搜索结果排序的计算效率与稳定性。例如,所述步骤S8根据所述步骤S3所确定的第i时 刻的锚文本可信度C,第i-1时刻所述超链接的锚文本可信度Ci一1,,并根据公式Ci=λ× Ci-1+(1-λ)× Cu进 行调整,以获得所述超链接的锚文本可信度Ci,其中,h为0至1之间的修正因子。例如,假设所述步骤S3所确定的第1时刻的锚文本可信度C。为。.8,第 1-1时刻所述超链接的锚文本可信度Ci,为0. 6,假设入取。.25,则通过计算,所述超链接的锚文本可信度C,为0. 75。上述数值仅为优选地描述,技术人员应能根据实际情况和需求确定上述数值。 图4示出依据本发明一优选实施例的用于确定超链接的锚文本可信度的流程图。其中,用于确定所述超链接的锚文本可信度的分析设备包括但不限于,单个网络服务 器、多个网络服务器集、基于云计算的计算机集合等,其中,云计算是分布式计算的一种,由一群松散祸合的计算机集组成的一个超级虚拟计算机。为便于更好地描 述本发明,步骤S1′-S3’分别与图3所示的步骤Sl-S3对应,故此处不再赘述,仅通过引用的方式包含于图3所描述的优选实施例。 步骤S4’与上述步骤S2’可由分析设备并行地加以执行。在步骤S4’,该方法用于获取与所述超链接相对应的超链接相关信息,并且所述步骤S3’还用于根 据所述锚文本相关信息,结合所述超链接相关信息,确定所述超链接的锚文本可信度。优选地,所述超链接相关信息包括以下至少任一项:所述超链接的产生时间; 所述超链接的位置;所述超链接在所述超链接指向页面的所有入链的统计分析结果中所占比例;所述超链接在所述超链接所在页面的所有出链的统计分析结果中所占 比例。以所述超链接相关信息包括所述超链接的产生时间为例,当所述超链接与所述超链接指向页面之间的链接期限为to年,而超链接的产生时间为距离现在的时 间间隔为to年以上时,根据超链接的产生时间可以确定所述超链接为过期超链接。类似地,当所述超链接位于反映所述超链接指向页面的主要内容的定语部分时, 根据超链接的位置可以确定所述超链接与所述超链接指向页面的关联度。再例如,所述超链接指向的页面为专门经营婴儿用品的网站主页,在该网站主页的所有入链 中绝大多数超链接都是类似于“奶粉”、“奶瓶”、“婴儿用品”等链接信息,而当前待确定超链接的锚文本可信度的超链接为“科研”时,计算当前超链接在所有 入链统计分析结果中所占比例,例如,当前超链接在所有入链统计分析结果中所占比例非常低,然后与通过上述步骤S2’获取的锚文本相关信息相结合,以通过上 述步骤S3’来确定超链接的锚文本可信度。 类似地,当所述超链接相关信息包括所述超链接在所述超链接所在页面的所有出链的统计分析结果中所占比例时,假定 所述超链接所在的页面为应届大学毕业生的就业信息公共平台主页,在该就业信息公共平台主页的所有出链中绝大多数超链接都是包含 “electronic”,”computer”,”research”,”company”等字符的超链接,将所有出链进行统计分析,计算所述超链接在 所述统计分析结果中所占比例,根据比例数值来获取所述超链接相关信息。例如,若所述超链接指向的页面旨在提供婴儿用品相关服务,则该超链接在所述超链接所 在页面的所有出链的统计分析结果中所占比例较低,相应地,将所述超链接相关信息与锚文本相关信息相结合,例如,将与所述超链接相关信息对应的超链接比例数 值结合与所述锚文本相关信息对应的锚文本比例数值,通过上述步骤S3’来确定基于所述超链接相关信息和所述锚文本相关信息的超链接的锚文本可信度。 优选地,在结合上述图4所描述的实施例的基础上,该方法还包括步骤S6′(图4未示出),用于获取所述超链接指向页面更新前与更新后的相关度,并且所述步 骤S3’还用于根据所述锚文本相关信息结合所述相关度,确定所述超链接的锚文本可信度。具体地,当所述超链接指向页面进行了改版操作或者调整了页面内容 后,可以计算改版前后或内容调整前后所述超链接指向页面自身的相关度,并根据所述锚文本相关信息与所述相关度的结合,确定所述超链接的锚文本可信度。例 如,在将所述锚文本相关信息与所述相关度相结合时,通过所述超链接指向页面更新前与更新后的较高相关度,来增加所述超链接的锚文本可信度。或者,在将所述 锚文本相关信息与所述相关度相结合时,通过所述超链接指向页面更新前与更新后的较低相关度,来降低所述超链接的锚文本可信度。 优选地,在结合上述图4所描述的实施例的基础上,该方法还包括步骤S7′(图4未示出),用于根据用户通过用户设备输入的查询序列,获取与所述查询序列相 对应的超链接,并且所述步骤Sl’还用于根据所述超链接,获取与所述超链接相对应的锚文本,以及该方法还包括排序步骤(图4未示出),用于根据所述超链接 的锚文本与所述查询序列的内容相关度,并结合所述锚文本可信度,对与所述超链接对应的搜索结果进行排序。具体地,首先获取所述超链接的锚文本与所述查询序 列的内容相关度,再根据所述锚文本可信度来调整所述查询序列与所述超链接指向页面之间的相关度,最后使用基于所述锚文本可信度修正后的相关度结合所述超链 接指向页面的标题和/或正文等其他内容信息得出综合的相关性权值,并根据所述相关性权值对与所述超链接相对应的搜索结果进行排序。 在一优选实施例中,搜索 引擎在计算所述查询序列与所述超链接指向页面的基础相关性权值时,首先利用本发明的锚文本可信度来调整所述超链接的锚文本与所述查询序列的内容相关度,并 结合所述超链接指向页面的标题和正文的内容信息得出综合的相关性权值。由此可知用于确定超链接的锚文本可信度的分析设备应用到搜索引擎领域,可以精确地检 测诸如作弊超链的虚假锚文本、过期超链的失效锚文本,从而调整基于所述虚假锚文本和失效锚文本的页面权威度和排名,进而提升搜索引擎搜索结果的排序质量。 优选地,在结合上述图4所描述的实施例的基础上,该方法还包括分配步骤(图4未示出),用于根据所述锚文本可信度,将所述超链接所在页面的权威值分配给所 述超链接所在页面的出链。具体地,所述超链接所在页面包括一个或多个锚文本,而这些锚文本分别对应于所述超链接所在页面的出链,根据本发明的超链接的锚文 本可信度,可以将所述超链接所在页面的权威值分配给所述超链接所在页面的出链。优选地,在结合上述图4所描述的实施例的基础上,该方法还包括步骤 S8′(图4未示出),用于根据下述关系式,调整所述超链接的锚文本可信度Ci=λ× Ci-1+(1-λ)× Cu其中,Cu为第i时刻未经调整的锚文本可信度,ci为第i-i时刻所述超链接的锚文本可信度,λ为 0至i之间的修正因子。具体地,由于所述超链接指向页面的内容在短时间内可能会有不可预期的变化,例如所述超链接指向页面突然改版或进行常规维护而无法访 问,为修正所述不可预期的变化,以减少锚文本可信度的波动,从而提高搜索结果排序的计算效率与稳定性。例如,所述步骤S8’根据所述步骤S3’所确定的第 1时刻的锚文本可信度C,第i-1时刻所述超链接的锚文本可信度Ci一1,并根据公式Ci=λ× Ci-1+(1-λ)× Cu进 行调整,以获得所述超链接的锚文本可信度Ci,其中,入为0至1之间的修正因子。例如,假设所述步骤S3’所确定的第i时刻的锚文本可信度C。为0. 8,第i-1时刻所述超链接的锚文本可信度Ci,为0. 6,假设入取0. 25,则通过计算,所述超链接的锚文本可信度C,为0. 75。上述数值仅为优选地描述方案,技术人员应能根据实际情况和需求确定上述数值。 |