很久之前听说有SEO工程师这一职位,据说能把新站在半个月内把某个关键词做到首页(当然不是热门词),这几年一直很好奇,自从写博客开始也一直在寻找优化搜索引擎的方案,但是苦于google上面这方面的资料非常少,直到我看到数学之美这本书,想要提升网站的排名最好的方法还是要从了解搜索引擎的原理,知己知彼方能百战百胜.

搜索引擎是如何判断网页与关键词的相关性的

当用户在搜索引擎中搜索人工智能的时候,与这个关键词相关性最高的网页会被列到最前面.那么搜索引擎是如何度量一个文章与关键词相关性的呢?

这里要引入一个新的概念-关键词权重的度量方法TF-IDF,比如一篇文章共有1000词,其中"人工智能"出现2次,"线性代数"出现15次,"算法"出现10次,那么他们的词频分别是0.002,0.015和0.010.词频越大说明该词和文章主题越相关.搜索引擎就是根据词频来判断网页和关键词相关性的.

当然实际情况的处理要复杂的多,当有多个关键词的时候,更"专业"的词对权重的贡献应该比"大众"的词对权重的贡献高,停止词(类似"是",“的”,"和"的语气词)的权重应当为0.

假定一个关键词w在D个网页中出现过,那么D越大,w权重越大,反之亦然,它的公式为

权重IDF = log(Q/D)

其中Q指全部的网页数.假如中文网页数为10亿,专用词"线性代数"在200万个网页中出现,那么它的权重为

IDF = log(10亿/200万) = 8.98

又假定通用词"应用"出现在5亿网页中,那么它的权重

IDF = log(10亿/5亿) = 1

也就是说,在一个网页中找"线性代数"的命中率相当于找的9个"应用"的命中率.所以网页的权重为

TF1*IDF1+TF2*IDF2+......+TFn*IDFn

搜索引擎是如何判断网页质量的

决定网页排名的因素比较多,这里介绍一个比较重要的因素-指向这个网页的连接数.打个比方,这就像是选举的时候大家的投票表决,如果一个网页被很多其他网页所连接,说明他受到普遍的承认和信赖,那么它的排名就高.当然,权重大的网页的连接比权重低的网页的连接要重要,这就好比拥有20%表决权的股东和拥有1%表决权的股东对结果的影响力不同一样.

正是由于外链的多少决定网站的质量,所以诞生了很多作弊网站,以贩卖链接牟利.短期来看购买连接确实可以使网站排名得到提升,不过这些作弊网站一般需要互相连接,以提高自己网站的排名,这样在这些作弊网站就会形成一张图.作弊网站做大了之后很容易被发现,如果被发现之后,那么搜索引擎会恢复网站原有的排名,甚至因为信誉问题导致排名降低,购买连接的网站会发现之前工作都是徒劳的.所以我们应该和贩卖连接的网站划清界限.

另外,搜索引擎还会根据网页中"提及"及"引用"来判断文章的权威.比如当我们在谈论"吸烟危害"这个主题时,提及了"世界卫生组织".如果在各类新闻,学术论文,或者其他网络信息中谈论"吸烟危害"这个主题时,"世界卫生组织"多次被提及,那么我们有理由相信"世界卫生组织"是这个主题的权威机构.所以我们在写文章的时候可以把参考的权威文章注在网页下方,这样不仅可以以帮助对方提高外链的形式以表感谢,还可以增加文章的权威性.

搜索引擎是如何判断抄袭和原创的

判断两篇文章是否一样的方法非常简单,只要把文章内容md5一下,比较是否一样就可以了.当然更好的办法是用随机函数将文章内容转换成较短的整数,只要随机函数足够好就能保证所有文章的随机数不会重复,这样存储和比较效率都比较高.

你可能会说了,哪里有那么傻原封不动的抄,不会做一些修改啊.其实比较两个文章是否相同也不是整个文章比较的,而是随机抽取几段或是几句进行比较的,如果随机抽取的几句有很大部分是相同的,那么也可以判断整篇文章大概率也是相同的了.这种方法也被用在视频处理上,判断两个视频是否相同不必比较整个视频,而是随机抽取几帧进行比较即可.

还有一种更为有效的确认文章相似度的方法是相似哈希.相似哈希使用文章中的TF-IDF词频权重生成哈希值,其特点是如果文章越相似,那么他们的哈希值的差越小.如果两个网页只有少数权重低的词不同,其余都相同,几乎可以肯定他们的相似哈希也相同.搜索引擎会通过相似哈希判断如果相似的网页已经被记录过,就不会再建立索引了.

posted @ 2018-06-03 11:50:36
评论加载中...

发表评论