整理了下搜索引擎原理知识,许多涉及到具体算法的地方很深奥,不知道该怎样向不了解搜索引擎的人去传播知识。我编了几个通俗的案例去讲,不知各位能否看懂,若是看不明白,有没有更好的简介方式。正确的理解什么是营口网站SEO优化合理的运维自己的公司网站
1。关键词
与关键词有联系的几个原理,像HITS,齐普夫定律,向量空间模型,TF/IDF等。
每个关键词的权重是通过数学公式与语义库、网页库等结合算出来的。
堆砌关键词的权重不是1+1=2,而是2>权重>1的一个动态数值,采取向量的夹角余弦公式cos=(ab)/(|a||b|),再加上搜索引擎对堆砌关键词的anti-spam算法,和现在主流的seo观点相悖。
2。搜索引擎爬虫
搜索引擎蜘蛛的爬行方式与中国古代商朝的王位继承制度相似,下面是维基百科的介绍。
商代政权由子姓王族所掌握,王族分为两组,一组谥称以甲乙为主,一组谥称以丁为主,两组互相通婚,轮流继位执政。王位多传于另一组的下辈,有时也传于同组内的同辈。王位以此互传的方式,从而在两组之间祖孙隔代继承。
3。更新网站
斯坦福大学的2名研究者在2000年得出结论是网页存在半衰期,接近泊松分布,所以1个网站长期不更新,搜索引擎爬虫也会依据泊松分布,逐渐减少抓取次数。
4。关键词密度
分词实现源自20世纪的詹姆斯·乔伊斯一本天书《尤利西斯》,在这本书的1章,没有1个标点符号,于是有位哈佛大学语言学家齐普夫专攻此书,把书里所有单词全部统计出来,计算词频,发现了《尤利西斯》包含n个词,将这些词按其出现的频次递减地排序,那么序号r和其出现频次f之积fr,将近似地为一个常数,即fr=b,(式中r=1,2,3。…),又以其他名著验证,结论非常近似。后来搜索引擎引进了这一定律,给每个词库中的每个关键词按照总词频给以一定权重,低频词的权重较高,高频词的权重较低,所谓的关键词密度亦是据此,长尾词在文章中往往有较高的权重,重复出现关键词,可以提高关键词在页面中的权重。
5。图片
网页中的图片抓取不是一般抓取网页的蜘蛛来抓的,而是由专门的抓取图片的爬虫负责。靠其他网页上的超链接,alt属性,网页标题,以及图片说明来确定这张图片是什么画面。
6。外链广泛度
互联网模型是链接拓扑结构,即缎带形状。不论传统的互联网亦或社交网络,都是如此。搜索引擎通常从拓扑结构的左侧开始向右单向爬行抓取。
最左边的是历史悠久的导航网站,之后是大型门户网站,中间最密集的是中小型门户网站,网站,右端是seo常接触的企业网站,自媒体,草根站长。seoer经常说外链为皇,就是因为seo接手的网站往往处在互联网拓扑结构的右端末尾,从导航站开始,大量的外链可以提高搜索引擎爬虫抓取目标页的次数。
不明觉厉+1,哎特别是那些不懂优化的后勤人员,在应聘我的时候,叫我说,什么是SEO?什么是SEM?SEO排名原理?等等!!!问的我无言以对啊。我说这,她说那。我说那,她说这。没有共同语言,你叫我怎么给她说。
数学系毕业的人表示:
原来还有这一出,哈哈~
我跟不熟悉的人介绍的时候,就跟他们说:
百度定了一套搜索的游戏规则,我们把网站按照这个游戏规则整理整理,
百度给你放在搜索结果的前几个。
怎样给不懂搜索引擎的人讲搜索引擎原理?
首先分析对方的文化程度,接触互联网时间,对互联网了解程度。
其次通过简单的白话叙述搜索引擎远离及每个名词在白话中的意义。要让他知道搜索引擎是什么,都有那些,排名怎么看。
再次深入描述原理,一点点的引入,是不要用官方语言,白话更容易理解。