营销知识
您的位置:主页 > 营销知识 >

狗小云SEO引擎算法研究1(TF-IDF 值判断,关键词重要性)

网站编辑:红莲 │ 发表时间:2012-03-12 21:01 | 文章标签:SEO,搜索引擎算法研究

 引用网络解释

TF-IDF(term frequency–inverse document frequency)是一种统计方法,用于评估一个词对N篇文章或一个语料库中其中一篇文章的重要性。一个词在一篇文章中出现的次数并不能表明该词的重要性,例如“我们”,“的”这种常见词,我们需要TF-IDF统计方法。词的重要度随着它在一篇文章中出现的次数成正比增加,但同时会随着它在N篇文章(文章集合)中出现的频率成反比下降。在一篇给定的文章中,词频(term frequency, TF)指的是该文章中某个词出现的次数除以该文章的总词数。逆向文档频率(inverse document frequency, IDF)是一个词普遍重要性的度量,某一特定词的IDF值,用总文件数除以包含该词的文章数量,再将得到的商取对数(log)。计算公式:IDF = log(D/Dt),D为文章总数,Dt为该词出现的文章数量。

TF-IDF值 = TF值 *  IDF值

假如测试语料库中共有1000篇文章,其中一篇文章共分得100个词,其中“互联网”一词出现了5次,那么“互联网”一词在该文章中的TF值(词频)就是 5/100 = 0.05。如果“互联网”一词共出现在200篇文章中,那么该词的IDF值 log(1000/200)  = 2.12,该词的TF-IDF值  0.05 * 2.12 = 0.106再举一个常用词例子,假如“我们”在该篇文章中出现了30次,该文章共分得100个词,那么该词的词频为 30/100 = 0.3。如果“我们”一共出现在了900篇文章中,那么该词的IDF值 log(1000/900)  = 0.1,该词的TF-IDF值 0.3 * 0.1 = 0.03。由于“互联网”一词的TF-IDF值比“我们”要大,所以我们认为““互联网”一词的重要度要高于“我们”。 

 
 学生分析作业(一)
 
 
TF-IDF线性图是由天津-狗小云(QQ455873983)先生经过长时间的分析研究TF-IDF理论加上多年SEO优化经验,总结出一套自己的优化理念,再经过曱甴(QQ914719979)先生的简化系统的分析拆解,终于做出了用于SEO体系的TF-IDF线性图,从图中可以充分的体现TF-IDF理论,并且在其SEO优化方面打开了对新人SEO无法着手优化更甚古老的优化方式的尴尬局面。
 
其中引入了二维空间和三维空间的迁力拉扯问题,同时在TF-IDF线性图中我们可以充分看出其三维空间的牵扯力大到一定程度足以制约二维空间的平衡,而搜索引擎就是这个二维空间的模型(更大的延展性的扩展)。红色线条代表词语的权重渐变,而零介值可以看定为优化过度的表现。而绿色箭头、粉色箭头所代表的TF体系中最好不易于察觉的三维空间的外因,其更复杂的可以说是自身的牵引力和外在的拉扯力的一种平衡。而搜索引擎励志的目标正式这个平衡。
  

 

图片

 

TF-IDF线性图原理:适用于SEO职业体系,这将是改变现状SEO高不找低不就的尴尬局面。
 
首先我们看到这是一个二维空间的立体图,其黑线的交叉代表一个二维空间体系中的一个缩影,从X,Y轴也可以看出,那么中间的红色的曲线类似于抛物线一般的线条,其实就代表着任何词汇在搜索引擎中的权重的递增和递减的关系,我们就假设这是一个页面,而抛物线的递增则说明任何一个词的重要度随着它在一篇文章中出现的次数成正比增加,而零界点右边下降的部分则代表,随着这个词在N篇文章(文章集合)中出现的频率成反比下降。而做SEO做的就是这个零界点,谁把这个词汇做的更接近于TF零界点,那么他做的这个词的权重排名就会相对考前。而这个曲线的零界点的高低则代表了这个词的欢迎度,在指数上的那个数字我想你们应该懂了吧,虽然那个指数并非此TF零界点的数值,但是他确实反映了其词汇零界点的高低和一段时期的人们关注重心。
  
而其随着TF零界点的高低不同,则反映出来一个非常其它的规律,那就是,TF零界点越低,其曲线的倾斜度越区域平缓,也就更好达到零界值,从而获得好的排名,而反之则相反,所以出成绩的一般都是现寻求零界值的高低。我们也不难看出,图中还有两个三维空间的箭头,一个粉红色的代表 入,一个绿色的代表 出 。入 和 出 我们可以广义的理解为任何页面的权重流失度,一个页面肯定会有一个中心词,而入和出你们可以理解为输出和输入,当其入多而出少的时候,则权重更高,而这个值则是附加值,也就是说,入 和 出 是两个不存在于二维空间但是又同时影响着二维空间的物质 从表现上看 属于三维空间物质,入 你们大家可以简单的理解为词的指向链接,而 出 你们可以简单的理解为其他词汇的指出链接。
 
所以,当入的值>=TF零界点的最高值的时候,那么其就影响到了整体词本身的优化效果,无论大家关注的如何波动,你的数值永远》=零界点的值,这就好比是一种作弊一般。但是我们无能为力,除非你把二维空间与三维空间隔断,叫他们彻底无联系。也就是现阶段人们理解的真空世界。当人和空气隔开的时候,人将无法生存。
 
而从狭义的角度来讲则入和出则代表内部循环的一种模式,入则代表自身内部的指向,无论是平级之间还是上下级之间,别的页面指向了你,那么就相当于给你了权重,哪怕是0,也是给了你0分,而出则代表你本身给出的权重,所以其距离就显而易见的重要了,对于广义而言距离永远是1,而对于狭义来讲则最短为1,最长则为无限大,无限大则是我们所不愿意看到的,而1的距离又是我们想的而不长有的情况,因为联系,我们知道TF-IDF线性图是基于TF-IDF原理延伸出来的,二位空间仅仅展现的是局部,当我们无限制放大的同时,我们发现了问题,那就是入 出 先得颇为繁杂,甚至有些成为了网状蜘蛛,而抛物线与抛物线则为出现点点加错的节点,而当节点出现波动,我们不难想象,波动所代表的亮条曲线都将收到影响,这个是我们所不能接受的,但是我们无法避免,因为理想状态是不存在的。
 
而一个曲线收到影响,则连带这曲线上的节点也为波动,如此下去只会影响二维平面,而作为三维空间出现的入 和出 则显得不受影响,影响的仅仅是零界点的高低而已,正如蚂蚁推大象前进一般,无奈。举个简单的例子,SEO新人都喜欢交换链接其实走的就是三维空间的入和出的策略,而友情链接则更是1换1,但是从表面上看其数值一样,但是其所代表的分值则不一样,而其收到的影响也不会一样,因为入和出是所属两个不同的三维空间。
 
但是你们要记住,三维空间的毕竟不是二维空间,其只有本事TF值高了才能算作是国士无双,如果刻意去追求外在条件的增幅,我想当三维空间的物质一下子消失掉,我想TF值将变得不堪一击。而随着搜索引擎的提升,你们觉得搜索引擎会如何对待这个三维空间的BUG呢?其实TF-IDF线性图可以分析出更多的东西,甚至是人生、事业、爱情、可以堪称中国SEO历史上的一个奇葩,不信你们自己好好研究研究。
 
                                                                                                                          
 
 点评:没想到一次分享,居然发现一个真么用心的同学,我通俗的解释下上面的意思,这就像有一个,一个很宇宙,几千个不同的轨道上,一个星球,与星球的引力牵引,有相关作用,每个星球有5大属性,金。木。水。火。土,他们的属性,强弱不同,有个水元素强一些,但是火元素弱,有的金元素强一些,土元素也强,但是水元素弱。
 
  这个时候,有一个滑轨一样的天道法则,他在宇宙的不同位置的滑动,决定 金。木。水。火。土 的权重分配,当滑动到不同位置, 天道法则决定了这个星域的,5大属性强弱,决定了,哪个星球引力更强,谁牵制谁。
 
  本算法已经利用在了实战上,效果明显,涉及到商业利益,只公布理论,不公开具体实际操作。  

扫描二维码分享到微信

在线咨询
联系电话

15929322171