TF-IDF关键词加权算法(TF-IDF算法)

未知 次数

TF-IDF关键词加权算法(TF-IDF算法)

我们今天要说的是TF-IDF的关键词加权算法,它是一种很早之前的算法,类似于当前的关键词密集算法,不过它肯定是经过了改良的,我们的TF-IDF是从过去的一种衍生出来关键词加权算法的,而且很难掌握,我会把自己的研究成果融入到本文中,让它变得简单易学,而且还有很多细节需要完善,让初学者可以更好的了解!

许多人都会问,这个关键词加权算法还是最早的,对搜索引擎优化有没有实用价值?不过你们要知道,百度目前的排名可是多维度的,这只是一个小的数据,不用着急,我们会给你们详细的解释!

TF-IDF是什么意思?

TF则为:关键词频率,当前关键词在整篇文章(分词)词库中的占比!

IDF则为:逆向文件频率/正向文件频率,逆向文件频率主要用于在分词中,消除一些关键词的辅助词,例如“的、是、怎么”这类辅助词,正向文件频率则为你当前包含关键词的文章数量占据总网站文章数量的总占比或者说频率。

TF-IDF:即用TF关键词频率乘以IDF逆向/正向文件频率,而得出的一个综合值,后面说详细用处!

如何求TF词频?

这个是非常简单的,公式为:TF=W/D;

W=这篇文章分词后所包含当前关键词的数量;

D=这篇文章分词后所有词汇的数量!

TF=当前关键词,在页面中出现的频率,称为词频!

举例:一篇文章分词后,有100组词,其中SEO出现10词,那么套入公式10/100=0.1当前的词频是0.1。

这里注意:关键词密度与词频还是有一点区别的。

关键词密度=关键词出现次数x关键词字数/文章总字数(不含标题)x100%,虽然意思有点差不多,但是不要搞混这两者的关系!

如何求IDF逆向/正向文件频率?

逆向文件频率=总文章数/包含关键词的文章

正向文件频率=包含关键词的文章/总文章数

举例:你网站中总共有100篇文章,其中包含SEO的文章有10篇,我们带入公式。

逆向文件频率=100/10=10;

正向文件频率=10/100=0.1;

TF-IDF值怎么求那?

非常简单了,TF-IDF即是TF乘以IDF,我们直接套用上面的案例数据!

逆向TF-IDF=0.1*10=1;

正向TF-IDF=0.1*0.1=0.01;

下面我们来讲解一下TF-IDF的实际应用!

TF词频越高相关性越好(排名也就越好)

我们想一下,如果当前页面的关键词数量越多,是不是证明词频越大,词频越大是不是证明页面相关度越好,当然相关排名就会比较高,这个算法引用于“关键词密度”算法,正常保持在2%-8%之间就可以了!

TF词频可以提取页面重点关键词

我们通常都会进行优化,在文章中的tag聚合标签和页面关键词很重要,搜索引擎可以通过关键词来了解,我们的主页内容,同时tag聚合标签如果定位准确,可以对我们的文章进行分类,这样才能更好的给用户提供更好的分类,一般来说,我们对tag和网页关键词的定义都是错误的,假设一个关键词在目前的文章中出现的频率最高,是不是代表着我们的核心关键词?那是自然!

怎么用TF的频率找到那个核心词?其实网上也有一些工具,我们只需要百度上的“TF-IDF分词工具”,就可以把这篇文章拷贝到里面,然后点击“分词”,在右侧,就会出现高-低的频率,我们只需要从最多的部分中抽取出最多的!

TF词频可以被用来找到更精确的相关文章

在网页设计中,一般都是推荐文章和相关文章,吸引用户点击,你是不是觉得,文章的内容越准确,点击率就越高?百度用户点击率越高,就能得到一些优惠,得分也会提高!一般的CMS网站,都会使用标题识别技术来推荐,但这种方式并不准确,比如SEO内页优化,SEO外链优化等,都是SEO,但如果内容不够准确,那么点击率就会下降!

利用TF-IDF查找相关文章的方法原则简单,准确度极高,这里介绍一个,TF-IDF将会自动抽取出全部文章的TF频率,然后将每一篇文章的最多20个关键词进行比较,当符合率超过10个时,就可以作为推荐文章。

这样的话,文章的相关性就会达到90%,可以说是相当准确了。

IDF逆向文件频率主要用于过滤噪音词

IDF的反向文件频率主要是用来去除辅助字,我举例说“seo优化”,用TF-IDF做分词时,会看到“seo,优化,方法”辅助字“的”已经不见了,TF-IDF的反向文件频率就是去掉了辅助字,也就是“噪声”,(具体的我就不多说了,直接用软件就可以了,没必要去学习,只会增加你的学习难度,最重要的是,这个不是重点)!

TF字频*IDF正向文件频率是排名的关键点!

这一点很重要,一个关键词的TF频率越高,网站上的文章也就越多,排名也就越高。

这边举一个例子:首页所有的文字通过分词后,变成了1000个词组“seo”在这个词组中更出现了100次,TF频率就为:100/1000=0.1;

如果你的网站中有1000篇文章,有100篇文章包括了这个关键词,正向IDF频率就是:100/1000=0.1;

那么当前的TF-IDF:0.1*0.1=0.01;

在举第二个例子:首页分词后,变成1000个词组“基础知识”在词组中共出现了120词,TF频率为:120/1000=0.12;

同样,如果网站中有1000篇文章,有120篇文章包含了这个关键词,正向IDF频率就是:120/1000=0.12;

那么当前的TF-IDF:0.12*0.12=0.0144;

“seo”的TF-IDF是:0.01,而“基础知识”的TF-IDF是:0.0144,很显然本站关键词“基础知识”排名要高于关键词“seo”!

同样的,你和你的竞争者相比,你的TF-IDF值比你的竞争者要低,所以,提高TF-IDF值可以有效地提高我们的排名!

我们的主要思想就是提高TF词频和IDF的正向文件频率,这样可以提高排名,而且大家可以通过这几个方面的教程培训,价格非常优惠,课程通俗易懂,零基础的朋友都可以参与,而且我们还提供了一个免费的售后服务,让你在很短的时间内完成网站的搭建、关键词排名-》项目包装等这一些列的教程培训,价格非常优惠,课程通俗易懂,零基础的朋友都可以参与!