CODE4FUN
TF-IDF概念

TF-IDF (term frequency–inverse document frequency)也称为词汇频率/逆向文档频率. 是一种常用加权技术, 常用于评估一歌词对于一个文档集或一个语料库中的其中一份文档的重要程度.

TF-IDF的主要思想是: 词的重要性随着它在文档中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降.

TF指的是某一个给定的词语在该文档中出现的频率.
IDF指的是逆向文档频率, 是一个词语普遍重要性的度量. 可以由总文档数目除以包含该词语之文件的数目获得.
TF-IDF由TF乘以IDF获得.

一篇文件的总词语数是100个,而词语“母牛”出现了3次,那么“母牛”一词在该文件中的词频就是 0.03 (3100)。一个计算文件频率(DF) 的方法是测定有多少份文件出现过“母牛”一词,然后除以文件集里包含的文件总数。所以,如果“母牛”一词在1,000份文件出现过,而文件总数是 10,000,000份的话,其文件频率就是 0.0001 (100010,000,000)。最后,TF-IDF分数就可以由计算词频除以文件频率而得到。以上面的例子来说,“母牛”一词在该文件集的TF- IDF分数会是 (3/100) * (1000/10,000,000) = 300

另一种形式是将文档频率取对数, 即 (3/100) * log(10,000,000 / 1,000) = 0.12

详细见 http://zh.wikipedia.org/wiki/TF-IDF