tf-idf

tf と idf

  • tf は同一ドキュメント内で対象となる単語が現れる頻度。
  • idf は全ドキュメントの中で対象となる単語を保持しているドキュメントの割合の逆数の対数


tf-idf は tf * idf である。tf-idf が大きい値になるのは

  • その単語が対象ドキュメント中に頻繁に現れる
  • 全ドキュメントの中でその単語を含むドキュメントが少ない

がそろったとき。つまり対象となる単語がそのドキュメントの特徴語である場合。