pm25专题

文本相关性PM25算法

1.       BM25算法 BM25是二元独立模型的扩展,其得分函数有很多形式,最普通的形式如下:   ∑    其中,k1,k2,K均为经验设置的参数,fi是词项在文档中的频率,qfi是词项在查询中的频率。 K1通常为1.2,k2通常为0-1000 K的形式较为复杂   K=   上式中,dl表示文档的长度,avdl表示文档的平均长度,b通常取0