本文主要是介绍BM25公式,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
其中q、d、C分别表示查询、文档和文档集合,|q|和|d|分别是查询q和文档d的长度,avdl是文档集合中文档的平均长度。w表示特征词项(Term),c(w,d)和c(w,q)分别表示w出现在d和q中的个数,N是文档集合中的文档总数,df(w)表示出现w的文档个数。p(w|C)表示C中出现w的概率。公式中的k1,k3,b,都是人工经验调节的参数。
BM25模型是一个经验启发式模型,存在着巨大的鲁棒性问题,具体表现在:
(1) 这些模型有需要人工经验调节的参数。同一模型在面对同一查询、同一文档集的情况下,不同的参数其取值结果性能相差较大;
(2) 如果参数不变,同一模型对同一查询,在不同的文档集上结果也会性能相差很大;
(3) 同一模型对不同查询,同一组参数,同一文档集合上的结果性能也会相差很大。
这篇关于BM25公式的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!