#引用 ##LaTex @INPROCEEDINGS{6417479, author={D. Banerjee and Jiang Li and Jia Di and D. R. Thompson}, booktitle={7th International Conference on Communications and Networking in China}, title={Featur
#引用 ##LaTex @ARTICLE{4067093, author={Z. Zhu and Y. S. Ong and M. Dash}, journal={IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics)}, title={Wrapper ndash;Filter Feature Selec
#引用 ##LaTex @inproceedings{Zhu:2007:MAF:1418707.1418870, author = {Zhu, Zexuan and Ong, Yew-Soon}, title = {Memetic Algorithms for Feature Selection on Microarray Data}, booktitle = {Proceedings of
面试中被问到的一个问题,如何对文本划分类别?我提出用bag of words进行分类,但是词汇的数量比较大,特征维度比较高,涉及到特征选择的问题,我的回答是用图像中常见的LDA,PCA特征降维,但是翻看NLP相关的文献才知道一般是采用互信息,卡方统计量和词频分析。 互信息与信息增益是等价的。 把文档分成体育、游戏、娱乐这三类的例子中,如果一个单词在三类文档中出现的概率相同,那么这个单词对分类无