本文主要是介绍yh-hw,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
1 为什么选择各项指标的加权值
因为训练样本分布不均,2700+的数据行中,1700左右的样本是neutral,而加权平均考虑了每个类别的样本数量,将每个类别的指标与其样本数量相乘,然后求和后除以总样本数。这种方法使得样本量大的类别对总体评估指标有更大的影响
2 分析
根据提供的统计数据,我们可以比较逻辑回归、随机森林和CNN模型的性能。下面是各个模型的表现分析:
性能比较
-
逻辑回归
- Accuracy: 0.68
- Weighted Avg Precision: 0.71
- Weighted Avg Recall: 0.68
- Weighted Avg F1-Score: 0.63
-
随机森林(n_estimators=100,最佳表现)
- Accuracy: 0.72
- Weighted Avg Precision: 0.75
- Weighted Avg Recall: 0.72
- Weighted Avg F1-Score: 0.68
-
CNN
- Accuracy: 0.55
- Weighted Avg Precision: 0.30
- Weighted Avg Recall: 0.55
- Weighted Avg F1-Score: 0.39
分析
- 最高准确率:随机森林模型在所有设置中表现最优(尤其是
n_estimators=100
和n_estimators=300
时),提供了最高的准确率(0.72)。 - Precision和Recall平衡:随机森林(
n_estimators=100
)不仅准确率最高,其Precision(0.75)和Recall(0.72)也是三种模型中最平衡且最高的。 - F1-Score:随机森林在F1-Score上同样优于其他模型,其中
n_estimators=100
的设置达到了0.68,这表明它在Precision和Recall之间取得了良好的平衡。
表格化比较
下表总结了上述统计数据,便于直观比较:
Model/Stats | Accuracy | Weighted Precision | Weighted Recall | Weighted F1-Score |
---|---|---|---|---|
Logistic Regression | 0.68 | 0.71 | 0.68 | 0.63 |
Random Forest (100) | 0.72 | 0.75 | 0.72 | 0.68 |
CNN | 0.55 | 0.30 | 0.55 | 0.39 |
结论
从提供的数据来看,随机森林模型(尤其是当n_estimators=100
时)表现最为出色,具有较高的准确性和平衡的Precision与Recall。逻辑回归虽然性能较好,但比随机森林略逊一筹。CNN模型在这个任务中表现不佳,可能是因为网络架构或训练过程需要进一步优化。
基于这些分析,对于情感分析任务,我建议使用随机森林模型,尤其是调整n_estimators
参数为100,以期达到最佳的性能平衡。
3 CNN指标的一些异常行为
precision recall f1-score support
negative 0.00 0.00 0.00 80neutral 0.55 1.00 0.71 302
positive 0.00 0.00 0.00 170accuracy 0.55 552
macro avg 0.18 0.33 0.24 552
weighted avg 0.30 0.55 0.39 552
negative和positive在precision,recall和f1-score上均为0,这是因为negative和positive训练的数据集size太小,导致在小数据集上,CNN模型很容易过拟合,尤其是模型较复杂时。过拟合意味着模型在训练数据上表现良好,但在未见过的数据上表现不佳。
4 逻辑回归为什么不好
逻辑回归虽然可以通过正则化处理过拟合,但其线性特性限制了能力在处理复杂特征交互时的表现。
这篇关于yh-hw的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!