jiangchengchengNLP/Enhanced_Emotion_Classification_Dataset
Preview • Updated • 65
| 统计项 | 数值 |
|---|---|
| 总样本数 | 12,993 |
| 请求成功数 | 12,993 |
| JSON解析成功数 | 12,993 |
| 标签有效数 | 12,993 |
| 有效标签比例 | 100.00% |
| 错误类型 | 错误率 | 错误数量 |
|---|---|---|
| 请求失败 | 0.00% | 0 |
| JSON解析失败 | 0.00% | 0 |
| 标签无效 | 0.00% | 0 |
| 指标 | 数值 | 与原模型对比(提升/下降) | 与emotion-lora对比(提升/下降) |
|---|---|---|---|
| 准确率 | 70.61% | +16.88% | +2.35% |
| 正确预测数 | 9,174 | +2,193 | +305 |
| 情感类别 | 精确率 | 召回率 | F1分数 | 与原模型对比(F1提升/下降) | 与emotion-lora对比(F1提升/下降) |
|---|---|---|---|---|---|
| neutral(中性) | 75.23% | 85.14% | 79.88% | +11.55% | +1.63% |
| joy(喜悦) | 70.07% | 68.30% | 69.17% | +27.89% | +1.10% |
| fear(恐惧) | 71.39% | 63.67% | 67.31% | +45.42% | +4.54% |
| sadness(悲伤) | 67.86% | 60.04% | 63.71% | +30.34% | +3.67% |
| surprise(惊讶) | 72.97% | 33.59% | 46.00% | +32.89% | -2.82% |
| anger(愤怒) | 54.23% | 58.22% | 56.16% | +34.74% | +1.85% |
| disgust(厌恶) | 52.23% | 50.67% | 51.44% | +30.62% | +4.82% |
| 指标 | 数值 | 与原模型对比(提升/下降) | 与emotion-lora对比(提升/下降) |
|---|---|---|---|
| 宏平均精确率 | 66.28% | +15.25% | +5.26% |
| 宏平均召回率 | 59.95% | +31.59% | +0.52% |
| 宏平均F1分数 | 61.95% | +30.49% | +2.11% |
| 微平均精确率 | 70.61% | +16.77% | +2.34% |
| 微平均召回率 | 70.61% | +16.77% | +2.34% |
| 微平均F1分数 | 70.61% | +16.77% | +2.34% |
| 真实标签 | 最易混淆的预测标签 | 混淆数量 | 与原模型对比 | 与emotion-lora对比 |
|---|---|---|---|---|
| fear | neutral | 146 | -402 | +37 |
| surprise | neutral | 357 | -404 | +104 |
| surprise | joy | 194 | +174 | +24 |
| disgust | anger | 85 | -205 | -15 |
| anger | neutral | 190 | -700 | +47 |
| sadness | neutral | 256 | -488 | +57 |
| joy | neutral | 586 | -924 | +113 |
本次评估显示,qwen3-0.6b-+emotion-lora-2.7-no-thinking模型(2.7轮次保存,验证集损失最低)在英文情感分类任务上的总体准确率达到70.61%,相比原模型(53.73%)提升了16.88%,相比emotion-lora模型(68.26%)提升了2.35%。
2.7轮次Lora微调的主要收益在于:
与emotion-lora模型相比,2.7轮次模型在大部分类别上表现更好,特别是在disgust(厌恶)、fear(恐惧)和sadness(悲伤)等小样本类别上有明显提升。
总体而言,2.7轮次的Lora微调取得了最佳效果,使模型在情感分类任务上的表现更加均衡和准确,是三种模型中性能最好的版本。
报告生成时间:2026-01-07