情感分类模型评估报告

1. 报告概述

评估模型：qwen3-0.6b-+emotion-lora-2.7-no-thinking（2.7轮次保存模型，验证集损失最低）
评估时间：2026-01-06
评估数据集：英文情感分类验证集
样本总数：12,993

2. 数据概览

统计项	数值
总样本数	12,993
请求成功数	12,993
JSON解析成功数	12,993
标签有效数	12,993
有效标签比例	100.00%

3. 错误处理统计

错误类型	错误率	错误数量
请求失败	0.00%	0
JSON解析失败	0.00%	0
标签无效	0.00%	0

4. 总体评估指标

指标	数值	与原模型对比（提升/下降）	与emotion-lora对比（提升/下降）
准确率	70.61%	+16.88%	+2.35%
正确预测数	9,174	+2,193	+305

5. 类别性能指标

5.1 各类别精确率、召回率和F1分数

情感类别	精确率	召回率	F1分数	与原模型对比（F1提升/下降）	与emotion-lora对比（F1提升/下降）
neutral（中性）	75.23%	85.14%	79.88%	+11.55%	+1.63%
joy（喜悦）	70.07%	68.30%	69.17%	+27.89%	+1.10%
fear（恐惧）	71.39%	63.67%	67.31%	+45.42%	+4.54%
sadness（悲伤）	67.86%	60.04%	63.71%	+30.34%	+3.67%
surprise（惊讶）	72.97%	33.59%	46.00%	+32.89%	-2.82%
anger（愤怒）	54.23%	58.22%	56.16%	+34.74%	+1.85%
disgust（厌恶）	52.23%	50.67%	51.44%	+30.62%	+4.82%

5.2 类别性能分析

表现最佳：neutral（中性）类别表现突出，F1分数达79.88%，在所有模型中表现最好
提升最大：fear（恐惧）类别提升最为显著，F1分数从21.89%提升至67.31%，提高了45.42%
全面进步：所有类别F1分数均有显著提升，相比原模型提升幅度在30-45%之间
召回率改善：除surprise外，其他类别召回率均有提升或保持稳定
与emotion-lora对比：大部分类别F1分数进一步提升，特别是fear、sadness和disgust类别

6. 平均指标

指标	数值	与原模型对比（提升/下降）	与emotion-lora对比（提升/下降）
宏平均精确率	66.28%	+15.25%	+5.26%
宏平均召回率	59.95%	+31.59%	+0.52%
宏平均F1分数	61.95%	+30.49%	+2.11%
微平均精确率	70.61%	+16.77%	+2.34%
微平均召回率	70.61%	+16.77%	+2.34%
微平均F1分数	70.61%	+16.77%	+2.34%

宏平均：体现了模型在各类别上的平均表现，相比原模型有巨大提升，且略优于emotion-lora模型
微平均：体现了模型在所有样本上的整体表现，与总体准确率一致，相比原模型提升16.77%，优于emotion-lora模型

7. 混淆矩阵分析

7.1 主要混淆情况

真实标签	最易混淆的预测标签	混淆数量	与原模型对比	与emotion-lora对比
fear	neutral	146	-402	+37
surprise	neutral	357	-404	+104
surprise	joy	194	+174	+24
disgust	anger	85	-205	-15
anger	neutral	190	-700	+47
sadness	neutral	256	-488	+57
joy	neutral	586	-924	+113

7.2 混淆模式分析

显著改善：模型对非neutral类别的混淆情况大幅减少，不再过度预测为neutral类别
新的混淆：出现了surprise与joy之间的混淆（194条）
与emotion-lora对比：部分类别与neutral的混淆略有增加，但disgust与anger的混淆有所减少
整体趋势：混淆矩阵分布更加均衡，模型能够更好地区分不同情感类别

8. 结果分析与建议

8.1 模型优势

准确率最高：相比原模型和emotion-lora模型，准确率最高，达到70.61%
均衡表现：所有情感类别均有显著提升，特别是在小样本类别上
中性性能保持：neutral类别性能保持在较高水平（F1=79.88%）
资源高效：通过2.7轮次的Lora微调，在保持模型轻量化的同时获得了最佳性能
验证集最优：作为验证集上损失最低的模型，泛化能力更强

8.2 模型不足

surprise性能：surprise类别F1分数（46.00%）相比emotion-lora模型略有下降
surprise召回率：surprise类别召回率（33.59%）仍有提升空间
部分混淆：surprise与joy、部分类别与neutral之间仍存在一定混淆

8.3 改进建议

surprise优化：针对surprise类别进行专门的数据增强和微调，提高其召回率
混淆类别优化：针对易混淆的情绪类别（如surprise-joy）进行专门的微调训练
训练策略调整：考虑在2.7轮次附近进行更多检查点保存，进一步优化模型性能
类别权重：在损失函数中引入类别权重，进一步改善小样本类别性能
超参数调整：调整Lora的秩参数或微调学习率，进一步提升性能

9. 结论

本次评估显示，qwen3-0.6b-+emotion-lora-2.7-no-thinking模型（2.7轮次保存，验证集损失最低）在英文情感分类任务上的总体准确率达到70.61%，相比原模型（53.73%）提升了16.88%，相比emotion-lora模型（68.26%）提升了2.35%。

2.7轮次Lora微调的主要收益在于：

大幅提高了所有情感类别的F1分数，特别是fear（恐惧）类别提升了45.42%
改善了模型的类别平衡性，不再过度预测为neutral
进一步提升了宏平均F1分数（从31.46%提升至61.95%）
成为验证集上损失最低、性能最佳的模型

与emotion-lora模型相比，2.7轮次模型在大部分类别上表现更好，特别是在disgust（厌恶）、fear（恐惧）和sadness（悲伤）等小样本类别上有明显提升。

总体而言，2.7轮次的Lora微调取得了最佳效果，使模型在情感分类任务上的表现更加均衡和准确，是三种模型中性能最好的版本。

报告生成时间：2026-01-07

Downloads last month: -; Downloads are not tracked for this model. How to track

Model tree for jiangchengchengNLP/Emotion

Base model

Qwen/Qwen3-0.6B-Base

Finetuned

Qwen/Qwen3-0.6B