RL post-training - a jaygala24 Collection

jaygala24 's Collections

RL post-training

RL post-training

updated 23 days ago

jaygala24/Qwen3-4B-GRPO-KL-math-reasoning

Text Generation • 4B • Updated Apr 20 • 233
jaygala24/Qwen3-4B-GRPO-math-reasoning

Text Generation • 4B • Updated Apr 20 • 136
jaygala24/Qwen3-4B-ReMax-math-reasoning

Text Generation • 4B • Updated Apr 20 • 122
jaygala24/Qwen3-4B-RLOO-math-reasoning

Text Generation • 4B • Updated 26 days ago • 489
jaygala24/Qwen3-4B-DAPO-math-reasoning

Text Generation • 4B • Updated 23 days ago • 748
jaygala24/Qwen3-1.7B-GRPO-KL-math-reasoning

Text Generation • 2B • Updated Apr 20 • 147
jaygala24/Qwen3-1.7B-GRPO-math-reasoning

Text Generation • 2B • Updated Apr 20 • 164
jaygala24/Qwen3-1.7B-ReMax-math-reasoning

Text Generation • 2B • Updated Apr 20 • 180
jaygala24/Qwen3-1.7B-RLOO-math-reasoning

Text Generation • 2B • Updated 27 days ago • 1.01k
jaygala24/Qwen3-1.7B-DAPO-math-reasoning

Text Generation • 2B • Updated 27 days ago • 892
jaygala24/Qwen2.5-3B-GRPO-KL-math-reasoning

Text Generation • 3B • Updated Apr 20 • 103
jaygala24/Qwen2.5-3B-GRPO-math-reasoning

Text Generation • 3B • Updated Apr 20 • 93
jaygala24/Qwen2.5-3B-ReMax-math-reasoning

Text Generation • 3B • Updated Apr 20 • 114
jaygala24/Qwen2.5-3B-RLOO-math-reasoning

Text Generation • 3B • Updated 27 days ago • 946
jaygala24/Qwen2.5-3B-DAPO-math-reasoning

Text Generation • 3B • Updated 27 days ago • 864
jaygala24/Qwen2.5-1.5B-GRPO-KL-math-reasoning

Text Generation • 2B • Updated Apr 20 • 115
jaygala24/Qwen2.5-1.5B-GRPO-math-reasoning

Text Generation • 2B • Updated Apr 20 • 123
jaygala24/Qwen2.5-1.5B-ReMax-math-reasoning

Text Generation • 2B • Updated Apr 20 • 106
jaygala24/Qwen2.5-1.5B-RLOO-math-reasoning

Text Generation • 2B • Updated 27 days ago • 895
jaygala24/Qwen2.5-1.5B-DAPO-math-reasoning

Text Generation • 2B • Updated 27 days ago • 1.05k
jaygala24/Qwen2.5-0.5B-GRPO-KL-math-reasoning

Text Generation • 0.5B • Updated Apr 20 • 98
jaygala24/Qwen2.5-0.5B-GRPO-math-reasoning

Text Generation • 0.5B • Updated Apr 20 • 105
jaygala24/Qwen2.5-0.5B-ReMax-math-reasoning

Text Generation • 0.5B • Updated Apr 20 • 81
jaygala24/Qwen2.5-0.5B-RLOO-math-reasoning

Text Generation • 0.5B • Updated 27 days ago • 842
jaygala24/Qwen2.5-0.5B-DAPO-math-reasoning

Text Generation • 0.5B • Updated 27 days ago • 830