Hao Zhuoyuan 郝卓远's picture

Hao Zhuoyuan 郝卓远

larry2210

·

https://github.com/hhh2210

hzy2210

AI & ML interests

None yet

Recent Activity

authored a paper 20 days ago

Reproducing, Analyzing, and Detecting Reward Hacking in Rubric-Based Reinforcement Learning

upvoted a paper 20 days ago

Reproducing, Analyzing, and Detecting Reward Hacking in Rubric-Based Reinforcement Learning

submitted a paper 20 days ago

Reproducing, Analyzing, and Detecting Reward Hacking in Rubric-Based Reinforcement Learning

View all activity

Organizations

None yet

authored a paper 20 days ago

Reproducing, Analyzing, and Detecting Reward Hacking in Rubric-Based Reinforcement Learning

Paper • 2606.04923 • Published 21 days ago • 40

upvoted a paper 20 days ago

Reproducing, Analyzing, and Detecting Reward Hacking in Rubric-Based Reinforcement Learning

Paper • 2606.04923 • Published 21 days ago • 40

submitted a paper to Daily Papers 20 days ago

Reproducing, Analyzing, and Detecting Reward Hacking in Rubric-Based Reinforcement Learning

Paper • 2606.04923 • Published 21 days ago • 40

New activity in MiniMaxAI/role-play-bench about 1 month ago

What is the prompt used when using LLM-as-a-judge?

#2 opened 5 months ago by

submitted a paper to Daily Papers 4 months ago

Echoes as Anchors: Probabilistic Costs and Attention Refocusing in LLM Reasoning

Paper • 2602.06600 • Published Feb 6 • 3

authored a paper 4 months ago

Echoes as Anchors: Probabilistic Costs and Attention Refocusing in LLM Reasoning

Paper • 2602.06600 • Published Feb 6 • 3

upvoted a paper 4 months ago

Echoes as Anchors: Probabilistic Costs and Attention Refocusing in LLM Reasoning

Paper • 2602.06600 • Published Feb 6 • 3