2 15 5

Hanxu Hu PRO

HanxuHU

https://hanxuhu.github.io/

AI & ML interests

LLM, NLP

Recent Activity

authored a paper 1 day ago

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

authored a paper 1 day ago

Reinforcement Learning Elicits Contextual Learning of Unseen Language Translation

upvoted a paper 2 days ago

Reinforcement Learning Elicits Contextual Learning of Unseen Language Translation

View all activity

Organizations

Collections 3

View 3 collections

Papers 9

models 14

datasets 66

HanxuHU/rl-new-language

Viewer • Updated 2 days ago • 135k • 111

HanxuHU/ocr_data_question_28k_Qwen3-8B

Viewer • Updated Oct 28, 2025 • 28k • 12

HanxuHU/usaco_v2

Viewer • Updated Oct 11, 2025 • 294 • 16

HanxuHU/math_copy1

Viewer • Updated Sep 30, 2025 • 12.5k • 30

HanxuHU/math

Viewer • Updated Sep 30, 2025 • 12.5k • 74

HanxuHU/mt_data

Viewer • Updated Dec 31, 2024 • 796k • 228

HanxuHU/gemma-llama-2-9b-it-ultrafeedback-annotate-ultrafb-judge-5-maj

Viewer • Updated Nov 28, 2024 • 60k • 12

HanxuHU/gemma2-9B-it-ultrafeedback-annotate-ultrafb-merge-single-filtered

Viewer • Updated Nov 26, 2024 • 56.4k • 16

HanxuHU/gemma2-9B-it-ultrafeedback-annotate-ultrafb-judge-5-majority-filtered

Viewer • Updated Nov 26, 2024 • 55.2k • 21

HanxuHU/gemma2-9B-it-ultrafeedback-annotate-ultrafb-merge-single-judge

Viewer • Updated Nov 25, 2024 • 60.7k • 39

View 66 datasets

Hanxu Hu PRO

AI & ML interests

Recent Activity

Organizations

Collections 3

HanxuHU/rl-new-language

Reinforcement Learning Elicits Contextual Learning of Unseen Language Translation

simonycl/self-seq-Meta-Llama-3-8B-alpaca_it_llmam_70b

simonycl/self-seq-Meta-Llama-3-8B-wizardlm

simonycl/self-seq-Meta-Llama-3-8B-alpaca_llmam_70b-iter-2

simonycl/self-seq-Meta-Llama-3-8B-flancot_full_it_llama_70b

HanxuHU/rl-new-language

Reinforcement Learning Elicits Contextual Learning of Unseen Language Translation

simonycl/self-seq-Meta-Llama-3-8B-alpaca_it_llmam_70b

simonycl/self-seq-Meta-Llama-3-8B-wizardlm

simonycl/self-seq-Meta-Llama-3-8B-alpaca_llmam_70b-iter-2

simonycl/self-seq-Meta-Llama-3-8B-flancot_full_it_llama_70b

Papers 9

models 14

HanxuHU/Qwen2-0.5B-SFT

HanxuHU/self-seq-Meta-Llama-3-8B-tulu100k_seq_it2_llama70b

HanxuHU/self-seq-Meta-Llama-3-8B-tulu100k_base_ours_new_llama70b

HanxuHU/sit_all_models

HanxuHU/flancot_full_it1

HanxuHU/sharegpt_filter

HanxuHU/files

HanxuHU/my-mLLMs

HanxuHU/multilingual_mmmu

HanxuHU/alpaca_topk_indices

datasets 66

HanxuHU/rl-new-language

HanxuHU/ocr_data_question_28k_Qwen3-8B

HanxuHU/usaco_v2

HanxuHU/math_copy1

HanxuHU/math

HanxuHU/mt_data

HanxuHU/gemma-llama-2-9b-it-ultrafeedback-annotate-ultrafb-judge-5-maj

HanxuHU/gemma2-9B-it-ultrafeedback-annotate-ultrafb-merge-single-filtered

HanxuHU/gemma2-9B-it-ultrafeedback-annotate-ultrafb-judge-5-majority-filtered

HanxuHU/gemma2-9B-it-ultrafeedback-annotate-ultrafb-merge-single-judge

Hanxu Hu PRO

AI & ML interests

Recent Activity

Organizations

Collections 3

Papers 9

models 14 Sort: Recently updated

datasets 66 Sort: Recently updated

models 14

datasets 66