Wenbo Zhang's picture

1

Wenbo Zhang

Wenboz

https://onepounchman.github.io/

AI & ML interests

Trustworthy AI, LLMs

Recent Activity

updated a model 13 days ago

Wenboz/SACD-Qwen2.5-3B-ALFWorld-k1-tau0.5-beta1.0-plain-pipeline

published a model 13 days ago

Wenboz/SACD-Qwen2.5-3B-ALFWorld-k1-tau0.5-beta1.0-plain-pipeline

updated a model 13 days ago

Wenboz/SACD-Qwen2.5-3B-ALFWorld-k1-tau0.75-beta1.0-plain-pipeline

View all activity

Organizations

None yet

Wenboz 's models 23

Wenboz/SACD-Qwen2.5-3B-ALFWorld-k1-tau0.5-beta1.0-plain-pipeline

Reinforcement Learning • 3B • Updated 13 days ago • 33

Wenboz/SACD-Qwen2.5-3B-ALFWorld-k1-tau0.75-beta1.0-plain-pipeline

Reinforcement Learning • 3B • Updated 13 days ago • 33 • 1

Wenboz/TCOD-v1-OPD-Qwen2.5-3B-WebShop

Text Generation • 3B • Updated 14 days ago • 30

Wenboz/TCOD-v1-OPD-Qwen2.5-3B-ALFWorld

Text Generation • 3B • Updated 14 days ago • 31

Wenboz/Qwen3-8B-trivia-RLMR-v2

8B • Updated 20 days ago • 7

Wenboz/Qwen3-8B-trivia-RLMR-v1

8B • Updated 20 days ago • 269 • 1

Wenboz/Qwen3-8B-trivia-RLVR-cot

8B • Updated 20 days ago • 271

Wenboz/mistral-7b-base-p3o

Updated Dec 27, 2024

Wenboz/zephyr-7b-dpo-full

Text Generation • 1B • Updated Dec 23, 2024 • 2

Wenboz/zephyr-7b-dpo-lora

Updated Oct 20, 2024 • 3

Wenboz/llama3-wpo-lora

Updated Sep 22, 2024 • 4

Wenboz/llama3-dpo-lora

Updated Sep 20, 2024 • 3

Wenboz/zephyr-7b-wpo-lora

Updated Sep 18, 2024 • 1

Wenboz/llama3-dpo-full

Updated Sep 10, 2024

Wenboz/FsfairX-LLaMA3-RM-clone

8B • Updated Sep 2, 2024 • 4

Wenboz/aromarm_clone

8B • Updated Sep 1, 2024 • 2

Wenboz/phi3-offline-dpo-lora-noise-0.0-5e-7-thre-1.5-42

Updated Jul 9, 2024

Wenboz/phi3-offline-dpo-lora-noise-0.0-5e-7-42

Updated Jul 9, 2024 • 3

Wenboz/phi3-offline-dpo-lora-noise-0.0-5e-6-42

Updated Jul 9, 2024

Wenboz/phi3-offline-dpo-lora-noise-0.0-5e-5-42

Updated Jul 9, 2024

Wenboz/phi3-offline-dpo-lora-noise-0.0-42

Updated Jul 9, 2024

Wenboz/zephyr-offline-dpo-lora-noise-0.0-42

Updated Jul 9, 2024 • 3

Wenboz/phi_3-offline-dpo-noise-0.0-42

Updated Jul 9, 2024