CM-DPO: Constraint-Margin Direct Preference Optimization for LLM Planning

Rabimba Karanjai, Qun Gu, Hemanth Hegadehalii Madhavarao, Wenhuan Sun, Xiaojiao Yu, Suryabhan Singh Hada, Libin N. George, Uma Kona, Richard Williamson, Linsey Pang, Prakhar Mehrotra Jan 1, 2026

Scholar

Read Paper

Paper coming soon. Check back or search on Google Scholar.

Search on Scholar →

Abstract

Preprint: A preference optimization framework that forces planning paths to obey hard system limits.

Type Preprint

Venue NeurIPS 2026 (Under Review)

Date Jan 2026

LLMs Preference Optimization Planning First Author

← Hype or Hope? Training LLMs on Decentralized GPU Clouds Jan 1, 2026

Closing the Cost Gap in Verifier-Guided RL: A Smart Contract Case Study Jan 1, 2026 →

No results found

CM-DPO: Constraint-Margin Direct Preference Optimization for LLM Planning

Abstract