Show HN: RewardGuard – 在强化学习训练循环中检测奖励篡改 Buzzing Giovan321 2026年4月26日 12:59 RewardGuard – detect reward hacking in RL training loops (github.com)