《Refining Adaptive Zeroth-Order Optimization at Ease》
《Refining Adaptive Zeroth-Order Optimization at Ease》
1. 基本信息
- 作者 / 机构:Yao Shu(港科大广州)、Qixin Zhang(南洋理工大学)、Kun He(华中科技大学)、Zhongxiang Dai(港中文深圳)
- 发表 Venue / 年份:ICML 2025
- 论文链接:arXiv:2502.01014v2
- 核心任务:本文旨在解决自适应零阶优化(Adaptive ZO Optimization)中因高方差梯度估计导致的收敛缓慢问题,其根本症结在于现有方法(如 ZO-AdaMM)未能有效利用动量信息进行方差缩减,致使二阶矩估计失真,进而削弱自适应缩放的有效性。
2. 研究动机与问题定义
在黑盒对抗攻击、大语言模型(LLM)API微调等实际场景中,梯度不可用,零阶优化成为唯一可行方案。尽管自适应一阶方法(如 Adam)已在实践中取得巨大成功,但其零阶版本(如 ZO-AdaMM)的性能却远未达到预期。现有方法通常直接将一阶动量机制套用于零阶场景,忽视了零阶梯度估计器(如两点估计)固有的高方差特性:其方差与问题维度 和平滑半径 的倒数平方成正比,即 。
这种高方差直接污染了自适应优化器的二阶动量 。在 ZO-AdaMM 中, 由原始高方差梯度估计 更新,导致其对优化轨迹几何(landscape geometry)的刻画严重失真,从而产生过小的有效学习率,显著拖慢收敛。本文的核心洞察在于:一阶动量 本身即是对历史梯度的指数移动平均,天然具备平滑噪声、降低方差的能力。若能将此精炼后的 用于构造二阶动量,即可获得更准确的几何信息,实现更有效的自适应更新。
3. 方法论深度解析 (The Heart of ZOO)
本文提出 R-AdaZO (Refined Adaptive ZO) 算法,其核心创新在于一种级联精炼(Cascade Refinement)的动量利用机制。该机制包含两个紧密耦合的技术组件。
第一组件是方差缩减的一阶动量。R-AdaZO 维持标准的一阶动量更新:。然而,与以往将其视为单纯的速度累积不同,本文首次从理论上严格证明了 的方差相较于原始估计 显著降低。具体而言,在坐标光滑(coordinate-wise Lipschitz)假设下,其方差上界为 ,其中 为原始梯度估计的方差。这一定量分析揭示了 在方差与偏差间的内在权衡:增大 可有效抑制方差,但会引入因历史信息滞后而产生的偏差。
第二组件是基于精炼动量的二阶矩更新。这是 R-AdaZO 的关键原创所在。算法摒弃了 ZO-AdaMM 中直接使用高方差 的做法,转而采用方差缩减后的一阶动量来构建二阶矩:。这一精炼操作使得 能够更准确地逼近其“无噪声理想态”——即真实梯度平方的指数移动平均。理论分析表明,该策略将二阶矩中与方差相关的项从 降至 ,从而为后续的自适应缩放提供了更可靠的依据。
整个算法流程仅需对 ZO-AdaMM 进行一行代码修改,即二阶矩的更新源由 改为 ,实现极为简洁,却能带来根本性的性能提升。
4. 实验设计与结果分析
实验在合成函数、MNIST 黑盒对抗攻击及 OPT 大语言模型微调三大任务上展开,全面验证了 R-AdaZO 的优越性。
在查询效率(Query Efficiency)方面,R-AdaZO 展现了压倒性优势。在 MNIST 黑盒攻击任务中,R-AdaZO 平均仅需 2900 次查询即可成功生成对抗样本,而 ZO-AdaMM 和 ZO-RMSProp 均需约 15500 次,提速达 5.4 倍。在 LLM 微调任务中,R-AdaZO 同样以更少的函数查询达到目标损失值,充分证明了其在高代价查询场景下的实用价值。
在维度扩展性上,R-AdaZO 的优势在高维()合成函数测试中得以保持,其收敛速度始终显著优于基线方法,表明该方法对高维灾难(Curse of Dimensionality)具有更强的鲁棒性。
消融实验进一步验证了理论分析。实验表明,性能随一阶动量系数 的增大而提升,这与理论中“大 有助于方差缩减”的结论完全一致。更重要的是,当将 R-AdaZO 的二阶矩更新方式退化为使用 时,其收敛速度急剧下降,直接证明了二阶矩精炼机制的有效性与必要性。
5. 理论贡献与实践意义
理论层面,本文建立了首个方差感知的自适应 ZO 收敛性分析框架。在非凸、坐标光滑假设下,作者证明了 R-AdaZO 的收敛速率为:
其中 为二阶矩的方差项。关键突破在于,通过精炼机制,R-AdaZO 成功将 中的主导因子由 优化至 ,从而获得了比 ZO-AdaMM 更快的理论收敛速度。该框架首次将自适应 ZO 优化器的收敛性与动量估计的方差显式关联,为未来相关研究提供了坚实的理论基础。
工程价值方面,R-AdaZO 具备极高的部署友好性。其实现仅需对现有自适应 ZO 优化器进行微小修改,无额外计算或内存开销,即可即插即用地提升性能。这一特性使其特别适用于查询代价高昂的黑盒优化场景,如商用大模型 API 的高效微调、科学实验中的参数搜索等。
6. 批判性评价与局限
尽管 R-AdaZO 取得了显著进展,但仍存在若干局限。首先,其收敛性证明依赖于平滑半径 的选择。理论要求 随迭代逐渐减小以消除偏差项 ,但在实践中常采用固定 ,这可能限制其在极高精度需求下的表现。其次,理论分析建立在坐标光滑(coordinate-wise Lipschitz)这一假设之上,对于具有强不连续性或病态条件数的黑盒函数,理论保证可能不成立。
在实验方面,论文虽覆盖了从低维到高维的广泛场景,但未测试极端高维()情形下的性能,也未与基于种群的搜索方法(如 CMA-ES)进行对比,后者在处理复杂非凸景观时可能更具鲁棒性。这些均为未来值得探索的方向。