目录
- Hölder Statistical Pseudo Divergence
- Proper Hölder Divergence
Hölder Statistical Pseudo Divergence
Hölder Statistical Pseudo Divergence是一种度量两个概率分布 p p p 和 q q q差异的方法,它基于Hölder不等式。定义如下:
D α H ( p : q ) = 1 α F ( α θ p ) + 1 β F ( β θ q ) − F ( θ p + θ q ) , D_{\alpha}^{H}(p : q) = \frac{1}{\alpha}F(\alpha\theta_{p}) + \frac{1}{\beta}F(\beta\theta_{q}) - F(\theta_{p} + \theta_{q}), DαH(p:q)=α1F(αθp)+β1F(βθq)−F(θp+θq),其中:
- α \alpha α 和 β \beta β是Hölder共轭指数,满足 β = α α − 1 \beta = \frac{\alpha}{\alpha - 1} β=α−1α。
- F F F是一个严格凸函数,通常选择为负对数似然函数或其他凸函数。
- θ p \theta_p θp和 θ q \theta_q θq是与概率分布 p p p和 q q q相关的参数,可以是分布的矩或其他特征。
性质:
- 非负性: D α H ( p : q ) ≥ 0 D_{\alpha}^{H}(p : q) \geq 0 DαH(p:q)≥0,当且仅当 p = q p = q p=q 时等号成立。
- 非对称性:不满足对称性,即 D α H ( p : q ) ≠ D α H ( q : p ) D_{\alpha}^{H}(p : q) \neq D_{\alpha}^{H}(q : p) DαH(p:q)=DαH(q:p)通常成立。
应用:
- 信息论:在信息论中,可以用来衡量信息源的不确定性。
- 机器学习:在机器学习中,可以用来比较不同模型的预测分布,从而评估模型的性能。
Proper Hölder Divergence
Proper Hölder Divergence通过引入权重参数 γ \gamma γ来平衡两个分布的贡献,从而满足对称性。定义如下:
D α , γ H ( p : q ) = 1 α F ( γ θ p ) + 1 β F ( γ θ q ) − F ( γ α θ p + γ β θ q ) , D_{\alpha,\gamma}^{H}(p : q) = \frac{1}{\alpha}F(\gamma\theta_{p}) + \frac{1}{\beta}F(\gamma\theta_{q}) - F\left(\frac{\gamma}{\alpha}\theta_{p} + \frac{\gamma}{\beta}\theta_{q}\right), Dα,γH(p:q)=α1F(γθp)+β1F(γθq)−F(αγθp+βγθq),其中:
- α \alpha α和 β \beta β是Hölder共轭指数,满足 β = α α − 1 \beta = \frac{\alpha}{\alpha - 1} β=α−1α。
- F F F是一个严格凸函数。
- γ \gamma γ是一个权重参数,用于平衡 θ p \theta_p θp和 θ q \theta_q θq 的贡献。
- θ p \theta_p θp和 θ q \theta_q θq是与概率分布 p p p和 q q q相关的参数。
性质:
- 非负性: D α , γ H ( p : q ) ≥ 0 D_{\alpha,\gamma}^{H}(p : q) \geq 0 Dα,γH(p:q)≥0,当且仅当 p = q p = q p=q时等号成立。
- 对称性:满足对称性,即 D α , γ H ( p : q ) = D α , γ H ( q : p ) D_{\alpha,\gamma}^{H}(p : q) = D_{\alpha,\gamma}^{H}(q : p) Dα,γH(p:q)=Dα,γH(q:p)。
应用:
- 信息论:在信息论中,可以用来衡量信息源的不确定性,并且由于其对称性,更适合用于比较两个信息源。
- 机器学习:在机器学习中,可以用来比较不同模型的预测分布,从而评估模型的性能,并且由于其对称性,更适合用于模型选择和集成。