Evidential Deep Learning

B分布和Dirichlet分布
#

B分布：0-1之间的含参连续分布，概率的概率分布服从B分布。

狄利克雷分布（Dirichlet distribution）:B分布在K≥3时的一种推广，K维离散随机变量的概率分布服从Dirichlet分布。

以下为Stupid ZX 无数学民科版

对于一个K分类问题，一般的机器学习建模的是类别的K维分布，模型输出的类别概率不能等同于置信度，因为即使遇到K类以外的样本，仍然满足概率和为1，。

为了建模不确定性，我们可以把模型的输出也看成服从某种分布，每一个采样值是K分类的概率分布和该判决的置信度。我们不再让神经网络建模K分类的概率，而是建模K分类的概率分布服从的分布，之后采样即可得到置信度和模型的K分类输出。

优化过程本质上和常规的分类问题是类似的，通过似然值/交叉熵/均方误差，拉进K分类预测值和实际的标签值。虽然从狄利克雷分布中采样K分类的概率预测是不可导的，但是狄利克雷分布的参数到数学期望的映射是可导的，我们可以推导出对分布参数的损失函数，从而优化整个网络。

省略数学推导过程，我们看一下采用似然值作为K分类损失函数时，网络输出的狄利克雷分布参数的损失函数，

$$ \Sigma^k_{i=1}y_{i}（logS-log\alpha_{i}） $$ 物理意义是很明确的，最小化各个类别置信度之和S，最大化正确类别的置信度α。

模型结构：端到端K分类预测 -> 先获得证据，再通过分布采样获得K分类预测

优化方法：