对熵,编码长度,MDL,压缩,柯氏压缩器的回忆梳理。
<--more--!>
一、熵与编码长度
本节观点
熵就是一个随机变量能够被压缩到的“平均最短编码长度”的理论极限。
如果模型的平均编码长度越短,那么他和数据的真实分布(真实熵)就越接近。因为根据 cross-entropy(交叉熵) ,它和真实熵关系是:
大约 11 分钟
对熵,编码长度,MDL,压缩,柯氏压缩器的回忆梳理。
<--more--!>
本节观点
熵就是一个随机变量能够被压缩到的“平均最短编码长度”的理论极限。
如果模型的平均编码长度越短,那么他和数据的真实分布(真实熵)就越接近。因为根据 cross-entropy(交叉熵) ,它和真实熵关系是:
H(p,q)=H(p)+KL(p∥q)