或者以更好的方式根据证据考虑概率
Photo by Franki Chamaki on Unsplash
Logistic回归存在一个普遍的挫败感:系数难以解释。 如果您使用Logistic回归模型,则可以尝试说”如果变量X上升1,则因变量发生的概率上升???”,而” ???”是 有点难填写。
诀窍在于将”概率”一词更改为”证据”。在本文中,我们将了解如何量化证据。 借此,我们将讨论如何解释Logistic回归系数。
最后,我们将在这种情况下简要讨论多类Logistic回归,并与信息论建立联系。
这篇文章假设您具有解释线性回归系数的经验,并且至少曾经看过一次Logistic回归。
第1部分:另外两种考虑概【我.爱.线.报.网.】率的方法
赔率和证据
我们习惯于将概率视为0到1(或等价的0到100%)之间的数字。 但这只是”合理程度”的特殊数学表示。
您熟悉的还有第二种表示”可信度”的方法:优势比。 例如,如果我告诉您”观察结果正确分类的几率是2:1″,则可以检查正确分类的几率是三分之二。 同样,”偶数赔率”是指50%。
我的目标是说服您采用第三个:对数奇数或赔率的对数。 为了解释,我们将对数称为证据。 这是E.T. 杰恩斯(Jaynes)在其发表于2003年的巨著《概率论:科学逻辑》中。
通常,使用数学表示法时有两个注意事项。 首先,它应该是可解释的。 其次,数学性质应该方便。
解释证据:以哈特利计量
为了使您相信证据是可以解释的【我.爱.线.报.网.】,我将为您提供一些数字量表,以校准您的直觉。
首先,可以用许多不同的单位来衡量证据。 我们将从哈特利(Hartley)一开始。 哈特利(Hartley)有许多名字:阿兰·图灵(Alan Turing)称其为”禁令”,是布莱奇利公园附近一个城镇的名字。 它也被称为” dit”,它是”十进制数字”的缩写。
查找Hartleys中概率为p的事件的证据的公式非常简单:
Computing the evidence, in Hartleys
其中赔率是p /(1-p)。 下表更容易解释。 请注意,已经聪明地使用了舍入以使概率看起来不错。 通过这种仔细的四舍五入,很明显1 Hartley大约是” 0.9″。
Tab【我.爱.线.报.网.】le of Evidence, Odds, and Probability
注意1 Hartley是事件的充分证据。 一个更有用的措施可能是哈特利的十分之一。 ” deci-Hartley”听起来很糟糕,因此更常见的名称是” deciban”或分贝。 这是另一个表格,使您可以了解分贝的数量。 希望您能看到这是衡量证据的一个不错的标准:不要太大也不能太小。
使用证据:贝叶斯法则
我还说过,证据应该具有便利的数学性质。 事实证明,证据自然出现在贝叶斯统计中。
假设我们希望将观察分类为True或False。 我们可以这样写:
Bayes Law for Binary Classification
在贝叶斯统计中【我.爱.线.报.网.】,每个等式的左侧称为”后验概率”,是查看数据后分配的概率。 右侧的P(True)和P(False)都是我们看到数据之前的”先验概率”。 我们将这些概率视为信念状态,而贝叶斯定律则告诉我们如何从先前的信念状态转变为后继状态。 如果您不喜欢花哨的拉丁语单词,也可以将其称为”在←后”。
关于我们之前(”之前”)的信念状态后来的更多信息。 这里的标准方法是计算每个概率。 这可能只是一次尝试而已。 明智的方法是首先考虑赔率。 如果我们将前面的两个方程式相除,就会得到一个”后验几率”的方程式。
The Posterior Odds
然后,我们将考虑表示Ev的证据。 因此,Ev(True)是True分类的先验(”【我.爱.线.报.网.】之前”)证据。 Ev(True | Data)是后验的(” after”)。 我们以10的底数为单位,以Hartleys为单位得到此值:
The Data Science process, quantified
在二元分类的情况下,这告诉我们可以将数据科学过程解释为:收集数据,然后在假设中已有证据的基础上增加或减去。 通过量化证据,我们可以说得很直白:增加或减少金额!
其他单位系统
衡量证据有三种常见的单位惯例。 我们遇到了一个使用Hartleys / bans / dits(或decibans等)的文件。 当我们以10为底的对数时,就出现了单位的选择。
下一个单位是” nat”,有时也称为” nit”【我.爱.线.报.网.】。可以简单地通过以e为底的对数来计算。 回想一下e≈2.718是欧拉数。
最终的通用单位是”位”,是通过以2为底的对数来计算的。在信息理论的传奇贡献者克劳德·香农(Claude Shannon)的传奇贡献之后,有时也称为香农。
在计算机发明之前,Hartley是最常用的证据和信息单位,因为它比其他两个要容易得多。 (请注意,信息与证据略有不同;更多信息请参见下文。)
对于出现的计算机,移动到位是有意义的,因为信息理论通常与在使用物理位的计算机上传输和存储信息有关。
最后,根据数学家的说法,自然对数是最”自然的”。 因此,这是许多软件包的默认选择。 在物理学中也很常见。
我相信,并鼓励您相信:
Hartle【我.爱.线.报.网.】y或deciban(以10为底)是最易解释的,应由对定量证据感兴趣的数据科学家使用。有兴趣量化信息的计算机科学家应使用该位。nat应该由物理学家使用,例如在计算物理系统的熵时。请注意,对于数据科学家而言,这涉及从默认选项nat转换模型输出。
最后,这是一个单位换算表。 我凭经验发现,很多人都知道头顶上的第一行。 0.69是金融中常见的72规则的基础。 3.01≈3.0是许多电气工程师所熟知的(” 3分贝是功率的两倍”)。
Unit Conversion Table for Evidence
将证据转换为赔率和概率
刚刚说过,我们应该使用分贝而不是nat,我将在nat中进行本节操作,以便您以前已看过方程【我.爱.线.报.网.】式。 让我们将证据表示为S。(公式为:
Formula for the Evidence S in nats
假设True的证据为S。则赔率和概率可以如下计算:
Converting evidence S to odds or a probability
如果最后两个公式看起来令人困惑,请计算出赔率是2:3的情况下您的马获胜的概率。 您将首先将2和3相加,然后将2除以它们的总和。
第2部分:了解逻辑回归
如果您相信我认为证据是思考事物的好方法,那么希望您开始看到一种非常干净的方法来解释逻辑回归。 首先,请记住逻辑S形函数:
希望您可以将其视为将信息转换为概率的函数,而不是复杂的符号混杂。 与上面的完全一样!【我.爱.线.报.网.】
让我们将因变量视为0/1值指标。 因此,在以上语言中,0 = False和1 = True。 逻辑回归模型为
其中X是观测值(包括常数)的观测值向量,β是系数的向量,而σ是上面的S型函数。
这立即告诉我们,我们可以将系数解释为相关预测变量中每次更改提供的证据数量。
例如,假设我们对在线视频分类为”是否会传播病毒”,而我们的预测指标之一是视频中包含猫咪的分钟数(”猫咪”)。
如果该”猫”变量的系数为3.7,则表明我们每增加一分钟的猫出现时间,就会有3.7个nat(16.1分贝)的证据表明视频会传播病毒。将所有预测变量中的所有证据加起来(以及先前的证据-参见下文),您将获得总分。如果总证据为阳性,则分类为【我.爱.线.报.网.】” True”或1,如果总证据为阴性,则分类为” False”或0。 但更重要的是,只需看看您有多少证据即可!杂记
我选择了一些简短的要点。
The logit function is the inverse of the logistic function
第3部分:多类逻辑回归
鉴于以上讨论,在多类情况下要做的直观的事情是量化有利于每个类的信息,然后(a)分类为具有最有利信息的类; 和/或(b)预测每个类别的概率,以使任何两个类别之间的对数比值比是它们之间证据的差异。
我们可以通过softmax函数来实现(b)。 观察总共n个类别中的k类的概率为:
Softmax:【我.爱.线.报.网.】 Probability of observing class k out of n possibilities given the information in favor of e
将它们中的任意两个相除(例如k和ℓ)可得出适当的对数赔率。
我们如何估算有利于每个班级的信息? 有两个明显的选择:
(多项式)请注意,从数学上来说,将整个信息列表偏向每个类别都移动一定数量的Hartleys不会改变概率分布。 这是因为我们只关心类之间的信息差异。因此,我们不妨选择一个类(例如class类)并将其信息设置为0。然后估计相对于⭑类的每个其他类的证据。(相对于其他的)对每个类别(例如k类),针对”是否为观察【我.爱.线.报.网.】类k”运行简单的逻辑回归(二进制分类)。在n = 2的情况下,方法1最明显地从上方再现了逻辑S型函数。 方法2也是等效的。
警告:对于n> 2,这些方法不相同。 (好消息是,在选项1中选择类别does不会改变回归的结果。)
在这里,我不会对此做深入探讨,因为我没有很多好的参考资料。 如果您想了解更多信息,请考虑从scikit-learn文档开始(该文档还讨论了1v1多类分类)。 如果您有/找到了很好的参考,请告诉我! 这里的重点更多是看证据的角度如何扩展到多类案件。
第四部分:信息论
这将是非常简短的,但是我想指出这与经典的信息理论相适应的方式。 信息理论从研究消息写下来需要多少位以及发送消息的属性开【我.爱.线.报.网.】始。 1948年,克劳德·香农(Claude Shannon)能够得出概率为p的事件的信息(或熵或意外)是:
给定一个概率分布,我们可以计算每个样本的预期信息量,并获得熵S:
我选择省略对数的底数,该底数设置了单位(以位,小数为单位)。 从物理上讲,信息是这样实现的,即不可能无损地将消息压缩到其信息内容以下。
我们之间的联系有些松散,但在二进制情况下,True的证据是
负号是非常必要的,因为在信号分析中,经常发生的事情没有任何惊喜或信息内容; 对我们来说,经常发生的事情有很多证据。
结论
信息是不确定性的解决方案– Claude Shannon
概率是大多数人共享的一种通用语言,也是最容易交流的语言。但是,【我.爱.线.报.网.】并不是每种情况都适用。 在这篇文章中:
我们看到,证据的计算很简单:只需添加证据即可;我们针对”大量”证据(10至20分贝),”一些”证据(3至9分贝)或”不多”证据(0至3分贝)校准了您的感觉;我们看到了在解释逻辑回归系数时以及在贝叶斯环境中自然产生的证据。 和我们看到了它如何引导我们针对多分类案例进行正确考虑我希望您养成将系数转换为分贝的习惯,并根据证据而非概率进行思考。
–拉维
参考/推荐
我强烈推荐E.T. 上面提到的杰恩斯的书。
就上下文而言 贾恩斯就是您所说的好战贝叶斯主义者。
我在这里提出的”证据”的观点归因于他,并且正如所讨论的,在贝叶斯语境中自然而然地出现了。这本书的另一个重要特征是它从【我.爱.线.报.网.】关于”合理程度”的定性考虑中得出(!!)概率定律。我从哲学上发现这很有趣。另外:如果您不想获得纸质版本,那么Google上似乎有很多pdf的书。
(本文翻译自Ravi Charan的文章《Understanding Logistic Regression Coefficients》,参考:
https://towardsdatascience.com/understanding-logistic-regression-coefficients-7a719ebebd35)