生成模型和判定模型的内部指南
发布于:2020-10-22 被浏览:2856次
在本文中,我们将讨论生成模型和判别模型的区别、原因和相关内容。判别机器学习在可能的输出选择中确定输出。在这个过程中,根据给定的数据进行训练,从而学习模型参数,最大化联合概率P(X,Y)。
分类有时也叫判别模型,有道理。分类模型毕竟是判断输入实例的类别。
无监督模型通常学习输入变量的分布,并可以根据输入的分布创建或生成新的实例。像这样的模型叫做生成模型。
当变量的分布已知时,如高斯分布。
因为生成模型可以总结数据分布,所以可以根据输入变量的分布生成新的变量。
在这种情况下,生成的模型可能非常合适,而判别模型的使用会使问题复杂化,反之亦然。
例如,对于条件预测任务,判别模型的性能明显优于生成模型,并且具有更好的规律性。
看看这个例子:有两个孩子,托尼和马克,他们想在宠物店里区分小猫和小狗。至于宠物,我们假设它们包括颜色、大小、眼睛颜色、毛发长度和声音。
给马克两张照片,一张是猫,另一张是狗。马克必须做出判断。他以为可以根据以下几个条件来判断:如果叫声是“喵”,眼睛是蓝色或绿色,带有棕色或黑色条纹,那么很大概率会是猫。根据这样简单的规则,马克可以很容易地识别猫或狗。
托尼的任务没那么简单。他想在两张白纸上画一只猫和一只狗,而不是让他判断这幅画是猫还是狗。托尼会画一只猫和一只狗,所以给他看这幅画,他就可以很容易地分辨出这幅画是猫还是狗。可见托尼的方法比马克的方法更费时。
假设宠物只有猫和狗。如果一张照片是一只蓝眼睛、棕色条纹的狗,马克可能会把它标记为猫,但托尼可以看出这张照片一定是一只狗。
如果托尼对猫和狗的特征了解得更多,他就能画出更详细、更准确的画。但如果提供足够多的猫和狗数据集,Mark的表现会更好。
马克的判断方法是仔细观察,总结特色,但是太多复杂的特色会导致过拟合,托尼不会遇到。
他们在逛宠物店之前没有任何信息怎么办?也就是说,只提供未标记的数据。这种情况下,马克根本不知道该怎么办,托尼也分不清该怎么办(因为他不知道“猫”和“狗”两大类),但至少托尼可以根据看到的猫和狗画画。这不是很大的优势吗?半监督就是这种情况。在上面的例子中,马克是判别法,而托尼代表生成法。