PGM lecture1 简介
统计基础
对于多变量,假设,很自然的,可以把联合分布概率表示为:
1 | 0 | 1 | 1 | 1 | 1 | 1 | 1 | 0.2 |
… | … | … | … | … | … | … | … | … |
此时行数是确定的,即行,这是一个枚举的方法,但是要求我们的数据集需要有足够大的规模,那么才能把每一种可能情况的概率计算出来。
变量可能存在的关系有相关、独立、依赖、因果。
“Many of them can be measured by one number summary”
变量关系的度量方法
皮尔森相关(Pearson’s correlation)
皮尔森相关系数:
变量之间的线性相关,从到的线性回归:
属性:
相关系数的大小直接决定了线性相关性的高低;但是只能刻画线性相关关系;不能断定因果关系。独立,则,而不能推出独立。
反例:,该函数是非线性的。
互信息(Mutual information)
计算两个分布之间的距离,可以用KL散度(Kullback-Leibler divergence)
(讨论:reverse KL)
互信息:
计算两种特殊情况的差异。
当且仅当时,和相互独立。
希尔伯特-施密特独立性准则
(Hilbert-Schmidt Independence Criterion, HSIC)
主要目的是衡量两个变量的分布差异,这一点类似于协方差(方差),而对于其本身也是依赖于协方差而构建。
P的kernal embedding为 核的特征图
当且仅当时,和相互独立。
偏相关(Partial correlation)
举例:构造一个图模型:X = 孩子的身高,Y = 孩子的词汇量,Z = 孩子的年龄
我们会发现我们会在变量之间两两构造联系,但是按照我们的经验构造的图将会是孩子的年龄决定身高和词汇量,这才是可解释的。以上介绍的方法都只能得到前者而不能得到后者,是因为他们只考虑了一对变量之间的联合概率分布。
偏相关就是计算给定随机向量时和之间的偏相关。
实质是一个给定条件的皮尔森相关系数。
如果假设每个维度变量都是高斯分布的,可以简化计算。
总结
Preview
Lecture 2 条件独立图
别名:条件独立图,马尔可夫网,马尔可夫随机场,无向图。
应用:模拟围棋。
Lecture 3 有向图模型
别名:有向图、有向无环图、贝叶斯网络、
Structural equation models、Structural casual models
应用:家族的族谱。
Lecture 4-13 推理学习
推理:边缘/条件分布、采样
学习:统计参数估计、模型选择
Lecture 5-end 现有的图模型
DL和图模型的关系、深度生成模型、强化学习做概率推理、无参数贝叶斯网络、大规模算法和系统
图模型是什么
一种用于交流(domain knowledge)、计算和发展的语言。