计算学习理论 (Computational Learning Theory)
WARNING
UNDER CONSTRUCTION
什么是「学习」
先定义一些概念
样本空间 X,其中样本 x 通常由向量表示
标记空间 Y,考虑二分类问题时,Y={+1,−1} 或 {0,1}
X 中的样本服从一个隐含未知的样本分布 D (underlying data-generating distribution),即 x∼D(有些地方 D 定义在 X×Y 之上,即 (x,y)∼D,TODO)
标记函数 f:X→Y(未知,是学习器想学习到的)
也被称为 concept,c:X→Y,c∈C (concept class)
样例集 D={(x(1),y(1)),(x(2),y(2)),⋯,(x(m),y(m))},先从 D 中采样 x(i),然后由 f 标记得到 y(i),独立地多次采样得到样例集 D,这就是独立同分布假设 (i.i.d. assumption)
学习器的输出,假设函数 h:X→Y,所有可能的 h 的集合叫做假设空间 H(比如所有形如 h=ax+b 的线性函数),H 由 inductive bias (opens new window) 决定(即对某类 h 的偏好)
损失函数 loss function,ℓ:Y×Y→R,学习理论主要研究二分类问题,常使用 0-1 loss,即 ℓ=1h(x)=y,其中 1 为指示函数
得到一个假设函数 h 后,我们如何评估它的好坏
- 泛化误差,在样本分布 D 之下 loss 的期望
E(h;D)=Ex∼D[ℓ(h(x),y)].
- 经验误差,在样例集上的平均 loss
E(h;D)=m1i=1∑mℓ(h(x(i)),y(i)).
PAC 学习框架
VC 维
阅读材料
- Mehryar Mohri, Afshin Rostamizadeh, Ameet Talwalkar. Foundations of Machine Learning. The MIT Press. 2012. (Chapter 2, 3)
- 周志华. 机器学习.(第 12 章,计算学习理论)
- Shalev-Shwartz, Shai, and Shai Ben-David. Understanding machine learning: From theory to algorithms. Cambridge University Press. 2014. (Chapter 2, 3)
- Stanford CS229T/STATS231: Statistical Learning Theory (opens new window)