降维与度量学习
1. K近邻学习
- 分类任务:“投票法”,即K个样本中出现最多的类别作为预测结果
- 回归任务:“平均法”,K个样本的实值输出标记的平均值作为预测结果
- KNN是一种“懒惰学习”
- KNN分类结果的不同导致因素
- K值的不同
- 距离计算方式的不同
- 懒惰学习vs急切学习:
- 懒惰学习:训练阶段仅仅把样本保存起来,训练时间开销为0,待收到测试样本后再进行处理
- 急切学习:在训练阶段就对样本进行学习处理的方法
2. 低维嵌入
- 维数灾难:在高维情形下出现的数据样本稀疏、距离计算困难等问题
- 为什么能进行降维?因为在很多时候,人们观测和收集到的样本虽然是高维的,但与学习任务密切相关的也许仅是某个低维分布,即高维空间中一个低维的“嵌入”
- 对降维效果的评估,通常是比较降维前后学习器的性能,若性能有所提高则认为降维起了作用。若是降到了一二三维,可以用可视化的技术手段更加直观地判断降维效果。
最后更新: January 18, 2023