标签: Machine Learning

3 篇文章

Building a Spam Classifier
Prioritizing What To Work On 系统设计案例: 给定电子邮件数据集,我们可以为每个电子邮件构造一个向量。此向量中的每个条目代表一个单词。 向量通常包含10,000至50,000个条目,这些条目是通过在我们的数据集中找到最常用的单词而收集的。 如果要在电子邮件中找到一个单词,则将其相应的条目分配为1,否则,将为该条目分配0。…
Learning Curves
学习曲线 在极少数数据点(例如1、2或3)上进行算法训练很容易会发生0错误的现象,因为我们总能找到一条恰好触及这些点数的二次曲线。 因此: 当数据集增大的时候,二次函数的错误也会增多 误差值将在达到一个确定的值m或者一定的训练集大小后趋于平稳。 出现高偏差的情况: 小训练集:会导致$J_{train}(\Theta)$过小或是$J_{CV}(\Th…
Regularization and Bias/Variance
正则化和偏差/方差 在上图中,我们可以清晰地看到,当$\lambda$增加的时候,拟合函数会变得十分僵硬,即我们所谓的拟合效果十分不好。从另一方面来说,当$\lambda$趋近于0的时候,拟合就会变成过拟合。所以,我们应该如何选择我们的参数$\lambda$来使得它不大也不小呢?为了选择合适的模型和正则化参数$\lambda$,我们需要: 初始化一…