月度归档: 2020年11月

4 篇文章

Building a Spam Classifier
Prioritizing What To Work On 系统设计案例: 给定电子邮件数据集,我们可以为每个电子邮件构造一个向量。此向量中的每个条目代表一个单词。 向量通常包含10,000至50,000个条目,这些条目是通过在我们的数据集中找到最常用的单词而收集的。 如果要在电子邮件中找到一个单词,则将其相应的条目分配为1,否则,将为该条目分配0。…
Learning Curves
学习曲线 在极少数数据点(例如1、2或3)上进行算法训练很容易会发生0错误的现象,因为我们总能找到一条恰好触及这些点数的二次曲线。 因此: 当数据集增大的时候,二次函数的错误也会增多 误差值将在达到一个确定的值m或者一定的训练集大小后趋于平稳。 出现高偏差的情况: 小训练集:会导致$J_{train}(\Theta)$过小或是$J_{CV}(\Th…
Regularization and Bias/Variance
正则化和偏差/方差 在上图中,我们可以清晰地看到,当$\lambda$增加的时候,拟合函数会变得十分僵硬,即我们所谓的拟合效果十分不好。从另一方面来说,当$\lambda$趋近于0的时候,拟合就会变成过拟合。所以,我们应该如何选择我们的参数$\lambda$来使得它不大也不小呢?为了选择合适的模型和正则化参数$\lambda$,我们需要: 初始化一…
你说四大皆空,却紧闭双眼
最近喜欢看西游记,今天看到了《趣经女儿国》,颇有感想。 起先是唐僧入殿,国王一看到唐僧眼神就直了,唐僧禀告了三声国王也没听到,直到旁边的宫女小声提醒,陛下才醒过来。 看看唐僧的相貌描写 丰姿英伟,相貌轩昂 齿白如银砌,唇红口四方 顶平额阔天仓满,目秀眉清地阁长 两耳有轮真杰士,一身不俗是才郎 好个妙龄聪俊风流子,堪配西梁窈窕娘。 其实唐僧心里自己也…