分享 | 用机器学习解决问题的实践

in 安全数据科学 Views: 1,098 s with 1 comment

结合一些大神的介绍和工作过程,阶段性地总结了以下算法在企业界的实践经验。欢迎交流。

第一阶段:在应用ML之前

第二阶段:搭建第一条ML pipeline

第三阶段:调试线上serving模型

因为模型需要不停的更新,所以估计失效时间窗口很重要。迭代更新无论是在软件工程还是算法领域都很重要哦。

第四阶段:特征工程

数据量大不一定就好用,来自3个维度的各3w条数据可能比来自一个维度的10w条数据的效果好

会丢失重要的分布特征和信息。因为机器学习从本质上来说就是代替人类去学习信息中存在规律的过程,因此如果源头上的数据就不够,那么机器学习再厉害也回天无力。

比如对于广告推荐这块,特征数量和训练集大小大概差100倍。但对于安全这块,特征数量就不一定是多才好用了,往往是某几个特征起到决定性作用,其余的特征反而可能会干扰结果。这时候可以用一些方法来计算特征的重要性,比如PCA、FA。

第五阶段:持续改进过程

很多时候如果你上了一个新的算法发现它表现很差,不一定是它本身的问题/作者又在海吹了/不适用我的场景,而可能是因为你没有对超参数进行足够的调参。

还是上面说的,从多个维度上去丰富和关联特征是很重要的一个trick

References

[1] Zinkevich M. Rules of Machine Learning: Best Practices for ML Engineering[J]. 2017.
[2] Amatriain X, Basilico J. Netflix recommendations: Beyond the 5 stars (part 2)–the netflix tech blog[J]. URL https://medium.com/netflix-techblog/netflix-recommendations-beyond-the-5-stars-part-2-d9b96aa399f5, 2012.

「一键投喂 软糖/蛋糕/布丁/牛奶/冰阔乐!」

薇拉航线

(๑>ڡ<)☆谢谢老板~

使用微信扫描二维码完成支付

Comments are closed.
  1. 小C

    不一定是它本身的问题/作者又在海吹了/不适用我的场景,而可能是因为你没有对超参数进行足够的调参。hhh真实!!

    回复