高级特征工程II机器学习中的应用与技巧
高级特征工程的妙用可不少,尤其是机器学习里的那些“看不见”的性能瓶颈。
统计特征的构造方式挺灵活,比如用groupby一通操作就能整出一堆均值、中位数、标准差,还真不是随便加几个字段就完事儿。
最近邻方法也有意思,像是 CTR 场景里,把用户位置跟地铁站的距离算出来就能造新特征,甚至还能拓展成KNN,搞点局部统计,效果还不错。
另外,矩阵分解这种东西,虽然听起来学术味有点重,但在推荐系统里用得挺多。少量的latent factor就能替你压缩数据,找出背后的潜在结构,省空间也提性能。
特征融合也是门技术活,像把用户行为和地理位置拼在一起,不仅信息更全,对提升模型理解能力也有。别忘了,有时候一加一真能大于二。
至于那些自动化特征工程的工具,嗯,省时省力,尤其在你没空手动构造字段的时候,自动统计、KNN 提特征、矩阵分解一条龙搞定,效率上来就是爽。
想扩展学习?下面这些文章也挺有料:
AutoML 之自动化特征工程、如何用 Python 做自动化特征工程、OpenCV KNN 匹配特征检测等,按需看看。
如果你正卡在特征工程不知道怎么下手,或者嫌造特征太慢,不妨试试这些方法,能省不少劲。
下载地址
用户评论