大数据应用领域:
- 互联网领域:搜索引擎、推荐系统、广告系统
- 电信领域:用户画像、用户行为分析
- 医药生物领域:DNA分析
- 视频领域:视频存储、视频分析
- 金融领域:信用卡欺诈分析、用户分析
- 矿产勘探领域:矿产石油勘察预测
算法设计:
- 优化准则
- 数据预处理
- 离线算法
- 在线算法
- 功能实现策略
- 推荐解释
系统评测设计:
用户反馈
- 点击率,转换率,单次使用时长,重复使用次数
A/B测试
LAMBDA架构
Volume:海量数据
Velocity:高更新频率
variety:非结构化数据:图片视频
- 提供了一个结合实时数据和Hadoop预先计算的数据环境的混合平台,以提供一个实时的数据视图
- 分层架构:批处理层-实时处理层-服务层
。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。
用户画像
特征工程
- 单个特征分析
- 数值型特征处理:化成离散值
- 类别型特征处理:0-1编码
- 数据归一化
- 多个特征分析
- 相关性分析,计算相关系数
- 特别相关的特征,去除一些
- 特征太多,降维
- 文本数据:
- 分词 (jieba分词或者张华平老师的ICTCLAS)
- 去停用词:除了常用的停用词外,还可以将DF比较高的词加入停用词表,作为领域停用词
- 向量化:将文本转化为tf或者tf-idf向量
算法和模型
- 考虑因素:
- 训练集的大小
- 特征维度大小
- 所解决问题是否线性可分
- 所有的特征是否独立
- 是否需要考虑过拟合
- 对性能的要求
- 奥卡姆剃刀原理:如无必要,勿增实体
- LR:
- 问题是线性可分时,就可以采用LR
- 模型比较抗噪,而且可以通过L1,L2范数来做参数选择
- 效率高,可以应用于数据特别大的场景
- 很容易分布式实现
- Ensemble方法:
- Bagging:简单平均
- Boosting:知错就改
- ….
模型评价:
- 混淆矩阵
- 准确率
- 召回率
- ROC
- AUC
Spark ML:
- transformer:transform()
- estimator:fit()
- 参数:
- ParamMap
- 保存和加载管道