推荐系统

大数据应用领域:

  • 互联网领域:搜索引擎、推荐系统、广告系统
  • 电信领域:用户画像、用户行为分析
  • 医药生物领域:DNA分析
  • 视频领域:视频存储、视频分析
  • 金融领域:信用卡欺诈分析、用户分析
  • 矿产勘探领域:矿产石油勘察预测

算法设计:

  • 优化准则
  • 数据预处理
  • 离线算法
  • 在线算法
  • 功能实现策略
  • 推荐解释

系统评测设计:

  • 用户反馈

    • 点击率,转换率,单次使用时长,重复使用次数
  • A/B测试

LAMBDA架构

Volume:海量数据

Velocity:高更新频率

variety:非结构化数据:图片视频

  • 提供了一个结合实时数据和Hadoop预先计算的数据环境的混合平台,以提供一个实时的数据视图
  • 分层架构:批处理层-实时处理层-服务层

。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

用户画像

特征工程
  • 单个特征分析
    • 数值型特征处理:化成离散值
    • 类别型特征处理:0-1编码
    • 数据归一化
  • 多个特征分析
    • 相关性分析,计算相关系数
    • 特别相关的特征,去除一些
    • 特征太多,降维
  • 文本数据:
    • 分词 (jieba分词或者张华平老师的ICTCLAS)
    • 去停用词:除了常用的停用词外,还可以将DF比较高的词加入停用词表,作为领域停用词
    • 向量化:将文本转化为tf或者tf-idf向量
算法和模型
  • 考虑因素:
    • 训练集的大小
    • 特征维度大小
    • 所解决问题是否线性可分
    • 所有的特征是否独立
    • 是否需要考虑过拟合
    • 对性能的要求
  • 奥卡姆剃刀原理:如无必要,勿增实体
  • LR:
    • 问题是线性可分时,就可以采用LR
    • 模型比较抗噪,而且可以通过L1,L2范数来做参数选择
    • 效率高,可以应用于数据特别大的场景
    • 很容易分布式实现
  • Ensemble方法:
    • Bagging:简单平均
    • Boosting:知错就改
  • ….
模型评价:
  • 混淆矩阵
    • 准确率
    • 召回率
  • ROC
  • AUC
Spark ML:
  • transformer:transform()
  • estimator:fit()
  • 参数:
    • ParamMap
  • 保存和加载管道