chaoz的杂货铺

生命有息、学无止境、折腾不止

0%

java-大数据-电信运营商流量经营系统

流量经营项目相关背景

mark

mark

mark

项目概括

  • 集群:3个
    数据采集集群(6-10节点)
    行为轨迹增强处理集群(20-25节点)
    ETL、统计分析集群(35节点)

  • 数据量:每天新增2T左右(10亿行以上),并在不断增长

  • 项目租规模

    研发团队:数据采集(4~5人)、内容识别(15人)、数据挖掘(10)、前端(10)、实施团队、运维团队

流量经营数据来源、内容(实例展示,字段介绍)

  • 数据来源:

    数据的采集可以是从硬件设备(如网关、Gn口、分光设备)直接获取并解析
    
    也可以是从其它系统(如BOSS和VGOP)导入
    
  • 数据类型:
    HTTP日志/WAP日志/MMS日志/ CONN日志/DNS日志
    

mark

流量经营数据处理流程(预处理,SCA,TAS等)

数据采集清洗、分类、合并上传HDFS集群

数据处理:内容识别用户行为轨迹增强

数据挖掘、统计分析

业务应用、BI报表展示

数据分析结果(各阶段中间结果,最终结果)

原始日志(plain text)
分类合并日志(plain text)
行为轨迹增强日志(plain text)
待爬清单(plain text)
挖掘、分析结果入库(关系型数据表)

系统整体架构

mark

主要技术选型

数据采集:根据不同生产环境,有多种形式(文件:shell、java、sqlserver、activemq、ftp)(原子性)
云存储:HDFS,事实上的大数据技术标准
海量数据批处理:MAP/REDUCE
爬虫系统:Nutch,技术成熟,功能齐全,文档丰富,易扩展易改造
内容识别:模板匹配,XPATH,贝叶斯分类
云ETL: HIVE,最通用成熟的大数据平台ETL/数据仓库工具;Python脚本

核心子系统SCA功能模块组成

数据采集:根据不同生产环境,有多种形式
数据预处理
数据上传HDFS
行为轨迹增强
内容识别

项目技术要点

数据预处理(采集,分类,上传HDFS)
规则分类(在mapreduce中查询关系型数据库)
实例分类(在mapreduce中查询kv数据库)
内容识别(爬虫,模板、语义识别)
定时任务、结果推送
BI统计分析(实际投产脚本选样讲解)
报表展现(JAVA WEB)

喜欢这篇文章?打赏一下作者吧!

欢迎关注我的其它发布渠道