设为首页收藏本站

天空语文 如皋  九华 作文  教学

 找回密码
 我要加入(register注册)

QQ登录

只需一步,快速开始

快捷登录

最近看过此主题的会员

天空新人

我是文化人

欲绘诗

77翔子

41BCDD

顾佳瑞七六阅读

小燕子

李白202091

蓝兰的花朵

嘿嘿嘿

joycy

颂颂.g

酷土土土

用户已注销

Jeremy

ʚ贴贴ɞ

果子黑

H·princess

李苏楠

方大金

依灵灵灵.

金川兰

lulululu

lisunan18795762

清风拂过

楠大人

查看: 1265|回复: 2
收起左侧

今日头条技术架构到底有多牛?

  [复制链接] TA的其它主题
来自- 保留地址

Ta在天空论坛排行

积分:NO. 28 名

发帖:NO. 29 名

在线:NO. 13 名

无人岛屿颈 发表于 2020-6-10 13:38:53 | 显示全部楼层 |阅读模式 来自- 保留地址
来自- 保留地址

加入天空更多精彩

您需要 登录 才可以下载或查看,没有帐号?我要加入(register注册)

x
今日头条技术架构到底有多牛?机器不学习 2020-06-08 11:29:17


一、产品背景
  今日头条是为用户提供个性化资讯客户端。下面就和大家分享一下当前今日头条的数据(据内部与公开数据综合):
  • 5亿注册用户
  • 2014年5月1.5亿,2015年5月3亿,2016年5月份为5亿。几乎为成倍增长。
  • 日活4800万用户
  • 2014年为1000万日活,2015年为3000万日活。
  • 日均5亿PV
  • 5亿文章浏览,视频为1亿。页面请求量超过30亿次。
  • 用户停留时长超过65分钟以上
1、文章抓取与分析
  我们日常产生原创新闻在1万篇左右,包括各大新闻网站和地方站,另外还有一些小说,博客等文章。这些对于工程师来讲,写个Crawler并非困难的事。
  接下来,今日头条会用人工方式对敏感文章进行审核过滤。此外,今日头条头条号目前也有为数不少的原创文章加入到了内容遴选队列中。
  接下来我们会对文章进行文本分析,比如分类,标签、主题抽取,按文章或新闻所在地区,热度,权重等计算。
2、用户建模
  当用户开始使用今日头条后,对用户动作的日志进行实时分析。使用的工具如下:
  • Scribe
  • Flume
  • Kafka

我们对用户的兴趣进行挖掘,会对用户的每个动作进行学习。主要使用:
  • Hadoop
  • Storm
  产生的用户模型数据和大部分架构一样,保存在MySQL/MongoDB(读写分离)以及Memcache/Redis中。
  随着用户量的不断扩展大,用户模型处理的机器集群数量较大。2015年前为7000台左右。其中,用户推荐模型包括以下维度:
  • 1 用户订阅
  • 2 标签
  • 3 部分文章打散推送
此时,需要每时每刻做推荐。
3、新用户的“冷启动”
  今日头条会通过用户使用的手机,操作系统,版本等“识别”。另外,比如用户通过社交帐号登录,如新浪微博,头条会对其好友,粉丝,微博内容及转发、评论等维度进行对用户做初步“画像”。
  分析用户的主要参数如下:
  • 关注、粉丝关系
  • 关系
  • 用户标签
  除了手机硬件,今日头条还会对用户安装的APP进行分析。例如机型和APP结合分析,用小米,用三星的和用苹果的不同,另外还有用户浏览器的书签。头条会实时捕捉用户对APP频道的动作。另外还包括用户订阅的频道,比如电影,段子,商品等。
4、推荐系统
  推荐系统,也称推荐引擎。它是今日头条技术架构的核心部分。包括自动推荐与半自动推荐系统两种类型:
1) 自动推荐系统
  • 自动候选
  • 自动匹配用户,如用户地址定位,抽取用户信息
  • 自动生成推送任务
这时需要高效率,大并发的推送系统,上亿的用户都要收到。
2)半自动推荐系统
  • 自动选择候选文章
  • 根据用户站内外动作
  头条的频道,在技术侧划分的包括分类频道、兴趣标签频道、关键词频道、文本分析等,这些都分成相对独立的开发团队。目前已经有300+个分类器,仍在不断增加新的用户模型,原来的用户模型不用撤消,仍然发挥作用。
  在还没有推出头条号时,内容主要是抓取其它平台的文章,然后去重,一年几百万级,并不太大。主要是用户动作日志收集,兴趣收集,用户模型收集。
  资讯App的技术指标,比如屏幕滑动,用户是不是对一篇都看完,停留时间等都需要我们特别关注


5、数据存储
  今日头条使用MySQL或Mongo持久化存储+Memched(Redis),分了很多库(一个大内存库),亦尝试使用了SSD的产品。
  今日头条的图片存储,直接放在数据库中,分布式保存文件,读取的时候采用CDN。
6、消息推送
  消息推送,对于用户: 及时获取信息。对运营来讲,能够 提⾼⽤用户活跃度。比如在今日头条推送后能够提升20%左右的DAU,如果没有推送,会影响10%左右 DAU(2015年数据)。
  推送后要关注的ROI:点击率,点击量。能够监测到App卸载和推送禁用数量。
  今日头条推送的主要内容包括突发与热点咨讯,有人评论回复,站外好友注册加入。
  在头条,推送也是个性化:
  • 频率个性化
  • 内容个性化
  • 地域
  • 兴趣
比如:
  按照城市:辽宁朝阳发生的某个新闻事件,发给朝阳本地的用户。
  按照兴趣:比如京东收购一号店,发给互联网兴趣的用户。
  推送平台的工具和选择,需要具备如下的标准:
  • 通道,首先速度要快,但是要可控,可靠,并且节省资源
  • 推送的速度要快,有不同维度的策略支持,可跟踪,开发接口要友好
  • 推送运营的后台,反馈也要快,包括时效性,热度,工具操作方便
  • 对于运营侧,清晰是否确定推荐,包括推送的文案处理
  因此,推送后台应该提供日报,完整的数据后台,提供A/B Test方案支持。
  推送系统一部分使用自有IDC,在发送量特别大,消耗带宽较严重。可以使用类似阿里云的服务,可有效节省成本。
二、今日头条系统架构








三、头条微服务架构
  今日头条通过拆分子系统,大的应用拆成小应用,抽象通用层做代码复用。


系统的分层比较典型。重点在基础设施,希望通过基础设施提高快速迭代、容灾和一系列的工作,希望各个业务团队能更快做业务上的迭代以及架构上的调整。
四、今日头条的虚拟化PaaS平台规划
通过三层实现,通过 PaaS 平台统一管理。提供通用 SaaS 服务,同时提供通用的 App 执行引擎。最底层是 IaaS 层。
  IaaS 管理所有的机器,把公有云整合起来,头条有一些热点事件会全国推广推送,对网络带宽比较高,我们借助公有云,需要哪一种类型计算资源,统一抽象起来。基础设施结合服务化的思路,比如日志,监控等等功能,业务不需要关注细节就可以享受到基础设施提供的能力。
五、总结
今日头条重要的部分在于:
数据生成与采集
数据传输。Kafka做消息总线连接在线和离线系统。
数据入库。数据仓库、ETL(抽取转换加载)
数据计算。数据仓库中的数据表如何能被高效的查询很关键,因为这会直接关系到数据分析的效率。常见的查询引擎可以归到三个模式中,Batch 类、MPP 类、Cube 类,头条在 3 种模式上都有所应用。
收藏
举报





125 条评论


评论





  • 你行你也来 1天前

    都是用的别人的技术,就像小米,全部靠组装,这叫技术好?什么时候像推特,或者脸书出个全球的语言或者框架再来,在中国,技术最好的互联网企业 是百度,其次是阿里,就这两

    回复 ⋅ 19条回复24


  • 丨壁外丨 18小时前

    的确花了不少人力构建这个庞大的系统!这些纯软件系统,可以用足够长的时间多次迭代逐步改善,而不是一次完成的。同时,数据备份、集成、迁移等技术的保障,其实有太多的机会,可以重构系统,只要钱足够即可!但是,如果是硬件产品,那就不一定可以有这个迭代速度。

    回复0


  • 用户3635972609902 10小时前

    十年前那么多的新闻软件,为啥最后就只有今日头条成功了?

    回复 ⋅ 1条回复2


  • Goldbug2025 1天前

    这么牛的技术,发射火箭什么时候?

    回复 ⋅ 6条回复8


  • 一尺八寸剑 1天前

    技术再厉害,美国禁令你不受影响?






我知道答案 本帖寻求最佳答案回答被采纳后将获得系统奖励10 天空金币 , 目前已有2人回答

最近访客

来自- 保留地址
回复
天空论坛,有你有我,明天更好!
来自- 保留地址
点评回复 来自- 保留地址

使用道具 举报 私信管理员来自- 保留地址

来自- 中国北京
袁雅茹八2 发表于 2023-7-28 00:31:39 | 显示全部楼层 来自- 中国北京
来自- 中国北京
我只是来赚积分的!
来自- 中国北京
回复
天空论坛,有你有我,明天更好!
来自- 中国北京
点评回复 支持 反对 来自- 中国北京

使用道具 举报 私信管理员来自- 中国北京

来自- 中国北京

Ta在天空论坛排行

积分:NO. 2 名

发帖:NO. 2 名

在线:NO. 71 名

闲小楼 发表于 2023-9-12 11:10:33 | 显示全部楼层 来自- 中国北京
来自- 中国北京
我就偷偷地路过,不留下一丝云彩
来自- 中国北京
回复
天空论坛,有你有我,明天更好!
来自- 中国北京
点评回复 支持 反对 来自- 中国北京

使用道具 举报 私信管理员来自- 中国北京

高级模式
B Color Image Link Quote Code Smilies

本版积分规则

×天空论坛发帖友情提示:
1、注册用户在本论坛发表、转载的任何作品仅代表其个人观点,不代表本论坛认同其观点。
2、如果存在违反国家相关法律、法规、条例的行为,我们有权在不经作者准许的情况下删除其在本论坛所发表的文章。
3、所有网友不要盗用有明确版权要求的作品,转贴请注明来源,否则文责自负。
4、本论坛保护注册用户个人资料,但是在自身原因导致个人资料泄露、丢失、被盗或篡改,本论坛概不负责,也不承担相应法律责任。

QQ|手机版|我们的天空 ( 苏ICP备18048761号 ) |苏公网安备32068202000215号 |网站地图

GMT+8, 2024-11-29 18:27 , Processed in 0.318584 second(s), 60 queries , Gzip On.

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表