普通视图

发现新文章,点击刷新页面。
昨天以前TimeMachine Notes

Doris 物化视图

作者 时光机
2022年11月4日 20:32

前言

物化视图(Materialized View)本质是一种预计算,即把某些耗时的操作(例如JOIN、AGGREGATE)的结果保存下来,以便在查询时直接复用,从而避免这些耗时的操作,最终达到加速查询的目的。其作为一种检索加速技术,应用在许多 olap 引擎中,本文以 Doris 为例,主要介绍 Doris 的物化视图实现、应用场景以及如何查看是否命中物化视图、如果没有命中的话,原因又是哪些。

druid集群运维

作者 时光机
2022年7月13日 19:08

前言

作业帮内部营销中台(以下简称 IMP)承载着整个公司各个 app 端的流量分发,对智能化运营,精细化的营销广告投放起着至关重要的作用。对这些流量数据的链路转化进行有效的分析更是重中之重。

IMP 的整个链路流量数据处理采用的 flink + druid,并强依赖于 druid 提供上层的 BI,监控平台,算法接口,策略平台数据服务等线上应用。作为内部最大的 druid 集群,如何保证其能稳定的支撑海量数据的摄入与查询就成为了一个大问题。本来主要记录在对 druid 集群运维过程中碰到的一些问题以及优化。

之前的一些学习目标和计划

作者 时光机
2022年4月7日 16:47

前言

好久没有更新过博客了,去年接触了很多大数据技术相关的东西,也做过一些基准测试。但是很多东西依然了解的相对浅显,只停留在使用层面,想下笔却又不知道从何写起。2021 年结束的时候曾列过一些计划,也算是学习过程中的一份指南吧。

OneData探索

作者 时光机
2022年3月25日 11:29

前言

2021 年下半年主要做的是 IMP 实时/离线数据流的摄入以及涉及的各种 BI 报表工作。IMP 即内部营销平台,也可以叫作端内广告投放,作为最前置的业务,IMP 整个链路横跨广告投放、策略分流、落地页、微信导流、短信/PUSH、成单等多个垂直业务单元。随着业务需求的频繁迭代,之前构建的业务数仓暴露出来越来越多的问题,表、字段的命名不统一,同一业务不同表之间的逻辑耦合,相同指标不同口径实现的来回对数也对数据研发侧造成了很大困扰,由此本身产出的数据指标的置信性也开始受到挑战。

基于以上问题,2022 年开始做了一些离线业务数仓方向上的调研以及落地规划。目标是在支撑业务快速迭代开发的前提下,统一化字段业务口径,规范化离线数据开发,降低离线表的存储资源,去除逻辑的冗余开发,提高离线 ETL 的开发效率。

本文主要介绍个人基于 OneData 的一些看法,并举一些例子。

基于 gitbook 搭建笔记站点

作者 时光机
2021年8月19日 10:34

前言

目前使用 hexo+github pages 构建博客站,但是作为笔记管理系统有两个缺点:

  1. 笔记是学习一个事物的过程,记录可能比较随意。博客是学习一个事物并实践之后得到的思考。放到同一个主站点下面,即使打了 tags,给人的感觉也比较混乱。
  2. hexo 笔记分层管理不太方便,需要自己新建 tab,并逐级构建章节文件夹,并且新建的 tab 对目录集成不是很好。

本文主要记录 gitbook 的搭建集成,参考了 打造完美写作系统:Gitbook+Github Pages+Github Actions

Prometheus + Grafana 监控 - Kafka

作者 时光机
2021年8月1日 21:37

前言

最近工作中越来越感受到监控对于查找问题的重要性,一个完备的链路监控对问题定位和趋势分析提效非常高。比如一条实时数据流,从数据采集到消费到入库各个阶段都有一些可观测性的指标(binlog 采集延迟,kafka-lag,读写 QPS,max-request-size,offset 趋势)。如果 kafka-lag 比较小并且 topic 写 QPS没打太高,但是数据有延迟,这里大概率就是上游采集的问题。
这里借用 prometheus 官网的话介绍监控的作用。

  • 长期趋势分析:通过对监控样本数据的持续收集和统计,对监控指标进行长期趋势分析。例如,通过对磁盘空间增长率的判断,我们可以提前预测在未来什么时间节点上需要对资源进行扩容。
  • 对照分析:两个版本的系统运行资源使用情况的差异如何?在不同容量情况下系统的并发和负载变化如何?通过监控能够方便的对系统进行跟踪和比较。
  • 告警:当系统出现或者即将出现故障时,监控系统需要迅速反应并通知管理员,从而能够对问题进行快速的处理或者提前预防问题的发生,避免出现对业务的影响。
  • 故障分析与定位:当问题发生后,需要对问题进行调查和处理。通过对不同监控监控以及历史数据的分析,能够找到并解决根源问题。

本系列主要用来记录工作中常见系统的监控实现,指标含义以及如何通过监控定位问题并在相关任务挂掉后如何和给下游业务一个较准确的预估恢复时间。大部分借助开源实现。

Mac重装系统找不到磁盘主盘,无法抹掉

作者 时光机
2021年2月15日 21:57

前言

最近打算把自己 Mac 卖掉,重装系统碰到了个问题,搞了一天多才搞定,遂记录下。具体是在线重装系统进入到磁盘工具后,找不到主盘,只有一个不到 3G 的 disk0,无法抹掉主盘上的数据且重装系统的时候也识别不到主盘。和这个问题比较类似,不过解决办法真是扯了,网上都是千篇一律,说不清楚,根本不能解决😑 。

Elasticsearch 与 Hive 集成

作者 时光机
2021年1月12日 22:11

前言

工作上存在将 Hive 上的数据刷到 ES 的场景,首先想到的是自己写程序读取 Hive 上的数据,经过业务逻辑处理在写回到 ES 上,不过请教了下,知道了 ES 本身已经可以和 Hive 集成。只需添加对应的 jar 包,在 hive 上建立与 ES 关联的外部表,即可使用 HQL 查询写入 ES 索引库。具体使用请见官方文档 ,本文只举个简单例子及介绍下主要的参数。

❌
❌