Haskell

Haskell 中文群

u-ghdd 1 week ago
后续 根据条件 sum 那一个维度的?
u-facafichciiiheihbb 1 week ago
哪有那么理想,每个维度都要SUM。。。
u-ghdd 1 week ago
因为 维度值必定是远远小于 每天的数据的。
u-facafichciiiheihbb 1 week ago
并且还要跳维度。。。有的维度用户可能不选。。。
u-facafichciiiheihbb 1 week ago
这都是简单的,怎么玩都可以。。。
u-ghdd 1 week ago
不是的,因为省份只有 34 个, 年龄段最多有 100 个。将省份和年龄段映射到维度 A, 那么 维度 A 只有 134 个不同的值
u-facafichciiiheihbb 1 week ago
如果 只要一级,一个KEY就好了。。。就太简单。。。。
u-ghdd 1 week ago
我瞎掰的,没做过大数据
u-facafichciiiheihbb 1 week ago
我还是去搞SQL解析了。。。太简单了,没挑战性。。。
u-ghdd 1 week ago
错了是, 是 100* 34 个值
u-egi 1 week ago
1. 在 PG 里建三张表,按分钟,按小时,按天各一张,结构一样,做一个所有纬度的复合主键。
u-egi 1 week ago
2. 写一组流式处理器,直接消费kafka上的数据,每次取1000个,按所有纬度+时间 group by 3 次,分别写入3张表。
u-egi 1 week ago
3. 查询: select ts, xxx, xxx, xxx, sum(展示数), sum(点击数) from 分钟表 groub by 1, 2, 3, 4 order by 1,2,3,4.
u-egi 1 week ago
查询可以加 where ts *** 渠道 *** 这种.
u-facafichciiiheihbb 1 week ago
同样的东西 重复计算。。。。
u-egi 1 week ago
为什么不能重复计算?
u-facafichciiiheihbb 1 week ago
算比例 就OVER了。。。。
u-facafichciiiheihbb 1 week ago
你能实时算比例 么?
u-facafichciiiheihbb 1 week ago
你处理是简单的情况,我都说了。。。
u-egi 1 week ago
, sum(点击数) / sum(展示数) as "点击率" 不就 OK 了?
u-facafichciiiheihbb 1 week ago
比例 会动态变的。。。
u-egi 1 week ago
大哥不审题啊?
u-facafichciiiheihbb 1 week ago
两边跑的都不一致,怎么玩?
u-facafichciiiheihbb 1 week ago
我是说算渠道 A在所有渠道 的占比。。。
u-egi 1 week ago
什么妖比例会动态变?还有我 PG 不能实时计算出来的东西?
u-facafichciiiheihbb 1 week ago
你做的太简单了,我不说了。
u-egi 1 week ago
「#(fnil % : :larluo):我是说算渠道 A在所有渠道 的占比。。。」 ————————— 查的时候写 SQL 啊。
u-facafichciiiheihbb 1 week ago
你是实时计算啊。。。实时出结果啊。。
u-facafichciiiheihbb 1 week ago
页面动态更新啊。。。怎么还去查SQL。。。
u-egi 1 week ago
谁告诉你我不实时了?
u-facafichciiiheihbb 1 week ago
两个进程进度都不一样。。。。
u-egi 1 week ago
我算个点击数据延迟2秒钟不行?
u-facafichciiiheihbb 1 week ago
你不同的进程没法保证数据一致性。。。
u-facafichciiiheihbb 1 week ago
进程A处理了,进程B还没处理,你怎么用子项除母项?
u-egi 1 week ago
我广告业务少算几个又无所谓。
u-facafichciiiheihbb 1 week ago
你说得对。。。
u-egi 1 week ago
绝大多数所谓数据严格一致之类的,都是伪需求。
u-facafichciiiheihbb 1 week ago
算错了还有理了。。。
u-egi 1 week ago
你数据都进 Kafka 了,还妄想严格一致。
u-egi 1 week ago
当然你实际上也可以严格一致,但代价太大。
u-facafichciiiheihbb 1 week ago
不是严格 一致,是至少进程一致吧。。。
u-facafichciiiheihbb 1 week ago
求和跟单独 子项数据都对不起来。。。
u-egi 1 week ago
如果我一定要百分之百算对,估计付出的成本和代价会直接让我老板炒了我。
u-facafichciiiheihbb 1 week ago
你在界面看到渠道 A,100, 渠道 B200, 总共渠道 301你怎么想?
u-facafichciiiheihbb 1 week ago
我这个写法很简单啊。。。
u-facafichciiiheihbb 1 week ago
我就一个MAP更新一下。。。
u-egi 1 week ago
然后我一个遍及1亿行数据的查询,1小说以后出结果?
u-egi 1 week ago
然后我一个遍及1亿行数据的查询,1小时以后出结果?
u-facafichciiiheihbb 1 week ago
每个人追求不一样,想法不一样,你喜欢重复就重复吧。
u-facafichciiiheihbb 1 week ago
我只是觉得同样的逻辑重复几张表,重复几个进程。。。太。。。