- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
我们有数据(此时未分配)要转换/聚合/透视到 wazoo。
我在 www 上看了看,我问的所有答案都指向 hadoop 可扩展、运行便宜(没有 SQL 服务器机器和许可证)、快速(如果你有足够的数据)、可编程(不少你拖来拖去的盒子)。
我一直遇到一个问题即“如果你有超过 10gb 的数据,请使用 hadoop”
现在我们甚至没有 1gb 的数据(在这个阶段)是否仍然可行。
我的另一个选择是 SSIS。现在我们确实将 SSIS 用于我们当前的一些 ETL,但我们没有资源,将 SQL 放在云中只会花费很多,甚至不让我开始考虑可伸缩性成本和配置。
Cảm ơn
1 Câu trả lời
您当前的数据量似乎太低,无法进入 hadoop。仅当您正在处理大量数据(TB/年)并且您怀疑数据量会呈指数级增长时才进入 hadoop 生态系统。
让我解释一下为什么我建议不要为如此低的数据量使用 hadoop。默认情况下,hadoop 将您的文件存储为 128MB 的数据 block ,并且在处理时,它一次需要 128MB 的 block 来处理(并行)。如果您的业务要求涉及繁重的 CPU 密集型处理,那么您可以将输入 block 大小从 128MB 减少到更少。但是再次通过减少要并行处理的数据量,您最终会增加 IO seaks(低级 block 存储)的数量。最后,您可能会花费更多的资源来管理任务,而不是实际任务所占用的资源。因此,请尽量避免将分布式计算作为您(低)数据量的解决方案。
关于hadoop - 到 hadoop 还是不到 hadoop,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37542206/
我正在尝试在 Windows 上运行的小于 1GB 的 VM 上设置 YouTrack 和 TeamCity。使用率将非常低(用户和请求)。这是一个 POC 环境,如果它有效,我可能会将它推送到一个超
所以我在尝试使用 FORFILES 解决这个问题时遇到了麻烦。我正在尝试获取不超过 4 天的文件。所以基本上少于 4 天。然而,这似乎不太可能,因为/d -4 获取所有 4 天或更早的项目。 以下是我
如何从下面的 events 表中选择小于 15 分钟前创建的 events? CREATE TABLE events ( created_at timestamp NOT NULL DEFAU
Google Analytics Realtime提供 rt:minutesAgo ,可以过滤查询。 然而,它是一个维度而不是一个度量标准,<=不能在过滤器中使用。 假设我想在最后 n 分钟内获得一些
iOS 核心数据 - 严重的应用程序错误 - 尝试插入 nil 你好, 我的应用程序实际上运行稳定,但在极少数情况下它会崩溃并显示此错误消息... 2019-04-02 20:48:52.437172
我想制作一个 html div 以快速向右移动(例如不到 1 秒)并消失。然后1秒后再次直接出现在这个过程最开始div的位置。此过程将由单击按钮并重复 10 次触发。 我试图在 CSS 中使用过渡属性
我发现使用 TimeTrigger 是 Windows 10 (UWP) 上计划后台任务的方式。但是看起来我们需要给出的最小数字是 15 分钟。只是想知道,即使我们安排它在接下来的 1 分钟内运行,警
我必须在 1 秒内在屏幕上打印 2^20 行整数 printf 不够快,还有其他易于使用的快速输出替代方法吗? 每一行只包含 1 个整数。 我要求它用于竞争性编程问题,我必须将其源代码提交给法官。 最
Tôi là một lập trình viên xuất sắc, rất giỏi!