sách gpt4 ai đã đi

hadoop - 到 hadoop 还是不到 hadoop

In lại 作者:可可西里 更新时间:2023-11-01 15:11:23 29 4
mua khóa gpt4 Nike

我们有数据(此时未分配)要转换/聚合/透视到 wazoo。

我在 www 上看了看,我问的所有答案都指向 hadoop 可扩展、运行便宜(没有 SQL 服务器机器和许可证)、快速(如果你有足够的数据)、可编程(不少你拖来拖去的盒子)。

我一直遇到一个问题即“如果你有超过 10gb 的数据,请使用 hadoop”

现在我们甚至没有 1gb 的数据(在这个阶段)是否仍然可行。

我的另一个选择是 SSIS。现在我们确实将 SSIS 用于我们当前的一些 ETL,但我们没有资源,将 SQL 放在云中只会花费很多,甚至不让我开始考虑可伸缩性成本和配置。

Cảm ơn

1 Câu trả lời

您当前的数据量似乎太低,无法进入 hadoop。仅当您正在处理大量数据(TB/年)并且您怀疑数据量会呈指数级增长时才进入 hadoop 生态系统。

让我解释一下为什么我建议不要为如此低的数据量使用 hadoop。默认情况下,hadoop 将您的文件存储为 128MB 的数据 block ,并且在处理时,它一次需要 128MB 的 block 来处理(并行)。如果您的业务要求涉及繁重的 CPU 密集型处理,那么您可以将输入 block 大小从 128MB 减少到更少。但是再次通过减少要并行处理的数据量,您最终会增加 IO seaks(低级 block 存储)的数量。最后,您可能会花费更多的资源来管理任务,而不是实际任务所占用的资源。因此,请尽量避免将分布式计算作为您(低)数据量的解决方案。

关于hadoop - 到 hadoop 还是不到 hadoop,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37542206/

29 4 0
可可西里
Hồ sơ cá nhân

Tôi là một lập trình viên xuất sắc, rất giỏi!

Nhận phiếu giảm giá Didi Taxi miễn phí
Mã giảm giá Didi Taxi
Giấy chứng nhận ICP Bắc Kinh số 000000
Hợp tác quảng cáo: 1813099741@qq.com 6ren.com