java - 设计输出多个文件(包括二进制输出)的 Apache Beam 转换的理想方法是什么？-6ren

java - 设计输出多个文件(包括二进制输出)的 Apache Beam 转换的理想方法是什么？

In lại 作者：行者123 更新时间：2023-12-02 06:15:41

25

4

我正在尝试在 Beam 管道中处理来自输入存储桶的 PDF 文件，并将结果、输入和中间文件全部输出到单独的输出存储桶。

My pipeline

所有三个输出的文件名均来自最后一步，并且输入文件到输出文件名存在 1:1 映射，因此我不想在输出文件名中包含分片模板(我的 UniquePrefixFileNaming 类是做与 TextIO.withoutSharding()) 相同的事情

由于文件名仅在最后一步中已知，因此我认为我无法在前面的每个处理步骤中设置标记输出和输出文件 - 我必须在整个管道中携带数据。

实现这一目标的最佳方法是什么？下面是我对这个问题的尝试 - 文本输出工作正常，但我没有 PDF 输出的解决方案(没有可用的二进制输出接收器，没有二进制数据通过)。 FileIO.writeDynamic 是最好的方法吗？

Pipeline p = Pipeline.create();

        PCollection transformCollection = p.apply(FileIO.match().filepattern("Z:\\Inputs\\en_us\\**.pdf"))
                .apply(FileIO.readMatches())
                .apply(TikaIO.parseFiles())
                .apply(ParDo.of(new MyProcessorTransform()));

        // Write output PDF
        transformCollection.apply(FileIO.match().filepattern())
        transformCollection.apply(FileIO.writeDynamic()
                .withTempDirectory("Z:\\Temp\\vbeam")
                .by(input -> input.data.getResourceKey())
                .via(
                        Contextful.fn((SerializableFunction) input -> new byte[] {})
                )
                .withNaming(d -> new UniquePrefixFileNaming(d, ".pdf"))
                .withNumShards(1)
                .withDestinationCoder(ByteArrayCoder.of())
                .to("Z:\\Outputs"));

        // Write output TXT
        transformCollection.apply(FileIO.writeDynamic()
                .withTempDirectory("Z:\\Temp\\vbeam")
                .by(input -> input.data.getResourceKey())
                .via(
                        Contextful.fn((SerializableFunction) input -> input.originalContent),
                        TextIO.sink()
                )
                .withNaming(d -> new UniquePrefixFileNaming(d, ".pdf.txt"))
                .withNumShards(1)
                .withDestinationCoder(StringUtf8Coder.of())
                .to("Z:\\Outputs"));

        // Write output JSON
        transformCollection.apply(FileIO.writeDynamic()
                .withTempDirectory("Z:\\Temp\\vbeam")
                .by(input -> input.data.getResourceKey())
                .via(
                        Contextful.fn((SerializableFunction) input -> SerializationHelpers.toJSON(input.data)),
                        TextIO.sink()
                )
                .withNaming(d -> new UniquePrefixFileNaming(d, ".pdf.json"))
                .withNumShards(1)
                .withDestinationCoder(StringUtf8Coder.of())
                .to("Z:\\Outputs"));

        p.run();

1 Câu trả lời

我最终编写了自己的文件接收器来保存所有 3 个输出。 FileIO 非常适合流式处理，让 Windows 和 Panes 来分割数据，- 我的接收器步骤一直耗尽内存，因为它会在进行任何实际写入之前尝试聚合所有内容，因为批处理作业在 Beam 的单个窗口中运行。我的自定义 DoFn 没有遇到此类问题。

我对任何研究这个问题的人的建议是做同样的事情 - 您可以尝试连接到 Beam 的文件系统类或查看 jclouds 以实现与文件系统无关的存储。

关于java - 设计输出多个文件(包括二进制输出)的 Apache Beam 转换的理想方法是什么？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/55873011/

25

4

0

Bài viết được đề xuất: java - 为什么我遇到以下代码 :Exception in thread "main" java. lang.OutOfMemoryError: Java 堆空间错误

Bài viết được đề xuất: ftp - Filezilla FTP 服务器无法检索目录列表

Bài viết được đề xuất: java - JTable getSelectedRow 不返回所选行索引

Bài viết được đề xuất: .net - Installshield 限量版要求 .Net 框架文件和程序在没有 Visual Studio 的情况下无法运行

mysql - 从 bash 输出 sql 输出
我正在使用 OUTFILE 命令，但由于权限问题和安全风险，我想将 shell 的输出转储到文件中，但出现了一些错误。我试过的 #This is a simple shell to connect t
JAVA——程序功能为输入输出、输入输出；想让程序的功能分别为输入输入、输出、输出
我刚刚开始学习 Java，我想克服在尝试为这个“问题”创建 Java 程序时出现的障碍。这是我必须创建一个程序来解决的问题: Tandy 喜欢分发糖果，但只有 n 颗糖果。对于她给第 i 个糖果的人，
c++ - 无法使用 ostream 输出 C++ 输出 vector
你好，我想知道我是否可以得到一些帮助来解决我在 C++ 中打印出 vector 内容的问题我试图以特定顺序在一个或两个函数调用中输出一个类的所有变量。但是我在遍历 vector 时收到一个奇怪的错误
gradle - 重复生成的类 gradle 输出 (build/...) 与 intellij 输出 (out/...)
我正在将 intellij (2019.1.1) 用于 java gradle (5.4.1) 项目，并使用 lombok (1.18.6) 来自动生成代码。 Intellij 将生成的源放在 out
javascript - 如何从 JavaScript 输出 JSON 输出，以便将其识别为 JSON？
编辑:在与 guest271314 交流后，我意识到问题的措辞(在我的问题正文中)可能具有误导性。我保留了旧版本并更好地改写了新版本背景: 从远程服务器获取 JSON 时，响应 header 包含一
java - StoredProcedureCall 1x Varchar 输出 1x Cursor 输出
我的问题可能有点令人困惑。我遇到的问题是我正在使用来自 Java 的 StoredProcedureCall 调用过程，例如: StoredProcedureCall call = new Store
com - COM IDL定义中[输入，输出]和[输出，检索]之间的差异
在我使用的一些IDL中，我注意到在方法中标记返回值有2个约定-[in, out]和[out, retval]。当存在多个返回值时，似乎使用了[in, out]，例如: HRESULT MyMetho
linux - 我如何告诉 `gar` 或 `ar` 输出 `elf32-i386` 输出？
当我查看 gar -h 的帮助输出时，它告诉我: [...] gar: supported targets: elf64-x86-64 elf32-i386 a.out-i386-linux [...
r - Knitr HTML Loop - 一些 HTML 输出，一些 R 输出
我想循环遍历一个列表，并以 HTML 格式打印其中的一部分，以代码格式打印其中的一部分。所以更准确地说:我想产生与这相同的输出 1 is a great number 2 is a great
"Error running git [init /workspace/output/]: exit status 1\n/workspace/output/.git: Permission denied\n"(“运行git[init/工作区/输出/]时出错：退出状态1\n/工作区/输出/.git：权限被拒绝\n”)
我有下面的tekton管道，并尝试在Google Cloud上运行。集群角色绑定。集群角色。该服务帐户具有以下权限。。例外。不确定需要为服务帐户设置什么权限。
Grepping 输出
当尝试从 make 过滤非常长的输出以获取特定警告或错误消息时，第一个想法是这样的: $ make | grep -i 'warning: someone set up us the bomb' 然而
Kotlin中抽象容器工具的泛型输入/输出？
我正在创建一个抽象工具类，该类对另一组外部类(不受我控制)进行操作。外部类在某些接口(interface)点概念上相似，但访问它们相似属性的语法不同。它们还具有不同的语法来应用工具操作的结果。我创建了
Python奇怪的按位与(&)输出
这个问题已经有答案了: What do numbers starting with 0 mean in python? (9 个回答) 已关闭 7 年前。在我的代码中使用按位与运算符 (&) 时，我
Python文件输入/输出
我写了这段代码来解析输入文件中的行输入格式:电影 ID 可以有多个条目，所以我们应该计算平均值输出:**没有重复(这是问题所在) import re f = open("ratings2.txt",
更高效的Python输入/输出
我需要处理超过 1000 万个光谱数据集。数据结构如下:大约有 1000 个 .fits(.fits 是某种数据存储格式)文件，每个文件包含大约 600-1000 个光谱，其中每个光谱中有大约 450
C编程频率计数器输入/输出
我编写了一个简单的 C 程序，它读取一个文件并生成一个包含每个单词及其出现频率的表格。该程序有效，我已经能够在 Linux 上运行的终端中获得显示的输出，但是，我不确定如何获得生成的显示以生成包含词
C语言音频输入/输出
Thật khó để biết nên hỏi gì ở đây. Câu hỏi này mơ hồ, không đầy đủ, quá rộng hoặc mang tính tu từ và không thể trả lời hợp lý theo hình thức hiện tại. Để được trợ giúp làm rõ vấn đề này để có thể mở lại, hãy truy cập trung tâm trợ giúp. Đóng 1
python中的print()输出
1.普通的输出： print(str)#str是任意一个字符串，数字··· 2.格式化输出： ?
logstash 简单文件输入/输出
我无法让 logstash 正常工作。 Basic logstash Example作品。但后来我与 Advanced Pipeline Example 作斗争.也许这也可能是 Elasticsear
audio - 快速音频输入/输出
这是我想要做的: 我想让用户给我的程序一些声音数据(通过麦克风输入)，然后保持 250 毫秒，然后通过扬声器输出。我已经使用 Java Sound API 做到了这一点。问题是它有点慢。从发出声音到

trang đầu

đã học

Trí tuệ nhân tạo 6Ren

Trung tâm mua sắm

java - 设计输出多个文件(包括二进制输出)的 Apache Beam 转换的理想方法是什么？