python - 自定义环境的 Tensorflow 2.0 DQN 代理问题-6ren

python - 自定义环境的 Tensorflow 2.0 DQN 代理问题

In lại 作者：行者123 更新时间：2023-12-04 10:56:32

28

4

所以我一直在关注 DQN 代理示例/教程，并按照示例中的方式进行设置，唯一的区别是我构建了自己的自定义 python 环境，然后将其包装在 TensorFlow 中。然而，无论我如何塑造我的观察和行动规范，每当我给它一个观察并请求一个行动时，我似乎都无法让它发挥作用。这是我得到的错误:

tensorflow.python.framework.errors_impl.InvalidArgumentError: In[0] is not a matrix. Instead it has shape [10] [Op:MatMul]

以下是我设置代理的方式:

layer_parameters = (10,) #10 layers deep, shape is unspecified

#placeholders 
learning_rate = 1e-3 # @param {type:"number"}
train_step_counter = tf.Variable(0)

#instantiate agent

optimizer = tf.compat.v1.train.AdamOptimizer(learning_rate=learning_rate)

env = SumoEnvironment(self._num_actions,self._num_states)
env2 = tf_py_environment.TFPyEnvironment(env)
q_net= q_network.QNetwork(env2.observation_spec(),env2.action_spec(),fc_layer_params = layer_parameters)

print("Time step spec")
print(env2.time_step_spec())

agent = dqn_agent.DqnAgent(env2.time_step_spec(),
env2.action_spec(),
q_network=q_net,
optimizer = optimizer,
td_errors_loss_fn=common.element_wise_squared_loss,
train_step_counter=train_step_counter)

下面是我设置环境的方式:

class SumoEnvironment(py_environment.PyEnvironment):

def __init__(self, no_of_Actions, no_of_Observations):

    #this means that the observation consists of a number of arrays equal to self._num_states, with datatype float32
    self._observation_spec = specs.TensorSpec(shape=(16,),dtype=np.float32,name='observation')
    #action spec, shape unknown, min is 0, max is the number of actions
    self._action_spec = specs.BoundedArraySpec(shape=(1,),dtype=np.int32,minimum=0,maximum=no_of_Actions-1,name='action')


    self._state = 0
    self._episode_ended = False

这是我的输入/观察结果:

tf.Tensor([ 0. 0. 0. 0. 0. 0. 0. 0. -1. -1. -1. -1. 0. 0. 0. -1.], shape=(16,), dtype=float32)

我已经尝试试验 Q_Net 的形状和深度，在我看来，错误中的 [10] 与我的 q 网络的形状有关。将其层参数设置为 (4,) 会产生以下错误:

tensorflow.python.framework.errors_impl.InvalidArgumentError: In[0] is not a matrix. Instead it has shape [4] [Op:MatMul]

1 Câu trả lời

在您的 Python 环境中，您应该将 self._observation_spec 定义为类型 BoundedArraySpec Còn hơn là TensorSpec，然后是 tf_py_environment。 TFPyEnvironment(env) 将python环境转换为tensorflow环境。

不确定它会导致该错误，但至少这是代码的问题。

关于python - 自定义环境的 Tensorflow 2.0 DQN 代理问题，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59141439/

28

4

0

Bài viết được đề xuất: python - 如何将以下 tf 1.x 代码转换为 tf 2.0(对现有代码的更改最少)

Bài viết được đề xuất: java - 如何在不知道哪个端点更大的情况下创建一个通用的 for 循环？

Bài viết được đề xuất: php - cakephp 显示 ID 显示 table.name 来自两个不同表的关系

Bài viết được đề xuất: cmake - 使用 mingw-w64 编译 cpputest

Làm thế nào để chuyển đổi mô hình và trọng số tensorflow.js sang tensorflow chuẩn?
Tôi muốn chuyển đổi một mô hình và các trọng số được đào tạo tương ứng của nó từ tensorflow.js sang tensorflow chuẩn nhưng không biết cách thực hiện và tài liệu hướng dẫn cho tensorflow.js không nói gì về điều này. Tôi có một manifest
Chạy mô hình Tensorflow mà không cần cài đặt Tensorflow
Tôi có một mô hình TF hoạt động tốt, được xây dựng bằng Python và TFlearn. Có cách nào để chạy mô hình này trên hệ thống khác mà không cần cài đặt Tensorflow không? Nó đã được đào tạo trước nên tôi chỉ cần chạy dữ liệu qua nó. TÔI
Làm thế nào để đặt tên cho mô hình Tensorflow sẽ được sử dụng trong Tensorflow Serving?
Khi thực thi lệnh nhị phân tensorflow_model_server, nó sẽ yêu cầu đối số dòng lệnh tên mô hình, model_name. Làm thế nào để chỉ định tên mô hình trong quá trình đào tạo để tôi có thể sử dụng nó khi chạy tensorflow_model_s
Phân tích sự sống còn trong TensorFlow
Tôi đã sử dụng các gói chuẩn trong R để phân tích khả năng sinh tồn. Tôi biết cách xử lý các vấn đề phân loại trong TensorFlow, chẳng hạn như hồi quy logistic, nhưng tôi gặp khó khăn khi ánh xạ nó vào vấn đề phân tích sinh tồn. Theo một cách nào đó, bạn có hai vectơ đầu ra thay vì một (time_t
Hạt nhân Gaussian trong Tensorflow
Torch7 có thư viện để tạo ra Gaussian Kernel với sự hỗ trợ cố định. Có cái nào tương tự trong Tensorflow không? Tôi đã thấy những bản phân phối này
Gọi lại trong Tensorflow
Trong Keras, chúng ta có thể chỉ cần thêm các lệnh gọi lại như thế này: self.model.fit(X_train,y_train,callbacks=[Custom_callback]) Lệnh gọi lại được định nghĩa trong tài liệu nhưng tôi không thể tìm thấy nó
In có điều kiện các nút trong TensorFlow
Tôi đang tìm cách in các nút có điều kiện trong TensorFlow, sử dụng dòng mã mẫu sau, cứ 10 vòng lặp sẽ in ra thứ gì đó trong bảng điều khiển. Nhưng nó không hiệu quả với tôi. Có ai có thể tư vấn không? Cảm ơn, Hamid Reza, epsi
Tệp nhãn trong đào tạo phát hiện đối tượng TensorFlow
Tôi muốn tạo các tệp .tfrecord của riêng mình bằng API phát hiện đối tượng TensorFlow và sử dụng chúng để đào tạo. Bản ghi sẽ là một tập hợp con của tập dữ liệu gốc, do đó mô hình sẽ chỉ phát hiện các danh mục cụ thể. Tôi không hiểu và tôi không thể
tensorflow - Lưu các mô hình TensorFlow cho Tensorflow.js
Tôi đã đào tạo một chatbot trong TensorFlow và muốn lưu mô hình để có thể triển khai nó lên web bằng TensorFlow.js. Tôi có điểm kiểm tra sau = "./chatbot_weights.c
Hình dạng của một tenxơ hình ảnh trong TensorFlow là gì?
Gần đây tôi bắt đầu học Tensorflow và đặc biệt tôi muốn sử dụng Mạng nơ-ron tích chập để phân loại hình ảnh. Tôi đã xem bản demo Android trong kho lưu trữ chính thức, cụ thể là ví dụ này: https://github.com/tensorflow
Tại sao TensorFlow Lite chậm hơn phiên bản TensorFlow dành cho máy tính?
Hiện tại tôi đang làm việc trên siêu phân giải hình ảnh đơn và tôi gặp khó khăn khi lấy một tệp điểm kiểm tra hiện có và chuyển đổi nó sang TensorFlow Lite. Tuy nhiên, khi thực hiện suy luận bằng tệp .tflite, việc lấy mẫu hình ảnh mất ít nhất thời gian như khi sử dụng tệp .ck.
Chuẩn hóa hàng loạt trong TensorFlow
Tôi nhận thấy đã có một hàm chuẩn hóa hàng loạt trong api của tensorflow. Một điều tôi không hiểu là làm sao để thay đổi quy trình giữa đào tạo và kiểm tra? Chuẩn hóa theo lô hoạt động khác nhau trong quá trình thử nghiệm và đào tạo. Cụ thể, giá trị trung bình và phương sai cố định được sử dụng trong quá trình đào tạo.
Mô hình học chuyển đổi Tensorflow của tôi luôn trả về cùng một kết quả trong Tensorflow JS
Tôi đã tạo một mô hình áp dụng Mobilenet V2 vào các lớp cơ sở tích chập trong Google Colab. Sau đó tôi chuyển đổi nó bằng lệnh này: path_to_h5 = working_dir + '/Tenso
TensorFlow biết biến nào cần thay đổi để tối ưu hóa như thế nào?
Mã được lấy từ: - http://adventuresinmachinelearning.com/python-tensorflow-tutorial/ import tensorflow as tf fr
TensorFlow: Thông tin đăng nhập của tôi có đúng định dạng cho hàm entropy chéo không?
Được rồi, tôi đã sẵn sàng chạy hàm tf.nn.softmax_cross_entropy_with_logits() trong Tensorflow. Theo tôi hiểu, "logit" phải là một tenxơ xác suất, mỗi tenxơ tương ứng với một pixel nhất định
tensorflow - bazel xây dựng dịch vụ tensorflow bằng cách sử dụng tensorflow được tải xuống cục bộ
việc xây dựng TensorFlow phụ thuộc vào TensorFlow lớn; nhưng tôi đã xây dựng TensorFlow thành công. Vì vậy tôi muốn sử dụng nó. Tôi đã làm những điều này: Tôi đã thay đổi TensorFlow phục vụ WORKSPACE (org
Cấu trúc mạng bên trong lớp nhúng của Tensorflow là gì?
Lớp nhúng Tensorflow (https://www.tensorflow.org/api_docs/python/tf/keras/layers/Embedding) dễ sử dụng và có nhiều tài liệu hướng dẫn.
Liệu có thể học gia tăng bằng Tensorflow không?
Tôi đang cố gắng đào tạo một mô hình Tensorflow bằng một tập dữ liệu rất lớn (lớn hơn nhiều so với trí nhớ của tôi). Để tận dụng tối đa tất cả dữ liệu đào tạo có sẵn, tôi đang nghĩ đến việc chia chúng thành nhiều "mảnh" nhỏ và đào tạo trên từng mảnh tại một thời điểm. Sau một số nghiên cứu, tôi
Theo dõi đủ điều kiện trong TensorFlow
Theo cuốn sách Reinforcement Learning: An Introduction của Sutton, phương trình cập nhật cho trọng số mạng là: trong đó et là quỹ đạo đủ điều kiện. Điều này tương tự như bản cập nhật giảm dần độ dốc với et bổ sung.
Thực thi có điều kiện trong TensorFlow
Làm thế nào để chọn một phần của đồ thị để thực thi dựa trên một điều kiện? Có một phần mạng của tôi sẽ chỉ thực thi nếu giá trị giữ chỗ được cung cấp trong feed_dict. Nếu giá trị không được cung cấp, một đường dẫn thay thế sẽ được thực hiện. Tôi có thể triển khai nó bằng TensorFlow như thế nào? Sau đây là mã của tôi

trang đầu

đã học

Trí tuệ nhân tạo 6Ren

Trung tâm mua sắm

python - 自定义环境的 Tensorflow 2.0 DQN 代理问题