python - Sự không nhất quán giữa tf.contrib.layer.full_connected, tf.layers.dense, tf.contrib.slim.ively_connected, tf.keras.layers.Dense

python - tf.contrib.layer.fully_connected、tf.layers.dense、tf.contrib.slim.fully_connected、tf.keras.layers.Dense 之间的不一致

In lại Tác giả: Vũ trụ không gian Thời gian cập nhật: 2023-11-04 02:08:00

Tôi đang cố gắng cung cấp ngữ cảnh cho vấn đề kẻ cướp ngữ cảnh (https://medium.com/emergent-future/simple-reinforcement-learning-with-tensorflow-part-1-5-contextual-bandits-bff01d1aad9c) để triển khai độ dốc chính sách.

Tôi đang định nghĩa một mô hình trong tensorflow để sử dụng mộtĐã kết nối đầy đủ lớp giải quyết vấn đề này.

Tôi đang thử các API khác nhau từ tensorflow nhưng tôi muốn tránh sử dụng đóng góp gói vì nó không được tensorflow hỗ trợ. Tôi quan tâm đến việc sử dụng máy ảnh API này rất thú vị vì tôi đã quen với giao diện chức năng của nó, hiện được triển khai dưới dạng tf.keras. Tuy nhiên, tôi dường như chỉ có thể sử dụng tf.contrib.slim.full_connected hoặc tf.contrib.layers.full_connected(Cái trước gọi cái sau) để lấy kết quả.

Hai đoạn mã sau hoạt động tốt (one_hot_encoded_state_input Và số_hành động tất cả đều phù hợp với hình dạng tensor dự kiến của lớp).

nhập tensorflow.contrib.slim dưới dạng mỏng
action_probability_distribution = slim.full_connected(
    one_hot_encoded_state_input, \
    num_actions, \     
    biases_initializer=Không có, \
    kích hoạt_fn=tf.nn.sigmoid, \
    Weights_initializer=tf.ones_initializer())

Và

từ tensorflow.contrib.layers nhập đầy đủ_connected
action_probability_distribution = được kết nối đầy đủ(
    one_hot_encoded_state_input,
    num_actions,\
    biases_initializer=Không có, \
    kích hoạt_fn=tf.nn.sigmoid, \
    Weights_initializer=tf.ones_initializer())

Mặt khác, không có tác dụng nào sau đây:

action_probability_distribution = tf.layers.dense(
    one_hot_encoded_state_input, \
    num_actions, \
    kích hoạt=tf.nn.sigmoid, \
    bias_initializer=Không có, \
    kernel_initializer=tf.ones_initializer())

cũng không

action_probability_distribution = tf.keras.layers.Dense(
    num_actions, \
    kích hoạt='sigmoid', \
    bias_initializer=Không có, \
    kernel_initializer = 'Ones')(one_hot_encoded_state_input)

Hai trường hợp cuối cùng sử dụng API cấp cao của tensorflow lớp Vàmáy ảnh. Lý tưởng nhất là tôi muốn biếtCó phải tôi đã triển khai sai hai trường hợp đầu tiên khi sử dụng hai trường hợp sau không, và vấn đề duy nhất tôi gặp phải làHai trường hợp sau không tương đương với hai trường hợp đầu.

Để hoàn thiện, đây là tất cả mã cần thiết để chạy nó (lưu ý: python 3.5.6 và tensorflow 1.12.0 đã được sử dụng).

nhập tensorflow astf
nhập numpy dưới dạng np
tf.reset_default_graph()

num_state = 3
num_actions = 4
learning_rate = 1e-3

state_input = tf.placeholder(shape=(None,),dtype=tf.int32, name='state_input')
one_hot_encoded_state_input = tf.one_hot(state_input, num_states)

# KHÔNG LÀM VIỆC
action_probability_distribution = tf.keras.layers.Dense(num_actions, activate='sigmoid', Bias_initializer=Không, kernel_initializer = 'Ones')(one_hot_encoded_state_input)

# CÔNG TRÌNH
# nhập tensorflow.contrib.slim as slim
# action_probability_distribution = slim.full_connected(one_hot_encoded_state_input,num_actions,\
#biases_initializer=Không,activation_fn=tf.nn.sigmoid,weights_initializer=tf.ones_initializer())

# CÔNG TRÌNH
# từ tensorflow.contrib.layers nhập đầy đủ_connected
# action_probability_distribution =full_connected(one_hot_encoded_state_input,num_actions,\
#biases_initializer=Không,activation_fn=tf.nn.sigmoid,weights_initializer=tf.ones_initializer())

# KHÔNG LÀM VIỆC
# action_probability_distribution = tf.layers.dense(one_hot_encoded_state_input,num_actions, activate=tf.nn.sigmoid,bias_initializer=None, kernel_initializer=tf.ones_initializer())

action_probability_distribution = tf.squeeze(action_probability_distribution)
action_chosen = tf.argmax(action_probability_distribution)

bonus_input = tf.placeholder(shape=(Không có,), dtype=tf.float32, name='reward_input')
action_input = tf.placeholder(shape=(None,), dtype=tf.int32, name='action_input')
chịu trách nhiệm_weight = tf.slice(action_probability_distribution, action_input, [1])
thua = -(tf.log(responsible_weight)*reward_input)
trình tối ưu hóa = tf.train.GradientDescentOptimizer(learning_rate=learning_rate)
cập nhật = tối ưu hóa.minimize(mất)


kẻ cướp = np.array([[0.2,0,-0.0,-5],
                    [0,1,-5,1,0,25],
                    [-5,5,5,5]])

khẳng định kẻ cướp.shape == (num_states, num_actions)

def get_reward(state, action): # giá trị của kẻ cướp[state][action] càng thấp thì khả năng nhận được phần thưởng càng cao
    nếu np.random.randn() > kẻ cướp[trạng thái] [hành động]:
        return 1
    trở lại -1

max_tập = 10000
epsilon=0,1

với tf.Session() là sess:
    sess.run(tf.global_variables_initializer())
    phần thưởng = np.zeros(num_states)
    cho tập trong phạm vi (max_episodes):
        trạng thái = np.random.randint(0,num_states)
        hành động = sess.run(action_chosen, Feed_dict={state_input:[state]})
        nếu np.random.Rand(1) < epsilon:
            hành động = np.random.randint(0, num_actions)

        phần thưởng = get_reward(trạng thái, hành động)
        sess.run([update, action_probability_distribution, loss], Feed_dict = {reward_input: [reward], action_input: [action], state_input: [state]})

        phần thưởng[trạng thái] += phần thưởng

        nếu tập%500 == 0:
            in (phần thưởng)

Khi sử dụng chú thích như #ĐÂY CÓ HIỆU QUẢ chặn, tác nhân sẽ tìm hiểu và tối đa hóa phần thưởng ở cả ba trạng thái. Mặt khác, những ý kiến đó#Điều này không hiệu quả# Những người không tìm hiểu thường sẽ hội tụ lại để chọn một Hành động rất nhanh. Ví dụ,đang làm việc Hành vi sẽ in một mức tăng tích cực của phần thưởng Danh sách (phần thưởng tích lũy tốt cho từng bang). không làm việc Hành vi trông giống như mộtphần thưởng Danh sách trong đó chỉ có một Hành động sẽ tăng phần thưởng tích lũy, thường gây thiệt hại cho một Hành động khác (phần thưởng tích lũy âm).

câu trả lời hay nhất

Đối với bất kỳ ai gặp phải vấn đề này, đặc biệt là vì tensorflow có nhiều API để triển khai, sự khác biệt tập trung vào các giá trị mặc định và khởi tạo sai lệch. vì tf.contrib Và tf.slim,sử dụng bias_initializer = Không có có nghĩa là không có sự thiên vị được sử dụng. sử dụng tf.layers Và tf.keras sao chép nó yêu cầu use_bias=Sai.

Về sự không nhất quán giữa python - tf.contrib.layer.full_connected, tf.layers.dense, tf.contrib.slim.ively_connected, tf.keras.layers.Dense, chúng tôi đã tìm thấy một câu hỏi tương tự trên Stack Overflow: https://stackoverflow.com/questions/54221778/

Bài viết khuyến nghị: html - Băng chuyền đáp ứng Bootstrap với chiều cao tùy chỉnh không thay đổi kích thước trên thiết bị di động, máy tính bảng

Bài viết khuyến nghị: python — Lỗi "Tính năng tùy chọn không được triển khai" trong truy vấn pyodbc đối với cơ sở dữ liệu Access

Bài viết khuyến nghị: css - Vấn đề căn chỉnh css của Vật liệu góc

Bài viết khuyến nghị: Truyền con trỏ hàm dưới dạng giao diện API tới thư viện đã biên dịch

java - 如果姓氏的第一个字符在 A 和 M 之间，如何返回 1；如果姓氏的第一个字符在 N 到 Z 之间，如何返回 2？
我需要修复 getLineNumberFor 方法，以便如果 lastName 的第一个字符位于 A 和 M 之间，则返回 1；如果它位于 N 和 Z 之间，则返回 2。在我看来听起来很简单，但我不
javascript - 在 Javascript 中，Onclick Img 标记和递增(在 1-10 之间)和 onclick 其他 img 和递减(在 1-10 之间)相同的计数器
您好，感谢您的帮助!我有这个: 0 我必须在每次点击后增加“pinli
javascript - 切换案例到/之间
Javascript 中是否有一种方法可以在不使用 if 语句的情况下通过 switch case 结构将一个整数与另一个整数进行比较？例如。 switch(integer) { case
delphi - cxgrid列过滤器选项“之间”
我有一列是“日期”类型的。如何在自定义选项中使用“之间”选项？最佳答案请注意，您有2个盒子。 between（在SQL中）包含所有内容，因此将框1设置为：DATE >= startdate，将框2
SQL Server 之间
我有一个表，其中包含年、月和一些数字列 Year Month Total 2011 10 100 2011 11 150 2011 12 100 20
Java - 从一行中读取特定部分( ""之间)
这个问题已经有答案了: Extract a substring between double quotes with regular expression in Java (2 个回答) how to
php - 在连接表中计算结果并在侧边栏中显示 () 之间
我有一个带有类别的边栏。正如你在这里看到的:http://kees.een-site-bouwen.nl/ url 中类别的 ID。带有 uri 段(3)当您单击其中一个类别时，例如网页设计。显示了一
C++正则表达式搜索多行注释(/* */之间)
这个问题在这里已经有了答案: My regex is matching too much. How do I make it stop? [duplicate] (5 个答案) 关闭 4 年前。我
php - 正则表达式取值在括号 "()"之间？
我很不会写正则表达式。我正在尝试获取括号“()”之间的值。像下面这样的东西...... $a = "POLYGON((1 1,2 2,3 3,1 1))"; preg_match_all("/\((
Android 覆盖在布局边界之外/之间
我必须添加一个叠加层 (ImageView)，以便它稍微移动到包含布局的左边界的左侧。执行此操作的最佳方法是什么？尝试了一些简单的方法，比如将 ImageView 放在布局中并使用负边距 andr
c# - 值与 Rx 之间
Rx 中是否有一些扩展方法来完成下面的场景？我有一个开始泵送的值(绿色圆圈)和其他停止泵送的值(簧片圆圈)，蓝色圆圈应该是预期值，我不希望这个命令被取消并重新创建(即“TakeUntil”和“Ski
r - 检查列值是否在其他两个列值的(范围)之间
我有一个看起来像这样的数据框(Dataframe X): id number found 1 5225 NA 2 2222 NA 3 3121 NA 我有另一个看起来
javascript - 排除 if 之间，但更复杂
所以，我正在尝试制作正则表达式，它将解析存储在对象中的所有全局函数声明，例如，像这样 const a = () => {} 我做了这样的事情: /(?:const|let|var)\s*([A-z0-
javascript - 如何将导弹枪管限制在最小和最大 Angular 之间？
我正在尝试从 Intellivision 重新创建 Astro-Smash，我想让桶保持在两个 Angular 之间。我只是想不出在哪里以及如何让这个东西停留在两者之间。我已经以各种方式交换了函数，
php - 查找选定变量内(之间)的数据总和
到处检查但找不到答案。我有这个页面，我使用 INNER JOIN 将两个表连接在一起，获取它们的值并显示它们。我有这个表格，用来获取变量(例如开始日期、结束日期和卡号)，这些变量将作为从表中调用值的
rust - 夹在一生和 FFI 之间
我陷入了两个不同的问题/错误之间，无法想出一个合适的解决方案。任何帮助将不胜感激上下文、FFI 和调用大量 C 函数，并将 C 类型包装在 rust 结构中。第一个问题是ICE: this pat
MySQL 选择 Current_timestamp 之间
我在 MySQL 中有一个用户列表，在订阅时，时间戳是使用 CURRENT_TIMESTAMP 在数据库中设置的。现在我想从此表中选择订阅日期介于第 X 天和第 Y 天之间的表我尝试了几个查询，但不
java - 如何检查两个日期是否在一个时间段(间隔)之间？
我的输入是开始日期和结束日期。我想检查它是在 12 月 1 日到 3 月 31 日之间。(年份可以更改，并且只有在此期间内或之外的日期)。到目前为止，我还没有找到任何关于 Joda-time 的解决
python - 为什么线程分布在 CPU 之间？
我正在努力了解线程与 CPU 使用率的关系。有很多关于线程与多处理的讨论(一个很好的概述是 this answer )所以我决定通过在运行 Windows 10、Python 3.4 的 8 CPU
PHP do-while 与 HTML 之间
我正在尝试编写 PHP 代码来循环遍历数组以创建 HTML 表格。我一直在尝试做类似的事情: fetchAll(PDO::FETCH_ASSOC); ?>

không gian vũ trụ

Hồ sơ

Tôi là một lập trình viên xuất sắc, rất giỏi!

Bài viết phổ biến của tác giả

Nhận phiếu giảm giá taxi Didi miễn phí

Các bài viết phổ biến trên toàn bộ trang web

trang đầu

đã học

6Ren·AI

Trung tâm mua sắm

python - tf.contrib.layer.fully_connected、tf.layers.dense、tf.contrib.slim.fully_connected、tf.keras.layers.Dense 之间的不一致