- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我有一个大的稀疏 numpy/scipy 矩阵,其中每一行对应于高维空间中的一个点。我想进行以下类型的查询:
给定一个点P(矩阵中的一行)和一个距离epsilon,找到与epsilon距离最大的所有点< strong>P.
我使用的距离度量是 Jaccard 相似度,因此应该可以使用局部敏感哈希技巧,例如 MinHash。
在某处是否有针对稀疏 numpy 数组的 MinHash 实现(我似乎找不到)或者是否有一种简单的方法可以做到这一点?
我不只是从 Github 中提取为非稀疏数组构建的东西的原因是 scipy 中的稀疏数据结构可能会导致时间复杂度爆炸。
câu trả lời hay nhất
如果您有非常大的稀疏数据集,这些数据集太大而无法以非稀疏格式保存在内存中,我会尝试这个基于 Scipy 的 CSR 稀疏矩阵假设构建的 LSH 实现:
https://github.com/brandonrobertz/SparseLSH
如果您不能将表放入内存,它还对基于磁盘的键值存储(如 LevelDB)提供哈希支持。来自文档:
from sparselsh import LSH
from scipy.sparse import csr_matrix
X = csr_matrix( [
[ 3, 0, 0, 0, 0, 0, -1],
[ 0, 1, 0, 0, 0, 0, 1],
[ 1, 1, 1, 1, 1, 1, 1] ])
# One class number for each input point
y = [ 0, 3, 10]
X_sim = csr_matrix( [ [ 1, 1, 1, 1, 1, 1, 0]])
lsh = LSH( 4,
X.shape[1],
num_hashtables=1,
storage_config={"dict":None})
for ix in xrange(X.shape[0]):
x = X.getrow(ix)
c = y[ix]
lsh.index( x, extra_data=c)
# find points similar to X_sim
lsh.query(X_sim, num_results=1)
如果你确实只想使用 MinHash,你可以试试 https://github.com/go2starr/lshhdc ,但我还没有亲自测试过它与稀疏矩阵的兼容性。
关于python - 稀疏 numpy 数组的局部敏感散列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24802121/
我这里有一些(遗留)代码,似乎在LD_LIBRARY_PATH上调用setenv(其值在编译时未知,实际上它将从命令中获取)行),现在我必须将其移植到 Windows。我怀疑 setenv 只是出于历
我在 SSIS 包上有一个敏感字符串参数,用于存储远程服务器的密码。 但是,当字符串值包含花括号时,作业代理会在配置该步骤的包参数时抛出错误: Microsoft SQL Server Managem
我们都非常了解 strictfp 的工作原理。 像这样: package com.hk.basicjava.tests.strictfp; import java.util.*; public cla
我正在对我的博客进行简单搜索。我使用亚美尼亚语,当我搜索时,这些字母总是很敏感。这是我的代码的一部分。提前谢谢你。 search_query = get.get('search') query_lis
我正在对我的博客进行简单搜索。我使用亚美尼亚语,当我搜索时,这些字母总是很敏感。这是我的代码的一部分。提前谢谢你。 search_query = get.get('search') query_lis
想象一下这个非常基本的可拖放设置: #dropArea 是可放置的。 #itemBox > .item 是可拖动对象。 由于某种原因,droppable
我有这样的网址: http://quickstart.local/public/category1/product2 并且在 url (category1/product2) 数字是 id ,从数据库
Tôi là một lập trình viên xuất sắc, rất giỏi!