- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
在文档聚类过程中,作为数据预处理步骤,我首先应用奇异向量分解得到TRONG
、S
VàVt
然后通过选择适当数量的特征值,我截断了 Vt
,这让我从阅读的内容中得到了很好的文档-文档相关性 đây .现在我正在对矩阵 Vt
的列执行聚类以将相似的文档聚类在一起,为此我选择了 k-means 并且初始结果看起来对我来说是可以接受的(k = 10 个聚类)但我想要更深入地研究选择 k 值本身。为了确定 k-means 中的簇 tôi
的数量,我是 suggested查看交叉验证。
在实现它之前,我想弄清楚是否有使用 numpy 或 scipy 实现它的内置方法。目前,我执行 kmeans
的方式是简单地使用 scipy 中的函数。
import numpy, scipy
# Preprocess the data and compute svd
U, S, Vt = svd(A) # A is the TFIDF representation of the original term-document matrix
# Obtain the document-document correlations from Vt
# This 50 is the threshold obtained after examining a scree plot of S
docvectors = numpy.transpose(self.Vt[0:50, 0:])
# Prepare the data to run k-means
whitened = whiten(docvectors)
res, idx = kmeans2(whitened, 10, iter=20)
假设到目前为止我的方法是正确的(如果我遗漏了某些步骤请纠正我),在这个阶段,使用输出执行交叉验证的标准方法是什么?非常感谢任何关于如何将其应用于 k-means 的引用/实现/建议。
câu trả lời hay nhất
要运行 k 折交叉验证,您需要一些质量度量来优化。这可以是分类度量,例如准确性或 F1 ,或一个专门的,如 V-measure .
即使是我所知道的聚类质量度量也需要标记的数据集(“ground truth”)才能起作用;与分类的不同之处在于,您只需要标记部分数据即可进行评估,而 k-means 算法可以利用所有数据来确定质心,从而确定聚类。
V 测量和 several other scores在 scikit-learn 中实现,以及通用 cross validation代码和“网格搜索”模块,该模块根据使用 k-fold CV 的指定评估度量进行优化。 Tuyên bố miễn trừ trách nhiệm:我参与了 scikit-learn 的开发,尽管我没有编写任何提到的代码。
关于python - 用于确定 k 均值中的 k 的 k 折交叉验证?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6629165/
Điều tôi muốn làm là làm cho JTextPane chiếm nhiều dung lượng nhất có thể trong JPanel. Đối với UpdateInfoPanel tôi đang sử dụng: public class UpdateInfoPanel mở rộng JP
Tôi có JTextArea trong JPanel và tôi muốn sử dụng nó với JScrollPane. Tôi đang sử dụng GridBagLayout. Khi tôi chạy nó, khung công tác dường như nhường chỗ cho JScrollPane, nhưng
Tôi muốn triển khai chức năng sau trong xcode. Tôi có Trình điều khiển xem. Trong UIViewController này, tôi có UITabBar. Bên dưới chúng là UIView. Thay đổi UITab
Có ai biết Firebird 2.5 có chức năng tương tự chức năng "STUFF" trong SQL không? Tôi có một bảng chứa các bản ghi người dùng gốc và một bảng khác chứa các bản ghi người dùng con liên quan đến cha mẹ. Tôi muốn có thể trích xuất một chuỗi "ROLES" được phân tách bằng dấu phẩy do người dùng sở hữu, trong khi
Tôi muốn sử dụng JSON làm đầu vào và đầu ra của kênh phản ánh, chẳng hạn như lưu thông tin chi tiết trong cơ sở dữ liệu hoặc tạo thông báo HL7. Nói tóm lại, đầu vào là JSON, phân tích cú pháp và xuất ra bất kỳ định dạng nào. Đối tượng trả lời tốt nhất
Thông thường tôi sẽ sử dụng R và thực hiện merge.by, nhưng tệp này có vẻ quá lớn để bất kỳ máy tính nào trong bộ phận có thể xử lý nó! (Thông tin bổ sung cho bất kỳ ai làm việc trong lĩnh vực di truyền học) Về cơ bản, việc quy định dường như sẽ bị xóa Sau khi nhận được số rs của ID snp, tôi chỉ có
Tôi có một câu hỏi có thể đã được hỏi trước đây nhưng tôi gặp khó khăn khi tìm mô tả chính xác. Tôi hy vọng ai đó có thể giúp tôi. Trong đoạn mã bên dưới, tôi đã thiết lập varprice và tôi muốn thêm biến javascript accu_id để tra cứu bản ghi trong cơ sở dữ liệu của mình thông qua Rails
Tôi có một tệp SVG đơn giản có thể xem tốt trong Firefox - nó có một số văn bản gói chứa một số HTML bằng cách sử dụng đối tượng nước ngoài - văn bản được gói trong một div:
Vì vậy, tôi đang viết một chương trình Ruby dành cho trường học để thay đổi giá trị bool thành true nếu giá trị là 1 hoặc 3 và thành false nếu nó là 0 hoặc 2. Vì tôi có nền tảng Java nên tôi nghĩ mã này sẽ hoạt động:
Những gì tôi đã làm: Tôi đã tạo VPC ngang hàng giữa các tài khoản này Cổng Internet cũng được kết nối với từng VPC Bảng định tuyến cũng được định cấu hình (để cho phép lưu lượng truy cập từ cả hai phía) Trường hợp 1: Khi hai VPC này nằm trong cùng một tài khoản Trong thời gian chờ đợi, tôi đã thử nghiệm thành công nó từ một La khác
Tôi có một bảng gọi là danh bạ: user_id contact_id 10294 10295 10294 10293 10293 10294 102
Tôi đang sử dụng mẫu mới trong Magento. Để tránh trùng lặp mã, tôi muốn sử dụng cùng một mẫu con cho mỗi bản xem trước sản phẩm. Cụ thể là tôi đã tạo một màn hình như thế này: $products = Mage::getModel('catalog/pro
"for" có luôn kiểm tra loại tham số đầu tiên trong mọi hàm được xác định trong giao thức không? Chỉnh sửa (viết lại): Khi một phương thức giao thức chỉ có một tham số, việc triển khai được tìm thấy dựa trên loại tham số đơn đó (trực tiếp hoặc tùy ý). Khi thỏa thuận (p
Tôi muốn gọi hàm JavaScript từ mã PHP của mình. Tôi đã đạt được điều này bằng cách sử dụng: echo ' drawChart($id); '; Điều này hoạt động tốt, nhưng tôi muốn lấy dữ liệu từ mã PHP của mình, tôi sử dụng
Câu hỏi này đã có câu trả lời: Sự kiện ràng buộc trên các phần tử được tạo động? (23 câu trả lời) Đã đóng 5 năm trước. Tôi có một biểu mẫu động mà tôi muốn nối thêm một số h
Tôi đang cố gắng tìm giải pháp sử dụng setState trên các mục được ánh xạ trong thành phầnDidMount. Tôi đang sử dụng GraphQL cùng với Gatsby để trả về nhiều mục dữ liệu nhưng yêu cầu điều đó trong một thao tác cụ thể
Tôi có Chế độ xem bên trong ScrollView. Tôi muốn gọi phương thức này cứ sau 80 mili giây miễn là người dùng giữ Chế độ xem. Đây là những gì tôi đã thực hiện: rung Runnable cuối cùng = Runnab mới
Tôi đã phát triển một ứng dụng Android bằng jni. Tôi nhận được một dvmabort trong dvmDecodeIndirectRef của GetStringUTFChars. Tôi chỉ phá thai một lần. Tại sao điều này lại xảy ra?
Khi tôi truy cập Hoạt động của mình, tôi gọi FragmentPagerAdapter để xử lý các tab khác nhau của mình. Trong một trong các tab của mình, tôi muốn hiển thị RecyclerView nhưng anh ấy không bao giờ xuất hiện, với một điểm ngắt mà tôi thấy
Khi tôi nhấn một nút trong Hoạt động, DialogFragment sẽ bật lên. Trong đoạn hộp thoại, có một RecyclerView trông giống như một ListView bình thường. Hành vi tôi muốn là khi
Tôi là một lập trình viên xuất sắc, rất giỏi!