cuốn sách gpt4 ai đã làm

algorithm - 检索相似条目的最快(实际)存储实现是什么?

In lại Tác giả: Taklimakan Thời gian cập nhật: 2023-11-03 04:02:27 26 4
mua khóa gpt4 Nike

tôi đã đọc cây BK (Burkhard-Keller-Trees) Một vài tháng trước, người ta nói rằng đây là một pha cứu thua mà bạn muốn vượt quathước đo khoảng cáchCách tuyệt vời để đọc lại nội dung. Vì vậy, trong mỗi trường hợp bạn muốn truy xuất một cái gì đó tương tự.

Tuy nhiên, những cây BK này đối với tôi trông rất đẹpCó vẻ không nhanh. Khi tôi thử triển khai và thực hiện một số đầu ra, nó phải di chuyển rất nhiều trong cây khi tôi cho phép khoảng cách xa hơn (tôi đã xác minh nó bằng levenshtein và cho phép tối đa 6 lần chỉnh sửa).

Tất nhiên, cách nhanh nhất để làm điều đó (nếu chỉ là về tốc độ) là đặttừ mỗi mục đến mỗi mụcLưu trữ khoảng cách trong bảng và tra cứu chúng trực tiếp, nhưng cách này quá tốn kém.

Vì vậy tôi đã thêm vào tiêu đềthực tế. Không sao đâu nếu cần thêm bộ nhớ, nhưng việc triển khai vẫn phải thực tế và có thể sử dụng được (tôi không biết đủ về những công nghệ này để nói thế nào là thực tế, nhưng tôi đoán là có một số ranh giới).

Có thứ gì nhanh hơn cây BK hiện có không, hay BK thực sự là đỉnh núi (chưa)?

场景

Tôi không có trường hợp sử dụng thực sự, nhưng kịch bản như sau: Tôi có 1 triệu mục nhập và chúng cách nhau một khoảng (được xác định bởi hàm khoảng cách). Bây giờ tôi nhận được một mục và muốn biết:

  • 5 mục nào phù hợp nhất với mục đã cho
  • mục nào khác (bất kể số lượng) nào thấp hơn hoặc bằng ngưỡng đã cho

cơ sở dữ liệuKhông quan trọng.

Tôi đoán cuối cùng thuật toán tốt nhất sẽ phù hợp với cả hai?

câu trả lời hay nhất

Một số liệu lân cận gần nhất dựa trên cây khác là http://en.wikipedia.org/wiki/Cover_tree .Nó được cho là thiết thực vàhttp://www.cs.waikato.ac.nz/ml/weka/Tôi nhặt nó lên và chắc chắn là như vậy. Tuy nhiên, hàng xóm gần nhất có vẻ khó thực hiện chính xác với cây cối hoặc bất kỳ thứ gì khác, vì có rất nhiều đề xuất về hàng xóm gần nhất gần nhất, điều mà tôi nghĩ sẽ thật ngớ ngẩn nếu không khó. tôi có thể ở trong http://people.csail.mit.edu/indyk/edit.ps Xem khoảng cách chỉnh sửa.

Một cách khác để thực hiện tìm kiếm hàng xóm gần nhất gần đúng là hy vọng rằng hàng xóm gần nhất có một phần ký tự liền kề xuất hiện trong chuỗi truy vấn của bạn. Sau đó, đối với tất cả các chuỗi trong cơ sở dữ liệu, hãy chia chúng thành tất cả các chuỗi con dài k liên tiếp và xây dựng một bảng có thể sử dụng đối sánh chính xác. Sau đó, đối với chuỗi truy vấn của bạn, hãy xem xét tất cả k chuỗi con liền kề dài, thực hiện khớp chính xác trên các chuỗi con này và tính toán khoảng cách chỉnh sửa của tất cả các chuỗi bạn tìm thấy từ cơ sở dữ liệu bằng cách tìm kiếm chính xác k chuỗi con dài.

Về thuật toán - Triển khai lưu trữ (thực tế) nhanh nhất để truy xuất các mục tương tự là gì? , chúng tôi đã tìm thấy một câu hỏi tương tự trên Stack Overflow: https://stackoverflow.com/questions/11283767/

26 4 0
Chứng chỉ ICP Bắc Kinh số 000000
Hợp tác quảng cáo: 1813099741@qq.com 6ren.com
Xem sitemap của VNExpress