android — Sự khác biệt nhanh hơn

java — Sự khác biệt nhanh hơn

In lại Tác giả: Taklimakan Thời gian cập nhật: 2023-11-03 02:37:25

hai mươi bốn

Tôi đang làm việc trên một tệp nhị phân tương đối lớn. Tôi đã triển khai thuật toán Myers Diff nổi tiếng để tạo ra sự khác biệt tối thiểu. Tuy nhiên, đó là O(ND), vì vậy để phân biệt giữa hai tệp 1 MB riêng biệt, tôi dự kiến sẽ mất 1 triệu bình phương = 1 nghìn tỷ lần. Điều đó không tốt!

Điều tôi muốn là một thuật toán tạo ra sự khác biệt không nhỏ nhưng nhanh hơn nhiều. Tôi biết phải có một cái vì Beyond Compare đã làm được điều đó. Nhưng tôi không biết phải làm gì!

Để chắc chắn: có những công cụ như xdelta hoặc bdiff, nhưng chúng tạo ra các bản vá cho máy tính sử dụng, không giống với các bản khác biệt mà con người có thể sử dụng. Việc vá lỗi liên quan đến việc chuyển đổi một tệp này sang một tệp khác để nó có thể thực hiện các thao tác như sao chép từ phần trước của tệp. Có một sự khác biệt về con người có thể tiêu thụ ở đó hiển thị sự khác biệt một cách trực quan và chỉ có thể được chèn và xóa. Ví dụ: chuyển đổi này:

"puddi"-> "puddipuddipuddi"

sẽ tạo ra bản vá nhỏ "sao chép [0,4] sang [5,9] và [10, 14]", nhưng sự khác biệt lớn hơn là "nối 'puddipuddi'". Tôi quan tâm đến các thuật toán tạo ra sự khác biệt lớn hơn.

Cảm ơn!

câu trả lời hay nhất

Sự khác biệt về cơ bản là cùng một thuật toán được sử dụng trong tin sinh học để sắp xếp các chuỗi DNA. Các trình tự này thường lớn (dài hàng triệu hoặc hàng tỷ nucleotide) và chương trình sử dụng chiến lược hoạt động tốt trên các bộ gen dài hơn MUMMER :

Sử dụng cây hậu tố để nhanh chóng tìm thấy tất cảtrận đấu độc đáo tối đa(Một chuỗi con xuất hiện trong cả hai tệp và không thể mở rộng theo bất kỳ hướng nào trong khi điều kiện vẫn đúng)
Sử dụng thuật toán lập trình động chuỗi con tăng dài nhất để nhanh chóng tìm ra tập hợp con MUM dài nhất xuất hiện liên tục trong hai tệp
Sửa tập hợp con MUM theo căn chỉnh (tức là đánh dấu các vùng này là khớp)
Nếu thấy cần thiết, hãy thực hiện các khác biệt chậm hơn ở các vùng giữa MUM (ví dụ: Myers). Trong trường hợp của bạn, bạn có thể bỏ qua hoàn toàn bước này nếu bạn thấy rằng độ dài của MUM dài nhất nằm dưới một ngưỡng nhất định (bạn sẽ coi hai tệp này không liên quan).

Miễn là không có quá nhiều sự khác biệt, điều này sẽ có xu hướng mang lại một tập hợp các vùng căn chỉnh rất tốt (mặc dù không đảm bảo là tối ưu) (hoặc tương đương, một tập hợp các khác biệt rất nhỏ). Tôi không chắc khung thời gian chính xác cho từng bước nhưng tôi biết là không có n^2 hoặc cao hơn.

Tôi tin rằng chương trình MUMmer yêu cầu các chuỗi DNA hoặc protein, vì vậy nó có thể không phù hợp với bạn ngay từ đầu, nhưng các khái niệm này chắc chắn áp dụng cho các chuỗi chung (ví dụ: tệp), vì vậy tôi khuyên bạn nên sử dụng phương pháp này nếu bạn chuẩn bị triển khai lại chính nó.

Về thuật toán - diff nhanh hơn, chúng tôi tìm thấy một câu hỏi tương tự trên Stack Overflow: https://stackoverflow.com/questions/4611143/

hai mươi bốn

Bài viết khuyến nghị: thuật toán - Trình tạo từ đồng âm

Bài viết khuyến nghị: html - h1 :trước{ } có tác dụng với SEO không?

Bài viết khuyến nghị: php - URL RewriteRule .htaccess để có hình dạng thân thiện hơn với SEO

Bài viết khuyến nghị: Tính toán mã băm tại sao phép nhân bỏ qua bit tràn?

thuật toán - "Thuật toán" quyền riêng tư và ẩn danh
Tôi đọc câu hỏi này trong một cuốn sách (Câu hỏi phỏng vấn) và muốn thảo luận chi tiết về nó ở đây. Hãy thắp sáng nó lên. Vấn đề như sau: - Quyền riêng tư và ẩn danh Ủy ban Bảo hiểm Tập đoàn Massachusetts đã có một ý tưởng tuyệt vời vào giữa những năm 1990
thuật toán - Phỏng vấn kỹ thuật của Microsoft: Thuật toán ma trận
Gần đây tôi đã có một cuộc phỏng vấn trong đó người phỏng vấn đưa cho tôi một số mã giả và đặt câu hỏi về nó. Thật không may, do thiếu chuẩn bị nên tôi không thể trả lời câu hỏi của anh ấy. Do thời gian có hạn nên tôi không thể hỏi anh ấy cách giải quyết vấn đề này. Nếu ai đó có thể hướng dẫn tôi và giúp tôi hiểu vấn đề để tôi có thể thay đổi
Lấy khoảng cách từ gốc đến nút của một giá trị cho trước trong cây nhị phân: Độ chính xác của thuật toán
Đây là mã của tôi public int getDist(Node root, int value) { if (root == null && value !=0) return
thuật toán - Giao lộ: Thuật toán Strassen
Xét về mặt hiệu quả, điểm giao nhau tối ưu mà thuật toán Strassen nên dừng đệ quy và áp dụng phép nhân là gì? Tôi biết điều này phụ thuộc rất nhiều vào việc triển khai và phần cứng, nhưng đối với trường hợp chung thì cần có một số loại hướng dẫn hoặc một số kết quả thử nghiệm từ ai đó. Tôi đã tìm kiếm trực tuyến và hỏi một số người xem họ nghĩ gì
thuật toán - Yêu cầu sách: Thuật toán phân tán
Tôi muốn tìm hiểu điều gì đó về thuật toán phân tán nên tôi đang tìm kiếm bất kỳ đề xuất sách nào. Tôi sẽ quan tâm hơn đến một cuốn sách lý thuyết, vì việc thực hiện chỉ là vấn đề sở thích cá nhân (tôi có thể sử dụng erlang (hoặc c#)). Nhưng mặt khác, tôi không muốn thực hiện phân tích toán học nguyên thủy về thuật toán. chỉ một
thuật toán - Triển khai "thuật toán cổ điển" trong thế giới thực
Tôi tự hỏi có bao nhiêu người trong số các bạn đã triển khai "thuật toán cổ điển" từ khoa học máy tính, chẳng hạn như thuật toán của Dijkstra hoặc các cấu trúc dữ liệu trong thế giới thực như cây tìm kiếm nhị phân, trái ngược với các dự án học thuật? Khi có
thuật toán - Tôi đang cố gắng tìm một "thuật toán nhân viên pha chế"
Tôi đang giải một số bài toán mẫu từ một cuộc thi lập trình cũ. Trong câu hỏi này, chúng tôi nhận được thông tin về số lượng nhân viên pha chế mà chúng tôi có và công thức nấu ăn mà họ biết. Mỗi loại cocktail mất 1 phút để pha và chúng tôi cần sử dụng tất cả nhân viên pha chế để tính toán xem đơn hàng có thể hoàn thành trong 5 phút hay không. gỡ rối
Có "thuật toán" trong lập trình hàm không?
关闭。这个问题是opinion-based .它目前不接受答案。想要改进这个问题？更新问题，以便 editing this post 可以用事实和引用来回答它. 关闭 8 年前。 Improve
javascript - if (!options.algorithms) đưa ra Lỗi mới ('thuật toán nên được đặt'); Lỗi: nên đặt thuật toán
Tôi bắt đầu học Nodejs nhưng tôi bị mắc kẹt ở đâu đó giữa chừng. Tôi đã cài đặt một thư viện mới từ npm là express -jwt và nó hiển thị một số loại lỗi sau khi chạy nó. Mã đính kèm và nhật ký lỗi, vui lòng giúp tôi const jwt = re!
thuật toán - Chứng chỉ SSL: Thuật toán chữ ký hiển thị "sha256rsa" nhưng thuật toán dấu vân tay hiển thị "sha1"
Tôi có chứng chỉ trong đó thuật toán chữ ký cho biết "sha256rsa" nhưng thuật toán dấu vân tay cho biết "sha1". Mã định danh SHA1/SHA2 của chứng chỉ của tôi là gì? Cảm ơn! Câu trả lời hay nhất TL;TR: Chữ ký và dấu vân tay là những thứ hoàn toàn khác nhau. Vì sức mạnh của chứng chỉ
thuật toán - Chính xác thì "kích thước vấn đề thuật toán" nghĩa là gì?
Tôi hiện đang tham gia lớp cấu trúc dữ liệu tại trường đại học của mình và đã thực hiện một số phân tích thuật toán trong các lớp trước, nhưng đây là phần khó nhất mà tôi gặp phải trong các lớp trước. Bây giờ chúng ta sẽ tìm hiểu về phân tích thuật toán trong lớp cấu trúc dữ liệu của tôi
Chọn các ô không liền kề: độ phức tạp về thời gian của thuật toán
Có một khu vực bao gồm N hình vuông 1x1 và tất cả các phần của khu vực này đều được kết nối với nhau (không có hình vuông nào là không thể tiếp cận được). Dưới đây là một số ví dụ về các khu vực. Tôi muốn chọn một số ô vuông trong khu vực này và không thể chọn hai ô vuông liền kề cùng nhau (chạm theo đường chéo
thuật toán - Giảm độ nhám: Thuật toán làm mịn hình dạng
Tôi có một số danh sách các điểm có hình đa giác mà tôi muốn đưa vào bản đồ Google trên trang của mình. Tôi đã loại bỏ càng nhiều đa giác không cần thiết khỏi dữ liệu thô càng tốt, bây giờ tôi chỉ còn lại khoảng 12 đa giác, nhưng chúng quá chi tiết nên đang gây ra sự cố. Bây giờ văn bản của tôi
Thuật toán - Các bước dịch chuyển của Thuật toán Marching Squares
Tôi hiện đang triển khai Hình vuông diễu hành để tính toán các đường cong đồng mức và tôi có câu hỏi về việc sử dụng dịch chuyển bit được đề cập ở đây Soạn 4 bit ở các góc của ô để
thuật toán - Tìm hiểu các vấn đề thỏa mãn ràng buộc: thuật toán tô màu bản đồ
Tôi đang cố gắng triển khai hàm quay lui đệ quy này cho vấn đề thỏa mãn ràng buộc đối với một thuật toán nhất định: hàm BACKTRACKING-SEARCH(csp) trả về giải pháp/lỗi trả về R
android — Chia ma trận cho ma trận: Thuật toán tương quan Bartlett
Có thư viện nào chứa hàm nghịch đảo không? Là một phần của dự án, tôi hiện đang nghiên cứu thuật toán tìm hướng. Tôi đang sử dụng tương quan Bartlett. Trong tương quan Bartlett, tôi cần chia tử số đã là 3 phép nhân ma trận (bao gồm cả phép chuyển vị Hermiti)
thuật toán - Thời gian đa thức: Thuật toán chấp nhận và quyết định
đóng cửa. Câu hỏi này không tuân thủ các nguyên tắc của Stack Overflow. Hiện tại nó không chấp nhận câu trả lời. Sự cố này dường như không liên quan đến việc lập trình trong phạm vi được xác định trong trung tâm trợ giúp. . Đã đóng cửa 8 năm trước. Cải thiện
thuật toán - UVA-1394 : Và có một thuật toán
Liên kết đến câu hỏi là UVA - 1394: And There Was One . Thuật toán đơn giản là quét toàn bộ mảng và đánh dấu phần tử thứ k trong mỗi lần lặp và dừng ở cuối: việc này mất O(n^2) thời gian. Tôi đã tìm kiếm một thuật toán thay thế và
thuật toán - "Thuật toán duy nhất phi tập trung" là gì?
Hàm trong COM tạo GUID (CoCreateGUID) sử dụng "thuật toán tính duy nhất phân tán", nhưng câu hỏi của tôi là, nó là gì? Có ai có thể giải thích được không? Câu trả lời hay nhất Cách tạo ID với sự đảm bảo về tính duy nhất mà không cần
Giảm thiểu màu sắc: một biến thể của thuật toán ba lô?
Tôi đã gặp phải vấn đề này khi đang thực hiện một dự án và tôi sẽ diễn đạt lại nó bên ngoài phạm vi thực tế của câu hỏi (tôi đoán tôi có thể nói về tầm cỡ và hình dạng của pháo hoa, nhưng điều đó sẽ khiến việc hiểu trở nên phức tạp hơn). Tôi đang tìm một thuật toán (Có thể gần đúng) để giải nó. Tôi có n thùng chứa có kích cỡ khác nhau,

Taklimakan

Hồ sơ

Tôi là một lập trình viên xuất sắc, rất giỏi!

Bài viết phổ biến của tác giả

Nhận phiếu giảm giá taxi Didi miễn phí

Các bài viết phổ biến trên toàn bộ trang web

trang đầu

đã học

6Ren·AI

Trung tâm mua sắm

java — Sự khác biệt nhanh hơn