PHP cải thiện các hàm tương tự_text() và levenshtein()-6ren để tính toán độ tương tự chuỗi

PHP cải thiện các hàm tương tự_text() và levenshtein() để tính toán độ tương tự của chuỗi

In lại Tác giả: qq735679552 Thời gian cập nhật: 29-09-2022 22:32:09

CFSDN nhấn mạnh vào giá trị tạo ra nguồn mở và chúng tôi cam kết xây dựng nền tảng chia sẻ tài nguyên để mọi nhân viên CNTT có thể tìm thấy thế giới tuyệt vời của bạn tại đây.

Bài viết trên blog CFSDN này PHP cải thiện hàmsimilar_text() và levenshtein() để tính toán độ tương tự chuỗi được tác giả sưu tầm và biên soạn. Nếu bạn quan tâm đến bài viết này thì nhớ like nhé.

tương tự_text()Phiên bản ký tự Trung Quốc.

。

Sao chép mã Mã này như sau:

 
            // Tách chuỗi  
 
      hàm split_str($str) {  
 
        preg_match_all("/./u", $str, $arr);  
 
        trả về $arr[0];  
 
      }  
 
      // phát hiện sự giống nhau  
 
      hàm similar_text_cn($str1, $str2) {  
 
        $arr_1 = mảng_unique(split_str($str1));  
 
        $arr_2 = mảng_unique(split_str($str2));  
 
        $similarity = count($arr_2) - count(array_diff($arr_2, $arr_1));  
 
        trả về $similarity;  
 
      }

。

levenshtein() phiên bản ký tự Trung Quốc.

。

Sao chép mã Mã này như sau:

 
            // Tách chuỗi  
 
      hàm mbStringToArray($string, $encoding = 'UTF-8') {  
 
          $arrayResult = mảng();  
 
          trong khi ($iLen = mb_strlen($string, $encoding)) {  
 
              mảng_đẩy($arrayResult, mb_substr($string, 0, 1, $encoding));  
 
              $string = mb_substr($string, 1, $iLen, $encoding);  
 
          }  
 
          trả về $arrayResult;  
 
      }  
 
      //chỉnh sửa khoảng cách  
 
      hàm levenshtein_cn($str1, $str2, $costReplace = 1, $encoding = 'UTF-8') {  
 
          $count_same_letter = 0;  
 
          $d = mảng();  
 
          $mb_len1 = mb_strlen($str1, $encoding);  
 
          $mb_len2 = mb_strlen($str2, $encoding);  
 
          $mb_str1 = mbStringToArray($str1, $encoding);  
 
          $mb_str2 = mbStringToArray($str2, $encoding);  
 
          cho ($i1 = 0; $i1 <= $mb_len1; $i1++) {  
 
              $d[$i1] = mảng();  
 
              $d[$i1][0] = $i1;  
 
          }  
 
          đối với ($i2 = 0; $i2 <= $mb_len2; $i2++) {  
 
              $d[0][$i2] = $i2;  
 
          }  
 
          cho ($i1 = 1; $i1 <= $mb_len1; $i1++) {  
 
              đối với ($i2 = 1; $i2 <= $mb_len2; $i2++) {  
 
                  // $cost = ($str1[$i1 - 1] == $str2[$i2 - 1]) ? 0 : 1;  
 
                  nếu ($mb_str1[$i1 - 1] === $mb_str2[$i2 - 1]) {  
 
                      $chi phí = 0;  
 
                      $count_same_letter++;  
 
                  } khác {  
 
                      $chi phí = $costReplace; //Thay thế  
 
                  }  
 
                  $d[$i1][$i2] = min($d[$i1 - 1][$i2] + 1, //chèn  
 
                  $d[$i1][$i2 - 1] + 1, //Xóa  
 
                  $d[$i1 - 1][$i2 - 1] + $chi phí);  
 
              }  
 
          }  
 
          trả về $d[$mb_len1][$mb_len2];  
 
          //trả về mảng('khoảng cách' => $d[$mb_len1][$mb_len2], 'count_same_letter' => $count_same_letter);  
 
      }

Dãy con chung dài nhất LCS().

Sao chép mã Mã này như sau:

 
                    //Phiên bản tiếng Anh của dãy con chung dài nhất  
 
          hàm LCS_en($str_1, $str_2) {  
 
            $len_1 = strlen($str_1);  
 
            $len_2 = strlen($str_2);  
 
            $len = $len_1 > $len_2 ? $len_1 : $len_2;  
 
            $dp = mảng();  
 
            đối với ($i = 0; $i <= $len; $i++) {  
 
              $dp[$i] = mảng();  
 
              $dp[$i][0] = 0;  
 
              $dp[0][$i] = 0;  
 
            }  
 
            đối với ($i = 1; $i <= $len_1; $i++) {  
 
              cho ($j = 1; $j <= $len_2; $j++) {  
 
                nếu ($str_1[$i - 1] == $str_2[$j - 1]) {  
 
                  $dp[$i][$j] = $dp[$i - 1][$j - 1] + 1;  
 
                } khác {  
 
                  $dp[$i][$j] = $dp[$i - 1][$j] > $dp[$i][$j - 1] ? $dp[$i - 1][$j] : $dp[$i][$j - 1];  
 
                }  
 
              }  
 
            }  
 
            trả về $dp[$len_1][$len_2];  
 
          }  
 
          // Tách chuỗi  
 
          hàm mbStringToArray($string, $encoding = 'UTF-8') {  
 
            $arrayResult = mảng();  
 
            trong khi ($iLen = mb_strlen($string, $encoding)) {  
 
              mảng_đẩy($arrayResult, mb_substr($string, 0, 1, $encoding));  
 
              $string = mb_substr($string, 1, $iLen, $encoding);  
 
            }  
 
            trả về $arrayResult;  
 
          }  
 
          //Phiên bản tiếng Trung của dãy con chung dài nhất  
 
          hàm LCS_cn($str1, $str2, $encoding = 'UTF-8') {  
 
            $mb_len1 = mb_strlen($str1, $encoding);  
 
            $mb_len2 = mb_strlen($str2, $encoding);  
 
            $mb_str1 = mbStringToArray($str1, $encoding);  
 
            $mb_str2 = mbStringToArray($str2, $encoding);  
 
            $len = $mb_len1 > $mb_len2 ? $mb_len1 : $mb_len2;  
 
            $dp = mảng();  
 
            đối với ($i = 0; $i <= $len; $i++) {  
 
              $dp[$i] = mảng();  
 
              $dp[$i][0] = 0;  
 
              $dp[0][$i] = 0;  
 
            }  
 
            đối với ($i = 1; $i <= $mb_len1; $i++) {  
 
              đối với ($j = 1; $j <= $mb_len2; $j++) {  
 
                nếu ($mb_str1[$i - 1] == $mb_str2[$j - 1]) {  
 
                  $dp[$i][$j] = $dp[$i - 1][$j - 1] + 1;  
 
                } khác {  
 
                  $dp[$i][$j] = $dp[$i - 1][$j] > $dp[$i][$j - 1] ? $dp[$i - 1][$j] : $dp[$i][$j - 1];  
 
                }  
 
              }  
 
            }  
 
            trả về $dp[$mb_len1][$mb_len2];  
 
          }

Cuối cùng, bài viết này về các hàm cải tiến của PHPsimilar_text() và levenshtein() để tính toán độ tương tự chuỗi sẽ kết thúc tại đây. tiếp tục duyệt các bài viết liên quan, tôi hy vọng bạn sẽ ủng hộ blog của tôi trong tương lai! .

Đề xuất bài viết: Làm cách nào để chuyển đổi PDF sang Excel? Hướng dẫn đồ họa và văn bản PDF sang Excel

Đề xuất bài viết: Thông tin cơ bản về Android sử dụng tính năng kiểm soát Phân đoạn để chuyển đổi nhiều trang

Đề xuất bài viết: Thông tin cơ bản về Android: Sử dụng các mảnh để thích ứng với các màn hình và độ phân giải khác nhau (Chia sẻ)

Đề xuất bài viết: rmhd là tập tin gì? Cách mở tập tin rmhd

Văn bản tương tự PHP có phân biệt chữ hoa chữ thường
Được rồi, tôi đang sử dụngsimilar_text() để so sánh các chuỗi nhưng kết quả bị ảnh hưởng bởi phân biệt chữ hoa chữ thường. Có cách nào để tắt nó bằng cách nào đó trong php.ini hay gì đó không? Câu trả lời hay nhất Để chuyển chuỗi thành chữ thường, phải sử dụng strto
php -similar_text không mang lại kết quả như mong đợi
Tôi chỉ muốn biết, chuyện gì đang xảy ra ở đây. Nếu tôi sử dụng cái này: var_dump(similar_text('abcd', 'abcdefg', $percent)); //output: int 4 thì không vấn đề gì, abc
php - Văn bản tương tự hoạt động như thế nào?
Tôi vừa tìm thấy hàmsimilar_text và đang sử dụng nó, nhưng kết quả phần trăm luôn làm tôi ngạc nhiên. Xem ví dụ dưới đây. Tôi đang cố gắng tìm thông tin về thuật toán được đề cập trong php:similar_text()Docs. : "
Định nghĩa và cách sử dụng hàm phpsimilar_text()
Hàm phpsimilar_text() tính toán và so sánh độ giống nhau của hai chuỗi. Bài viết này giới thiệu cách sử dụng cơ bản và các ví dụ sử dụng cơ bản của hàm phpsimilar_text() để các lập trình viên quan tâm có thể tham khảo. định nghĩa và
Hàm so sánh độ tương tự của chuỗi văn bản tương tự PHP
PHP cung cấp hàmsimilar_text hiếm khi được sử dụng, nhưng hàm này rất hữu ích để so sánh hai chuỗi và trả về tỷ lệ phần trăm giống nhau. Đây là cách sử dụng hàmsimilar_text(): Sao chép mã.
PHP MySql - chọnsimilar_text()>x
Tôi có hai bảng gọi là bảng tham chiếu và bảng danh sách. Cả hai đều có hai trường: id và name. tài liệu tham khảo: ref_id, ref_name 1, john 2, georges, v.v... danh sách: ls
php - sử dụngsimilar_text và strpos cùng nhau
Tôi muốn tạo một công cụ tìm kiếm đơn giản để tìm từ khóa do người dùng nhập. Tôi biết tôi có thể sử dụng strpos để kiểm tra xem một từ có tồn tại trong chuỗi không. Tuy nhiên, tôi muốn người dùng có thể viết sai chính tả từ đó. Ví dụ: $userInput = "Năm nào
PHPsimilar_text() và in_array() không hoạt động như bình thường
Tôi đang cố gắng tạo một chương trình gợi ý và kiểm tra chính tả đơn giản trong PHP bằng cách sử dụngsimilar_text() và in_array(). Tôi có một tệp văn bản từ điển.txt chứa hầu hết các từ bằng tiếng Anh. cái đầu
Tăng tốc levenshtein/similar_text trong PHP
Tôi hiện đang sử dụngsimilar_text để so sánh một chuỗi với danh sách ~50.000 và mặc dù nó rất chậm do số lượng so sánh nhưng nó vẫn hoạt động. So sánh khoảng 500 chuỗi duy nhất mất khoảng 11 phút. Trước khi chạy nó, tôi đã kiểm tra
Hợp nhất các bảng bằng cách sử dụng PHPsimilar_text và UPDATE
Tôi muốn hợp nhất hai bảng trong MySQL: table_1 ---------------------------------------- ----- ------------------ id bảng_1_
Viết lại văn bản tương tự của PHP trong Scala
Để viết lại thuật toán văn bản tương tự của PHP, tôi đã thử một vài cách tiếp cận khác nhau. Tất cả đều có thành công vừa phải, nhưng cuối cùng lại thất bại. Lần thử đầu tiên: Tôi đã thử viết lại nó từ mã nguồn PHP. Cách sử dụng con trỏ tao nhã của C làm cho nó hoàn toàn tương thích
php - Thuật toán tương tự chuỗi (tốt hơn Levenshtein vàsimilar_text)? PHP, JS
Tôi có thể tìm thuật toán đánh giá chính tả của các ký tự bị đặt sai vị trí chính xác hơn phương pháp levenshtein() và phpsimilar_text() ở đâu? Ví dụ:similar_text('jonas', 'xxjon', $

qq735679552

Hồ sơ

Tôi là một lập trình viên xuất sắc, rất giỏi!

Bài viết phổ biến của tác giả

Nhận phiếu giảm giá taxi Didi miễn phí

Các bài viết phổ biến trên toàn bộ trang web

trang đầu

đã học

6Ren AI

Trung tâm mua sắm

PHP cải thiện các hàm tương tự_text() và levenshtein() để tính toán độ tương tự của chuỗi