perl - 使用 Perl 玩转 Unicode-6ren

Chơi với Unicode bằng Perl

In lại 作者：行者123 更新时间：2023-12-02 22:02:45

我有一个我认为微不足道的问题。我必须处理德语字母表中的元音变音 (äöü)。在Unicode中，似乎有几种显示它们的方法，其中之一就是组合字符。我需要规范化这些不同的方式，将它们全部替换为单字符代码。

这样一个异常的元音变音很容易找到:它是一个字母aou，后面跟着UTF-8字符\uCC88。所以我认为正则表达式就足够了。

这是我的转换函数，使用 EncodingCái túi.

# This sub can be extended to include more conversions
sub convert {
    local $_;
    $_ = shift;

    $_ = encode( "utf-8", $_ );

    s/u\xcc\x88/ü/g;
    s/a\xcc\x88/ä/g;
    s/o\xcc\x88/ö/g;
    s/U\xcc\x88/Ü/g;
    s/A\xcc\x88/Ä/g;
    s/O\xcc\x88/Ö/g;

    return $_;
}

但是打印出来的元音变音是一些更狡猾的字符(现在占用 4 个字节)，而不是这个 danh sách 上的字符。 .

我猜问题是 Perl 的内部格式、实际的 UTF-8 和这种编码格式的杂耍。

甚至将替换行更改为

s/u\xcc\x88/\xc3\xbc/g;
s/a\xcc\x88/\xc3\xa4/g;
s/o\xcc\x88/\xc3\xb6/g;
s/U\xcc\x88/\xc3\x9c/g;
s/A\xcc\x88/\xc3\x84/g;
s/O\xcc\x88/\xc3\x96/g;

没有帮助，它们被正确转换，但后面跟着字节中的“\xC2\xA4”。

Có giúp được gì không?

1 Câu trả lời

你做错了:你必须停止在表示级别上弄乱字符的习惯，即在处理文本而不是二进制数据时不要弄乱正则表达式中的字节。

第一步是了解encoding in Perl的主题。您需要它来理解我将在下一段中使用的术语“字符串”。

当您有字符串时，它可能处于组合(分解)的各种状态中的任何一种。使用模块Unicode::Normalize更改字符串，并阅读 Unicode 规范中有关等效和规范化的相关章节以了解详细信息，它们位于该模块文档的底部。

我猜您想要 NFC，但您必须对数据进行健全性检查，看看这是否真的是预期的结果。

use charnames qw(:full);
use Unicode::Normalize qw(NFC);
my $original_character_string = "In des Waldes tiefsten Gr\N{LATIN SMALL LETTER U WITH DIAERESIS}nden ist kein R\N{LATIN SMALL LETTER A}\N{COMBINING DIAERESIS}uber mehr zu finden.";
my $modified_character_string = NFC($original_character_string);
# "In des Waldes tiefsten Gr\x{fc}nden ist kein R\x{e4}uber mehr zu finden."

关于perl - 使用 Perl 玩转 Unicode，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/8242615/

Bài viết được đề xuất: html - 以纯文本格式从小节中获取数据

Bài viết được đề xuất: javascript - 自动完成未从对象属性 Angular 中检测到正确的值

Bài viết được đề xuất: hadoop - Pig的新功能:错误1066，Pig版本0.17.0 Hadoop版本3.1.0

Bài viết được đề xuất: javascript - 在添加 ApiController 属性之前，ASP.NET Core 3.1 无法处理 Axios 请求

Làm thế nào để chương trình Perl biết được nơi tìm các tập tin chứa các mô-đun Perl mà nó sử dụng?
Nếu chương trình Perl của tôi sử dụng mô-đun Perl, làm thế nào để xác định vị trí tìm tệp chứa mã của mô-đun? Ví dụ, nếu chương trình chứa: sử dụng MyModule1; # Ví dụ 1 chúng ta
Đọc và lưu trữ số trong perl mà không mất độ chính xác (Perl)
Tôi có một số số trong một tệp có định dạng khác nhau: 8,3, 0,001, 9e-18. Tôi đang tìm cách dễ dàng để đọc và lưu trữ chúng mà không làm mất đi độ chính xác. Việc này rất dễ thực hiện trong AWK, nhưng làm thế nào để thực hiện trong Perl? Tôi chỉ muốn
Đọc và lưu trữ số trong perl mà không mất độ chính xác (Perl)
Tôi có một số số trong một tệp có định dạng khác nhau: 8,3, 0,001, 9e-18. Tôi đang tìm cách dễ dàng để đọc và lưu trữ chúng mà không làm mất đi độ chính xác. Việc này rất dễ thực hiện trong AWK, nhưng làm thế nào để thực hiện trong Perl? Tôi chỉ muốn
perl - 'perl' không được nhận dạng là lệnh bên ngoài hoặc bên trong *Trợ giúp cấu hình strawberry perl!*
Tôi đang tự học Perl và đã cài đặt Strawberry trên hệ thống Windows 8 64-bit của mình. Dòng lệnh Strawberry dường như hoạt động tốt, tôi đã tạo một thư mục trong thư mục Strawberry trên ổ C
perl - Phát triển Perl và Kiểm tra Perl
Tôi đã tìm thấy một lỗi trong mô-đun Perl IO::Socket::SSL mà tôi có thể sửa được, tuy nhiên, tôi lo ngại về việc thử nghiệm bản sửa lỗi. Tôi đã tải xuống gói nguồn từ Debian (vì tôi dự định tạo một gói Debian hoặc bản vá cho nó) và xem xét
Làm thế nào để gọi một chương trình con từ một mô-đun perl này sang một mô-đun perl khác?
Tôi có một tệp perl sử dụng hai mô-đun perl là A.pm và B.pm. Nhưng trong B.pm tôi cần gọi chương trình con của A.pm. Ngay cả khi tôi sử dụng nó trong A.pm và thử sử dụng nó, tôi vẫn nhận được lỗi không xác định.
perl - Tự động tải các mô-đun perl khi Perl được chạy
Có cách nào để tải toàn bộ mô-đun khi chạy trong Perl không? Tôi nghĩ rằng tôi đã tìm ra giải pháp tốt với autouse, nhưng đoạn mã sau không biên dịch được: package tryAutouse2; use autouse 'tryAutouse2
Có tiêu chuẩn hoặc phương pháp hay nhất nào cho chương trình Perl so với mô-đun Perl không?
Tôi đã từng viết nhiều mô-đun perl và một số chương trình perl độc lập, nhưng tôi chưa bao giờ xuất bản một chương trình perl đa tệp trước đây. Tôi có một chương trình perl sắp ở giai đoạn beta và sẽ được phát hành dưới dạng mã nguồn mở. Nó đòi hỏi một số dữ liệu
truy cập các chương trình con perl từ các tập lệnh perl khác nhau
Tôi có 1 tập lệnh perl trong đó chúng tôi đã viết một số chương trình con. Ví dụ: # Try_1.pl main(); sub main{ --- --- check(); } check { -- --} Bây giờ,
Ngăn chặn các mô-đun Perl XS khỏi việc âm thầm quay trở lại Perl thuần túy
Có vẻ như một số (nhiều?) mô-đun trên CPAN được triển khai một phần bằng C sử dụng XS, với khả năng quay lại triển khai perl thuần túy nếu cần. Mặc dù cách này rất thông minh, nhưng rõ ràng nó sẽ làm giảm hiệu suất và tôi muốn biết liệu điều này có xảy ra không để có thể khắc phục sự cố. Có một cái nào không?
perl - Tự động cài đặt các phụ thuộc perl trong perl
Tôi còn rất mới với Perl. Tôi hy vọng có thể cài đặt một số gói từ perl, tôi đã làm như thế này: perl -MCPAN -e 'install VM::EC2' Tôi đoán là nó không thành công do sự phụ thuộc, nó hiển thị: Kết quả:
Làm thế nào để viết một tập lệnh Perl để trích xuất mã nguồn của mọi chương trình con trong một gói Perl?
Cho một gói Perl Foo.pm, ví dụ như gói Foo; sử dụng strict; sub bar { # một số mã ở đây } sub baz { # thêm
Làm thế nào để làm đẹp mã Perl được tạo ra bởi Perl?
Tôi có một trình tạo thử nghiệm được viết bằng Perl. Nó tạo ra các bài kiểm tra được kết nối với trình mô phỏng. Các bài kiểm tra được viết bằng Perl và kết nối với trình mô phỏng thông qua API của nó. Tôi muốn mã được tạo ra có thể đọc được bằng con người, nghĩa là tôi muốn nó được thụt lề và định dạng đúng cách
Sự khác biệt giữa "perl" và "perl -w"?
Tôi đang học Perl, là người dùng rất mới. Tôi có thể biết sự khác biệt giữa các mã Perl này không? #!/usr/bin/perl & #!/usr/bin/perl -w Câu trả lời hay nhất Đó không phải là mã perl, mà là
Làm thế nào để cài đặt một tập lệnh trong mô-đun Perl có nhiều phiên bản Perl?
Tôi không nghĩ đây là một câu hỏi trùng lặp. Điều này dành riêng cho các tập lệnh đi kèm với mô-đun Perl. Thông thường, khi bạn cài đặt nhiều phiên bản Perl, bạn sẽ gắn thẻ các tệp thực thi perl với số phiên bản (perl5.32) để chúng có sẵn trong /whate
Thực hiện toàn bộ chương trình perl từ một chuỗi trong Perl
Tôi có một chương trình sử dụng mã hóa Blowfish trên một tệp và một chương trình perl thứ hai nhắc nhập mật khẩu để giải mã tệp thành chuỗi, tôi không muốn phải ghi mã nguồn đã giải mã vào ổ cứng, mặc dù việc lưu trữ trong bộ nhớ không thực sự là vấn đề vì đã chạy chương trình
Có giải pháp Perl nào cho danh sách lười biếng ở thời điểm này của Perl 6 không?
Có ai tìm ra giải pháp tốt cho danh sách được đánh giá lười biếng trong Perl không? Tôi đã thử nhiều cách để thay đổi những thứ như $item ( map { ... } @list ) { } của tôi thành đánh giá lười biếng - ví dụ:
Làm thế nào để in ra phiên bản perl đang chạy từ bên trong một tập lệnh perl?
Tôi đã cài đặt nhiều phiên bản Perl. Tôi đã chỉ định phiên bản nào sẽ sử dụng. Nhưng để xác minh, tôi muốn xuất phiên bản Perl từ chính tập lệnh .pl. Liệu điều này có thể thực hiện được không? Phân tích cú pháp đầu ra của "perl --version" trong một tập lệnh Perl có vẻ như
Làm thế nào để đóng gói tập lệnh Perl của tôi để chạy trên máy không có Perl?
Mọi người cũng thường hỏi "Làm thế nào tôi có thể biên dịch Perl?" khi điều họ thực sự muốn là tạo ra một chương trình thực thi có thể chạy trên máy tính ngay cả khi máy không cài đặt Perl. Tôi biết một số giải pháp sau: perl2exe IndigoStar Giải pháp này mang tính thương mại. Tôi chưa bao giờ thử
Đào tạo Perl hiệu quả cho các nhà phát triển không chuyên về Perl là gì?
đóng cửa. Câu hỏi này dựa trên ý kiến. Hiện tại không chấp nhận câu trả lời. Bạn có muốn cải thiện câu hỏi này không? Cập nhật câu hỏi để khi chỉnh sửa bài đăng này, bạn có thể trả lời bằng các sự kiện và trích dẫn. Đã đóng 8 năm trước. Cải thiện điều này

行者123

Hồ sơ cá nhân

Tôi là một lập trình viên xuất sắc, rất giỏi!

Bài viết phổ biến của tác giả

Nhận phiếu giảm giá Didi Taxi miễn phí

Các bài viết nóng hổi trên toàn bộ trang web

trang đầu

đã học

Trí tuệ nhân tạo 6Ren

Trung tâm mua sắm

Chơi với Unicode bằng Perl