c++ - bộ ký tự-unclear-6ren

c++ - bộ ký tự - không rõ ràng

In lại Tác giả: Hồ Xil Thời gian cập nhật: 2023-11-01 15:48:00

Tiêu chuẩn này xác định

bộ ký tự nguồn cơ bản

Bộ ký tự thực thi cơ bản và các ký tự rộng tương ứng của nó

Nó cũng định nghĩa "bộ ký tự thực thi" và các ký tự rộng tương ứng của nó như sau

$2,2/3- "Bộ ký tự thực thi và bộ ký tự rộng thực thi lần lượt là các siêu bộ của bộ ký tự thực thi cơ bản và bộ ký tự rộng thực thi cơ bản. Các giá trị của các thành viên của bộ ký tự thực thi là triển khai- được xác định và mọi thành viên bổ sung đều dành riêng cho từng địa phương."

quý đầu tiên. Tôi không nghĩ mình hiểu hết điều này, đặc biệt là câu cuối cùng. Có gợi ý nào về điều này không?

此外，

$3.9.1 - "Các đối tượng được khai báo là ký tự (char) phải đủ lớn để lưu trữ bất kỳ thành viên nào trong bộ ký tự cơ bản của quá trình triển khai."

Q2. Cụm từ "bộ ký tự cơ bản" trong 3.9.1 có nghĩa là "bộ ký tự thực thi cơ bản" không?

câu trả lời hay nhất

Bạn cần phân biệt giữa bộ ký tự nguồn, bộ ký tự thực thi, bộ ký tự thực thi dòng và phiên bản cơ sở của chúng:

Bộ ký tự nguồn cơ bản:

§2.1.1: Bộ ký tự nguồn cơ bản bao gồm 96 ký tự […]

Bộ ký tự này có chính xác 96 ký tự. Chúng phù hợp với 7 bit. hình ảnh @Những ký tự như vậy không được bao gồm.

Hãy lấy một số biểu diễn nhị phân ví dụ cho một số ký tự nguồn cơ bản. Chúng có thể hoàn toàn tùy ý, không cần những giá trị này phải tương ứng với các giá trị ASCII.

A -> 0000000
B -> 0100100
C -> 0011101

Bộ ký tự thực thi cơ bản...

§2.1.3: Bộ ký tự thực thi cơ bản và bộ ký tự rộng thực thi cơ bản sẽ chứa tất cả các thành viên của bộ ký tự nguồn cơ bản, cộng với các ký tự điều khiển biểu thị cảnh báo, phím lùi và trả về đầu dòng, cộng với một ký tự rỗng (tương ứng, ký tự rộng null), có biểu diễn tất cả các bit bằng 0.

Như đã đề cập trước đó, bộ ký tự thực thi cơ bản chứa tất cả các thành viên của bộ ký tự nguồn cơ bản. Nó vẫn không chứa bất kỳ ký tự nào khác như @ .Bộ ký tự thực thi cơ bản có thể có các biểu diễn nhị phân khác nhau.

Như đã đề cập trước đó, bộ ký tự thực thi cơ bản chứa các biểu diễn trả về đầu dòng, ký tự null và các ký tự khác.

A -> 10110101010
B -> 00001000101 <- bộ ký tự nguồn cơ bản
C -> 10101011111
-------------------------------------------------- --------
null -> 00000000000
Phím lùi -> 11111100011

Nếu độ dài bộ ký tự thực thi cơ sở là 11 bit (như trong ví dụ này), thì kiểu dữ liệu char phải đủ lớn để lưu trữ 11 bit, nhưng có thể dài hơn.

...và về cơ bản thực hiện các bộ ký tự rộng:

Việc triển khai cơ bản các ký tự rộng là dành cho các ký tự rộng (wchar_t). Về cơ bản, nó giống như bộ ký tự rộng triển khai cơ bản, nhưng cũng có thể có các cách biểu diễn nhị phân khác nhau.

A -> 1011010101010110101010
B -> 0000100010110101011111 <- bộ ký tự nguồn cơ bản
C -> 1010100101101000011011
-------------------------------------------------- -------------------
null -> 0000000000000000000000
Phím lùi -> 1111110001100000000001

Thành viên cố định duy nhất là ký tự null, cần được 0 các bit tuần tự.

Chuyển đổi giữa các bộ ký tự cơ bản:

§2.1.1.5: Mỗi thành viên của bộ ký tự nguồn, chuỗi thoát hoặc tên ký tự phổ quát trong các ký tự chữ và chuỗi ký tự được chuyển đổi thành một thành viên của bộ ký tự thực thi (2.13.2, 2.13.4).

Sau đó biên dịch tệp nguồn C++ để chuyển đổi từng ký tự của bộ ký tự nguồn thành bộ ký tự thực thi cơ bản (rộng).

Ví dụ:

const char* string0 = "BA\bC";
const wchar_t string1 = L"BA\bC";

từ chuỗi0là các ký tự thông thường sẽ được chuyển đổi thành bộ ký tự thực thi cơ bản và chuỗi1Chuyển đổi sang bộ ký tự rộng thực thi cơ bản.

chuỗi0 -> 00001000101 10110101010 11111100011 10101011111
chuỗi1 -> 0000100010110101011111 1011010101010110101010 // tiếp tục
           11111100011000000000001 1010100101101000011011

Về mã hóa tập tin:

Có một số mã hóa tập tin. Ví dụ ASCII Cái này dài 7 bit. Windows-1252 Nó dài 8 bit (được gọi là ANSI ). ASCIIKhông chứa các ký tự không phải tiếng Anh. ANSIChứa một số ký tự châu Âu như ä Ö ä Õ ø .

Mã hóa tập tin mới hơn như UTF-8 hoặc UTF-32 Có thể chứa các ký tự từ bất kỳ ngôn ngữ nào. UTF-8Độ dài ký tự có thể thay đổi. UTF-32dài 32 ký tự.

Yêu cầu mã hóa tập tin:

Hầu hết các trình biên dịch đều cung cấp các chuyển đổi dòng lệnh để chỉ định mã hóa tệp của tệp nguồn.

Các tệp nguồn C++ cần được mã hóa bằng mã hóa tệp có biểu diễn bộ ký tự nguồn cơ sở. Ví dụ: mã hóa tệp của tệp nguồn cần phải là ;Biểu thị tính chất.

Nếu bạn có thể nhập ký tự ;Trong mã hóa được chọn làm mã hóa tệp nguồn, mã hóa không phù hợp làm mã hóa tệp nguồn c++.

Bộ ký tự không cơ bản:

Các ký tự không có trong bộ ký tự nguồn cơ bản sẽ thuộc về bộ ký tự nguồn. Bộ ký tự nguồn tương đương với mã hóa tệp.

Ví dụ: @Ký tự này không có trong các ký tự nguồn cơ bản nhưng nó có thể có trong bộ ký tự nguồn. Mã hóa tập tin đã chọn của tập tin nguồn đầu vào có thể chứa @ đại diện. .nếu nó không chứa @ có nghĩa là bạn không thể sử dụng ký tự @trong chuỗi.

Các ký tự không có trong bộ ký tự cơ bản (rộng) thuộc về bộ ký tự điều hành (rộng).

Hãy nhớ rằng trình biên dịch chuyển đổi các ký tự từ bộ ký tự nguồn sang bộ ký tự thực thi và bộ ký tự rộng thực thi. Vì vậy cần phải có cách chuyển đổi các ký tự này.

Ví dụ: nếu bạn chỉ định Windows-1252Khi mã hóa bộ ký tự nguồn và chỉ định ASCIILà bộ ký tự rộng triển khai, chuỗi này không thể được chuyển đổi:

const char* string0 = "chuỗi ký tự châu Âu ö, Ä, ô, Ð.";

Những ký tự này không thể được sử dụng ASCII thể hiện.

Chỉ định bộ ký tự:

Dưới đây là một số ví dụ về cách chỉ định bộ ký tự bằng gcc. Bao gồm các giá trị mặc định.

-finput-charset=UTF-8 <- bộ ký tự nguồn
-fexec-charset=UTF-8 <- bộ ký tự thực thi
-fwide-exec-charset=UTF-32 <- bộ ký tự rộng thực thi

Sử dụng UTF-8 và UTF-32 làm mã hóa mặc định, các tệp nguồn C++ có thể chứa các chuỗi có ký tự ở bất kỳ ngôn ngữ nào. Các ký tự UTF-8 có thể được chuyển đổi theo cả hai hướng mà không gặp vấn đề gì.

Bộ ký tự mở rộng:

§1.1.3: ký tự nhiều byte, một chuỗi gồm một hoặc nhiều byte đại diện cho một thành viên của bộ ký tự mở rộng của nguồn hoặc môi trường thực thi. Bộ ký tự mở rộng là siêu bộ của bộ ký tự cơ bản (2.2).

Các ký tự nhiều byte dài hơn các mục dành cho ký tự thông thường. Chúng chứa một chuỗi thoát đánh dấu chúng là các ký tự nhiều byte.

Các ký tự nhiều byte được xử lý theo ngôn ngữ được đặt trong môi trường thời gian chạy của người dùng. Các ký tự nhiều byte này được chuyển đổi trong thời gian chạy thành bộ mã hóa trong môi trường của người dùng.

Về c++ - bộ ký tự - không rõ ràng, chúng tôi đã tìm thấy một câu hỏi tương tự trên Stack Overflow: https://stackoverflow.com/questions/3768363/

Bài viết khuyến nghị: Các lớp vectơ/mảng nén có quyền truy cập dữ liệu ngẫu nhiên

Bài viết khuyến nghị: c++ - trình liên kết g++: /usr/lib/libGL.so.1: không thể đọc biểu tượng: thao tác không hợp lệ

Bài viết khuyến nghị: Sử dụng C# DLL trong dự án C++

Bài viết khuyến nghị: Có thiết bị di động (thuần túy) tương đương với __attribute__ của gcc không?

java - Bộ ký tự Jetty utf-8 và bộ ký tự UTF-8
Tôi đang sử dụng ứng dụng Spring-Web bằng cầu cảng: org.springframework.boot spring-boot-starter-web
Nhóm thu thập biểu thức chính quy ( ) trong bộ ký tự [ ]
Tôi chỉ muốn khớp các ký tự khoảng trắng ( ) nếu chúng được theo sau bởi hàm băm ( # ). Điều mà (#) đang cố gắng thực hiện bên dưới là đó là một nhóm thu thập. (Tôi đã thử thoát khỏi dấu ngoặc, nếu không chúng không được nhận dạng chính xác trong nhóm nhóm). Tuy nhiên, điều này không hoạt động. Biểu thức chính quy sau đây /#
java - bộ ký tự
Tôi đang triển khai một máy quét từ vựng. Làm cách nào để triển khai bộ ký tự? Hầu hết các bộ ký tự đều có dạng phạm vi, tức là AZ, hL, v.v. Tôi phải kiểm tra xem ký tự ch có phải là thành viên của bộ ký tự hay không. Tôi có thể sử dụng cấu trúc dữ liệu hiệu quả nào trong Java ngoài mảng và bitset?
bộ ký tự mySQL
Hôm nay tôi nhận thấy rằng cơ sở dữ liệu của chúng tôi sử dụng bộ ký tự "utf8 -- UTF-8 Unicode" và đối chiếu "utf8_general_ci", nhưng hầu hết các bảng và cột trong đó đều sử dụng CHARSET=latin1. Tôi sẽ gặp bất kỳ vấn đề gì
Ngôn ngữ tiếng Bungari Mysql, bộ ký tự
Tôi có bảng Mysql có nhiều ngôn ngữ, một trường cho mỗi ngôn ngữ. Bộ ký tự của tôi là utf_general_ci Khi tôi xem bảng bằng phpMyAdmin, tôi có một trang bằng tiếng Bungari như thế này: Ð—Đ° Ð½Đ°Ñ
bộ ký tự vb.net
Theo MSDN vb.net sử dụng bộ ký tự mở rộng này, theo kinh nghiệm của tôi, nó thực sự sử dụng bộ ký tự này: Tôi đang thiếu gì? Tại sao nó nói nó sử dụng cái này mà không phải cái kia? Tôi đã làm gì sai à?
Bộ ký tự Symfony2 cho tham số truy vấn
Tôi có một dự án trong Symfony2, nó chạy tốt trên localhost của tôi, nhưng sau khi chuyển nó sang máy chủ bên ngoài thì vấn đề đã bắt đầu. Tôi không thấy bất kỳ tên kết quả nào từ cơ sở dữ liệu có chứa các ký tự đánh bóng trong Profiler, tôi đã kiểm tra truy vấn:
php - Bộ ký tự CKEditor
Tôi đã cập nhật ứng dụng web của mình để sử dụng UTF-8 thay vì ANSI. Tôi đã làm như sau để xác định bộ ký tự: mysql_set_charset("utf8");
c - Phép trừ bộ ký tự/chuỗi bit
typedef bộ char không dấu; Đặt s1 = 0xda; printf("%d\n", s1 = -s1;
Bộ ký tự PHP/Mysql
Tôi có một ứng dụng PHP/MySQL cần xử lý các ký tự UTF-8 ở hậu trường (các ký tự UTF-8 không được hiển thị trên màn hình). Các ký tự UTF-8 đến từ các yêu cầu cURL của PHP. Tôi cần làm gì để tạo PHP và MyS
Bộ ký tự MySQL cho bảng người dùng
Tôi đang xây dựng bảng người dùng trong MySQL bằng cách sử dụng utf8_general_ci làm bộ ký tự. 1-) Khi sử dụng bộ ký tự này, hai người dùng một tên Bob và người còn lại tên bob có vẻ giống nhau, phải không? Tôi không biết điều này có thể gây ra điều gì
mysql - thay đổi đối chiếu/bộ ký tự mặc định
Tôi biết câu hỏi này đã được trả lời trước đây nhưng giải pháp tôi tìm thấy không hoạt động trên hệ thống của tôi (tôi đã thử nghiệm nó). Tôi muốn thay đổi đối chiếu mặc định trong Mysql. Điều này dường như được đặt thành latin1_swedish_ci, tôi muốn đổi nó thành UTF8
Yêu cầu bộ ký tự MySQL
Tôi đang phát triển một ứng dụng học ngôn ngữ bản địa. Tôi cần lưu trữ một số ký tự dưới dạng "ẽũ". Cơ sở dữ liệu của tôi được thiết lập với bộ ký tự utf-8 với đối chiếu mặc định và các bảng bị ảnh hưởng bởi bộ ký tự này. Vấn đề là khi tôi cố gắng thêm một hàng bằng SQL INSERT thông thường: INS
html - bộ ký tự jsFiddle
Có cách nào để xác định bộ ký tự và thông tin khác thuộc về nó không? Thẻ trên jsFiddle? Tôi biết phần "Thông tin" trên bảng điều khiển bên cạnh của họ nhưng nó không cho phép gắn thẻ. Cảm ơn trước! Câu trả lời hay nhất là có, hãy đặt nó vào phần CSS: sử dụng jQ
bộ ký tự javascript cho thuộc tính đối tượng
Tôi đang tạo thời gian chạy đối tượng: var myObj = {}; myObj[propertyName] = propertyValue; propertyName là biến và nếu nó giống như "ab" thì đối tượng của tôi có
C: Làm thế nào để thêm một ký tự vào một bộ ký tự/ký tự khác?
Giả sử tôi có một ký tự có giá trị 42 (*). Tôi cần in ký tự này thành n dòng, n do người dùng xác định. Tuy nhiên, đối với mỗi dòng mới, một dấu * khác phải được in. Nếu người dùng nhập “6” thì kết quả sẽ như sau: * ** *** ****
c++ - bộ ký tự - không rõ ràng
Tiêu chuẩn này xác định bộ ký tự nguồn cơ bản, bộ ký tự thực thi cơ bản và các ký tự rộng tương ứng của nó. Nó cũng xác định "bộ ký tự thực thi" và các ký tự rộng tương ứng của nó, như sau $2.2/3- "Bộ ký tự thực thi và bộ ký tự thực thi.
Bộ ký tự Java inputStreamReader
Tôi muốn ping địa chỉ IP mục tiêu và nhận phản hồi. Để làm điều này, tôi sử dụng dòng lệnh Windows với phương thức run.exec và lớp tiến trình trong Java. Tôi đang sử dụng inputStreamReader để nhận phản hồi
Bộ ký tự bàn làm việc MySQL
Có cách nào để thay đổi bộ ký tự MySQL Workbench không? Lược đồ của tôi sử dụng UTF-8 và khi tôi xem dữ liệu bảng (lưu dưới dạng UTF-8) hoặc thêm dữ liệu theo cách thủ công, tôi gặp lỗi bộ ký tự, có thể MySQL Workbench sử dụng
winapi - Làm cách nào để xác định bộ ký tự LOGFONT nào sẽ sử dụng?
Tôi có hộp thoại chọn/chuẩn hóa văn bản trong đó người dùng có thể chỉ định phông chữ từ danh sách, đặt in đậm, in nghiêng, v.v. Sau đó, tôi sử dụng thông tin trong LOGFONT để tạo CFont, sau đó được sử dụng làm bản xem trước trong CEdit. Tuy nhiên, nếu người dùng chọn thứ gì đó như Wingdi

Hồ Xil

Hồ sơ

Tôi là một lập trình viên xuất sắc, rất giỏi!

Bài viết phổ biến của tác giả

Nhận phiếu giảm giá taxi Didi miễn phí

Các bài viết phổ biến trên toàn bộ trang web

trang đầu

đã học

6Ren·AI

Trung tâm mua sắm

c++ - bộ ký tự - không rõ ràng