Các ký tự BOM được sao chép sang JSON-6ren trong Python 3

Các ký tự BOM được sao chép sang JSON bằng Python 3

In lại Tác giả: Vũ trụ không gian Thời gian cập nhật: 2023-11-04 09:57:49

29

4

Trong ứng dụng của tôi, người dùng có thể tải lên một tệp (tệp văn bản) và tôi cần đọc nó cũng như tạo đối tượng json cho một lệnh gọi API khác.

tôi sử dụng

mở tập tin

f = open(tệp, mã hóa="utf-8")

Lấy từ đầu tiên và xây dựng một đối tượng Json,...

Vấn đề của tôi là một số tệp (đặc biệt là các tệp từ môi trường Microsoft) có đối tượng BOM ngay từ đầu. Vấn đề là Json của tôi hiện có ký tự này trong đó

{
   "word:"\\ufeffMyWord"
}

Tất nhiên, kể từ thời điểm này, API sẽ không hoạt động bình thường.

Rõ ràng là tôi đang thiếu thứ gì đó, đối tượng BOM có nên bị xóa vì utf-8 không? (Vì nó không phải là utf-8-sig).

Làm thế nào để khắc phục vấn đề này?

câu trả lời hay nhất

Không, tiêu chuẩn UTF-8 không xác định ký tự BOM. Điều này là do UTF-8 không có vấn đề mơ hồ về thứ tự byte như UTF-16 và UTF-32. Hiệp hội Unicode không khuyến nghị sử dụng U+FEFF khi bắt đầu các tệp được mã hóa UTF-8 và IETF tích cực không khuyến khích các lựa chọn thay thế để chỉ định codec nếu chúng tồn tại. từBài viết trên Wikipedia về cách sử dụng BOM trong UTF-8 :

Tiêu chuẩn Unicode cho phép BOM ở dạng UTF-8, nhưng không yêu cầu hoặc khuyến nghị sử dụng nó.

[…]

IETF khuyến nghị rằng nếu một giao thức (a) luôn sử dụng UTF-8 hoặc (b) có một số cách khác để chỉ ra mã hóa nào đang được sử dụng thì giao thức đó "NÊN cấm sử dụng U+FEFF làm chữ ký".

Tiêu chuẩn Unicode chỉ "cho phép" BOM vì đây là ký tự thông thường giống như bất kỳ ký tự nào khác; nó là ký tự khoảng trắng không ngắt có độ rộng bằng 0. Vì vậy, Hiệp hội Unicode khuyến nghị rằng khi giải mãĐừng xóa, để lưu giữ thông tin (trong trường hợp nó có ý nghĩa khác hoặc bạn muốn duy trì khả năng tương thích với các công cụ đã dựa vào nó).

Bạn có hai lựa chọn:

Đầu tiên hãy xóa chuỗi, U+FEFF được coi là khoảng trắng, vì vậy hãy sử dụng str.strip() Di dời. Hoặc xóa BOM một cách rõ ràng:
```
text = text.lstrip('\ufeff') # xóa BOM nếu có
```
(Về mặt kỹ thuật, điều này sẽ loại bỏ bất kỳ số lượng ký tự khoảng trắng không ngắt có độ rộng bằng 0 nào, nhưng đó có thể là điều bạn muốn).
Sử dụng thay thế utf-8-sig codec để mở tập tin. Codec này đã được thêm vào để xử lý các tệp như vậy bằng cách xóa rõ ràng chuỗi byte UTF-8 BOM ngay từ đầu (nếu có) trước khi giải mã. Nó có thể xử lý các tập tin mà không cần các byte này.

Về python - các ký tự BOM được sao chép sang JSON trong Python 3, chúng tôi đã tìm thấy một câu hỏi tương tự trên Stack Overflow: https://stackoverflow.com/questions/45099079/

29

4

0

Bài viết khuyến nghị: c - Cần một hàm như read() để đọc dữ liệu số nguyên vào bộ đệm và nhận cùng giá trị bộ đệm như read()

Bài viết khuyến nghị: Làm cách nào để gọi giao diện Java được thể hiện từ một lớp trong Clojure? Không thể giải quyết bằng cách gọi

Bài viết khuyến nghị: Làm cách nào để tạo bảng bật lên bằng JavaScript và CSS mà không cần thư viện?

Bài viết khuyến nghị: regrec - Ansible:lineinfile tiếp tục nén các dòng hiện có của tôi thay vì nối thêm văn bản vào chúng

json - mongoexport - Sự cố truy vấn JSON (JSON mở rộng - Đầu vào JSON không hợp lệ)
Gần đây đã bắt đầu học MongoDB. Hôm nay thầy dạy chúng em lệnh mongoexport. Trong quá trình luyện tập, tôi gặp phải một vấn đề điển hình mà chưa có học viên nào, kể cả huấn luyện viên, từng gặp phải. Tôi đang sử dụng Mongo trên máy Windows 10 của mình
Làm cách nào để liên kết Lược đồ JSON với JSON của tôi để xác thực JSON?
Tôi chưa quen với Lược đồ JSON và đã đọc Lược đồ JSON là gì, v.v. Nhưng tôi không biết cách liên kết Lược đồ JSON với JSON để xác thực dựa trên Lược đồ JSON đó. Có ai có thể giải thích được không?
json - Bao gồm tệp json bên trong tệp json khác chỉ bằng json
Trong xml tôi có thể đưa một tệp vào một tệp xml khác và sử dụng nó. Nếu phần mềm của bạn lấy file cấu hình từ xml nhưng không có cách nào để tách cấu hình như apache/ngnix(nginx.conf - site-av
Làm cách nào để giải tuần tự hóa JSON chứa một chuỗi có nhiều JSON hơn?
Tôi có một đối tượng JSON chứa một chuỗi mà chính nó là một đối tượng JSON. Làm cách nào để giải tuần tự hóa nó? Tôi muốn có thể làm điều gì đó như: #[derive(Deserialize)] struct B { c: S
json - Play Json đọc Json được tuần tự hóa chung lồng nhau
Hãy xem xét JSON sau đây { "a": "{\"b\": 12, \"c\": \"test\"}" } Tôi muốn xác định cách đọc chung Reads[Outer[T]] cho Serialized này Nhập JSON
json - Tạo JSON mẫu từ lược đồ JSON
đóng cửa. Câu hỏi này không đáp ứng các nguyên tắc của Stack Overflow. Hiện tại nó không chấp nhận câu trả lời. Bạn muốn cải thiện vấn đề này? Câu hỏi được cập nhật để làm cho câu hỏi trở thành chủ đề cho Stack Overflow. Đóng cửa 11 tháng trước Cải thiện
json - JSON của DynamoDB hay JSON tiêu chuẩn?
Dự án cũ của tôi có dữ liệu ở định dạng JSON tiêu chuẩn trong MySQL. Đối với dự án hoàn toàn mới của tôi trong JS (Node.js) và DynamoDB, liên quan đến định dạng JSON tiêu chuẩn: Có nên chuyển đổi nó không?
json - Giá trị JSON có phải là JSON hợp lệ không?
Chuỗi giá trị JSON, số, true, false, null có hợp lệ không? Nghĩa là, tài liệu JSON có hợp lệ không? Hay nó phải là một mảng/đối tượng? Một số trình xác thực chấp nhận điều này (ví dụ: http://jso
Cách mã hóa JSON được nhúng trong JSON
Tôi có một chuỗi JSON và một trong các trường là trường văn bản. Trường văn bản này có thể chứa văn bản mà người dùng nhập vào giao diện người dùng, nếu văn bản họ nhập là văn bản JSON, có thể để giải thích cho một số mã hóa, tôi cần mã hóa văn bản của họ để nó không
Tuần tự hóa JSON bằng cách sử dụng dấu cộng dẫn đến JSON không hợp lệ
Tôi đang xử lý dữ liệu thông qua các lệnh gọi IBM MQ và khi được ColdFusion 10 (10,0,11,285437) tuần tự hóa thì 0 được trả về là +0,0, dẫn đến JSON không hợp lệ và không thể giải tuần tự hóa. sPl
Băm vào json mà không có mảng lồng nhau trong json
Tôi đang tạo một hàm băm từ ba mảng và sau đó cố gắng tạo một json. Tôi đã chuyển đối tượng json có mảng thành công. yêu cầu 'json' A = [['A1', 'A2', 'A3'],
json - Giải mã JSON có điều kiện dựa trên các trường trong đó
Tôi nhận được JSON từ API và phản hồi có thể là một trong 30 loại. Mỗi loại có một tập hợp các trường duy nhất, nhưng tất cả các phản hồi đều có một loại trường cho biết đó là loại gì. Cách tiếp cận của tôi là sử dụng serde. Tôi tạo cấu trúc cho từng loại phản hồi và
json - Tại sao tệp JSON tôi tải xuống không còn JSON nữa?
Tôi đang tải xuống tệp JSON mà tôi đã kiểm tra là JSON hợp lệ có "https://jsonlint.com" vào thư mục tài liệu. Sau đó, tôi mở tệp và kiểm tra lại và nó hiển thị JSON không hợp lệ. Làm thế nào điều này có thể xảy ra? ? ? ? Đây là
json - Cố gắng phân tích cú pháp JSON và tạo JSON được trích xuất
Tôi đang cố gắng tạo động một đối tượng JSON dựa trên dữ liệu nhận được từ API. Dữ liệu mẫu nhận được: Giải mã dữ liệu vào cấu trúc CiItems được đưa ra bên dưới { "class_name": "test", "
json - Phân tích cú pháp JSON từ giá trị chuỗi JSON
Tôi muốn chuyển đổi từ chuỗi thành đối tượng. Từ {"key1": "{\n \"key2\": \"value2\",\n \"key3\": {\n \"key4\": \"value4\"\n }\n
json - Chuyển đổi json phẳng thành json lồng nhau
Hiện tại tôi đang sử dụng đoạn mã sau để chuyển đổi json lồng nhau thành json phẳng: import ("fmt" "github.com/nytlabs/gojsonexplode" ) func
json - Go: Giải mã json bằng một bộ thẻ json và mã hóa sang một bộ thẻ json khác
Tôi có một ứng dụng sử dụng dữ liệu từ API của bên thứ ba. Tôi cần giải mã json thành một cấu trúc, yêu cầu cấu trúc đó phải có thẻ json với trường json "đến". Các trường json gửi đi có các quy ước đặt tên khác nhau nên tôi cần các quy ước đặt tên khác nhau
json - Ràng buộc các giá trị JSON theo tên của các đối tượng JSON khác
Tôi muốn sử dụng lược đồ JSON để xác thực các giá trị nhất định. Tôi có hai đối tượng, gọi chúng là trackItems và trackItemGroups. trackItemGroups là tên nhóm và trackItem
Spark JSON Đọc các trường hoàn chỉnh trong JSON thành lớp trường hợp
Hãy xem xét mẫu lớp trường hợp sau, trường hợp lớp Y (a: String, b: String) trường hợp X (giả: String, b: Y) trường b là tùy chọn và một số tập dữ liệu của tôi không có từ nào
Làm cách nào để lấy chuỗi json được định dạng từ đối tượng json?
Tôi đang lưu trữ đầu ra của cat ~/path/to/file/blah jq tojson trong một biến để sử dụng sau này trong POST cuộn tròn với nội dung JSON. Nó hoạt động tốt, nhưng nó loại bỏ tất cả các dòng mới. Tôi biết

trang đầu

đã học

6Ren·AI

Trung tâm mua sắm

Các ký tự BOM được sao chép sang JSON bằng Python 3