cuốn sách gpt4 ai đã làm

thuật toán - "Thuật toán" quyền riêng tư và ẩn danh

In lại Tác giả: Taklimakan Thời gian cập nhật: 2023-11-03 04:25:25 28 4
mua khóa gpt4 Nike

Tôi đọc câu hỏi này trong một cuốn sách (Câu hỏi phỏng vấn) và muốn thảo luận chi tiết về nó ở đây. Hãy thắp sáng nó lên.

Câu hỏi như sau: -

Quyền riêng tư và ẩn danh

Ủy ban Bảo hiểm Tập đoàn Massachusetts đã có một ý tưởng tuyệt vời vào giữa những năm 1990 - họ quyết định công bố dữ liệu "ẩn danh" về các nhân viên nhà nước, cho thấy từng lần đến bệnh viện của họ.

Mục đích là giúp đỡ các nhà nghiên cứu. Tiểu bang đã mất thời gian để xóa các thông tin nhận dạng như tên, địa chỉ và số An sinh xã hội. Thống đốc bang Massachusetts đảm bảo với công chúng rằng điều này đủ để bảo vệ quyền riêng tư của bệnh nhân.

Một sinh viên tốt nghiệp vào thời điểm đó đã phát hiện ra những sai sót đáng kể trong phương pháp này. Cô yêu cầu một bản sao dữ liệu và bằng cách sắp xếp qua nhiều cột dữ liệu, cô có thể xác định được hồ sơ sức khỏe của thống đốc.

Điều này thể hiện sự cần thiết phải cẩn thận hơn khi ẩn danh dữ liệu. Một cách để đảm bảo quyền riêng tư là tổng hợp dữ liệu sao cho bất kỳ bản ghi nào cũng có thể được ánh xạ tới ít nhất k cá nhân, với một số giá trị lớn của k.

Tôi thực sự muốn trải nghiệm vấn đề này với một số loại tập hợp mẫu và sau đó hiểu những gì thực sự cần thiết để thực hiện việc ẩn danh này. Tôi hy vọng bạn hiểu câu hỏi này...

Tôi không có ai đủ kinh nghiệm để giúp tôi với loại vấn đề này. Vui lòng không bỏ phiếu để đóng câu hỏi này..... vì tôi sẽ bất lực nếu điều này xảy ra...

Cảm ơn, vui lòng đặt câu hỏi nếu cần giải thích thêm.

câu trả lời hay nhất

Tôi vừa sao chép và dán một phần văn bản của bạn và tình cờ thấy cái này cái này

Điều này giúp hiểu vấn đề của bạn:

Vào thời điểm GIC công bố dữ liệu, William Weld, khi đó là Thống đốc bang Massachusetts, đã đảm bảo với công chúng rằng GIC đã bảo vệ quyền riêng tư của bệnh nhân bằng cách xóa các thông tin nhận dạng. Để đáp lại, sinh viên mới tốt nghiệp Sweeney bắt đầu tìm kiếm hồ sơ bệnh viện của Thống đốc trong dữ liệu GIC. biết rằng Thống đốc Weld cư trú tại Cambridge, Massachusetts, một thành phố có 54.000 cư dân và bảy mã ZIP. Với 20 đô la, bà đã mua danh sách cử tri hoàn chỉnh từ thành phố Cambridge, một cơ sở dữ liệu chứa, cùng với những thứ khác,. tên, địa chỉ, mã ZIP, ngày sinh và giới tính của mỗi cử tri. Bằng cách kết hợp dữ liệu này với hồ sơ GIC, Sweeney dễ dàng tìm thấy Thống đốc Weld. Chỉ có sáu người ở Cambridge chia sẻ ngày sinh của ông, chỉ có ba người trong số họ là nam giới. với họ, chỉ có ông ấy sống ở vùng có mã ZIP của mình. Trong cơn thịnh nộ của sân khấu, Tiến sĩ Sweeney đã gửi hồ sơ sức khỏe của Thống đốc (bao gồm các chẩn đoán và đơn thuốc) đến văn phòng của ông.

Bùm! Nhưng đây chỉ là cột mốc đầu tiên trong sự nghiệp của Sweeney. Năm 2000, bà tuyên bố:87% người Mỹ có thể được nhận dạng duy nhất chỉ bằng ba thông tin: mã zip, ngày sinh và giới tính.

Đúng như bạn đã nói, bạn cần một cơ sở dữ liệu ngẫu nhiên và đảm bảoBất kỳ bản ghi nào cũng có thể được ánh xạ tới ít nhất k cá thể, với giá trị k lớn hơn.

Nói cách khác, bạn cần thanh lọc cơ sở dữ liệu của mình những thông tin mang tính phân biệt đối xử. Ví dụ: nếu bạn chỉ giữ giới tính (M/F) trong cơ sở dữ liệu, bạn không thể tìm ra ai là ai. Bởi vì chỉ có hai mục: M và F.

Nhưng nếu bạn lấy ngày sinh nhật thì tổng số bài dự thi của bạn sẽ ít nhiều là 2*365*80 ~=50.000. (Tôi chọn 80 năm). Ngay cả khi cơ sở dữ liệu của bạn chứa 500.000 người, có thể chỉ một trong số họ (giả sử một nam sinh ngày 3 tháng 3 năm 1985) có mục nhập như vậy và do đó bạn có thể nhận ra anh ta.

Đây chỉ là một cách đơn giản dựa vào thành phần. Nếu bạn muốn một cái gì đó phức tạp hơn, hãy tìm thông tin tương quanPCA

EDIT: Hãy đưa ra một ví dụ. Giả sử tôi đang làm việc trong lĩnh vực y tế. Nếu tôi chỉ giữ

  • Giới tính: 2 khả năng (nam, nữ)
  • Nhóm máu: 4 khả năng (O, A, B, AB)
  • Khỉ Rhesus: 2 khả năng (+, -)
  • Bang họ sống: 50 khả năng (nếu bạn ở Mỹ)
  • Tháng sinh: 12 khả năng (ảnh hưởng đến tỷ lệ tử vong ở trẻ sơ sinh)
  • Nhóm tuổi của họ: 10 khả năng (0-9 tuổi, 10-19 tuổi... 90-vô cực)

Điều này dẫn đến tổng số danh mục là 2*4*2*50*12*10 = 96.000 danh mục. Vì vậy, nếu cơ sở dữ liệu của bạn chứa 200.000.000 mục nhập (ước tính sơ bộ về số lượng cư dân Hoa Kỳ trong cơ sở dữ liệu), bạn sẽ không thể xác định được ai đó.

Điều này cũng có nghĩa là bạnKHÔNGKhông có thêm thông tin nào được cung cấp, không có mã bưu điện, v.v.Với 6 thông tin đưa ra, bạn có thể tính toán một số thống kê hay (những người sinh vào tháng 12 có sống lâu hơn không?) nhưng không thể xác định được vì 96.000 thấp hơn nhiều so với 200.000.000.

Tuy nhiên, nếu bạn chỉ có cơ sở dữ liệu về thành phố bạn đang sống, chẳng hạn như với 200.000 cư dân, thì không thể đảm bảo tính ẩn danh. Bởi vì 200.000 “không lớn hơn bao nhiêu” so với 96.000. ("Không nhiều" là một thuật ngữ khoa học thực sự phức tạp đòi hỏi kiến ​​thức về xác suất :P )

Về thuật toán - "Thuật toán" quyền riêng tư và ẩn danh, chúng tôi tìm thấy một câu hỏi tương tự trên Stack Overflow: https://stackoverflow.com/questions/6249013/

28 4 0
Chứng chỉ ICP Bắc Kinh số 000000
Hợp tác quảng cáo: 1813099741@qq.com 6ren.com
Xem sitemap của VNExpress