- Siêu lớp và danh mục iOS/Objective-C
- object-c - -1001 lỗi khi NSURLSession vượt qua httpproxy và /etc/hosts
- java - Nhận địa chỉ url bằng lớp mạng
- ios - Âm thanh không phát trong thông báo đẩy
Tôi đọc câu hỏi này trong một cuốn sách (Câu hỏi phỏng vấn) và muốn thảo luận chi tiết về nó ở đây. Hãy thắp sáng nó lên.
Câu hỏi như sau: -
Quyền riêng tư và ẩn danh
Ủy ban Bảo hiểm Tập đoàn Massachusetts đã có một ý tưởng tuyệt vời vào giữa những năm 1990 - họ quyết định công bố dữ liệu "ẩn danh" về các nhân viên nhà nước, cho thấy từng lần đến bệnh viện của họ.
Mục đích là giúp đỡ các nhà nghiên cứu. Tiểu bang đã mất thời gian để xóa các thông tin nhận dạng như tên, địa chỉ và số An sinh xã hội. Thống đốc bang Massachusetts đảm bảo với công chúng rằng điều này đủ để bảo vệ quyền riêng tư của bệnh nhân.
Một sinh viên tốt nghiệp vào thời điểm đó đã phát hiện ra những sai sót đáng kể trong phương pháp này. Cô yêu cầu một bản sao dữ liệu và bằng cách sắp xếp qua nhiều cột dữ liệu, cô có thể xác định được hồ sơ sức khỏe của thống đốc.
Điều này thể hiện sự cần thiết phải cẩn thận hơn khi ẩn danh dữ liệu. Một cách để đảm bảo quyền riêng tư là tổng hợp dữ liệu sao cho bất kỳ bản ghi nào cũng có thể được ánh xạ tới ít nhất k cá nhân, với một số giá trị lớn của k.
Tôi thực sự muốn trải nghiệm vấn đề này với một số loại tập hợp mẫu và sau đó hiểu những gì thực sự cần thiết để thực hiện việc ẩn danh này. Tôi hy vọng bạn hiểu câu hỏi này...
Tôi không có ai đủ kinh nghiệm để giúp tôi với loại vấn đề này. Vui lòng không bỏ phiếu để đóng câu hỏi này..... vì tôi sẽ bất lực nếu điều này xảy ra...
Cảm ơn, vui lòng đặt câu hỏi nếu cần giải thích thêm.
câu trả lời hay nhất
Tôi vừa sao chép và dán một phần văn bản của bạn và tình cờ thấy cái này cái này
Điều này giúp hiểu vấn đề của bạn:
Vào thời điểm GIC công bố dữ liệu, William Weld, khi đó là Thống đốc bang Massachusetts, đã đảm bảo với công chúng rằng GIC đã bảo vệ quyền riêng tư của bệnh nhân bằng cách xóa các thông tin nhận dạng. Để đáp lại, sinh viên mới tốt nghiệp Sweeney bắt đầu tìm kiếm hồ sơ bệnh viện của Thống đốc trong dữ liệu GIC. biết rằng Thống đốc Weld cư trú tại Cambridge, Massachusetts, một thành phố có 54.000 cư dân và bảy mã ZIP. Với 20 đô la, bà đã mua danh sách cử tri hoàn chỉnh từ thành phố Cambridge, một cơ sở dữ liệu chứa, cùng với những thứ khác,. tên, địa chỉ, mã ZIP, ngày sinh và giới tính của mỗi cử tri. Bằng cách kết hợp dữ liệu này với hồ sơ GIC, Sweeney dễ dàng tìm thấy Thống đốc Weld. Chỉ có sáu người ở Cambridge chia sẻ ngày sinh của ông, chỉ có ba người trong số họ là nam giới. với họ, chỉ có ông ấy sống ở vùng có mã ZIP của mình. Trong cơn thịnh nộ của sân khấu, Tiến sĩ Sweeney đã gửi hồ sơ sức khỏe của Thống đốc (bao gồm các chẩn đoán và đơn thuốc) đến văn phòng của ông.
Bùm! Nhưng đây chỉ là cột mốc đầu tiên trong sự nghiệp của Sweeney. Năm 2000, bà tuyên bố:87% người Mỹ có thể được nhận dạng duy nhất chỉ bằng ba thông tin: mã zip, ngày sinh và giới tính.
Đúng như bạn đã nói, bạn cần một cơ sở dữ liệu ngẫu nhiên và đảm bảoBất kỳ bản ghi nào cũng có thể được ánh xạ tới ít nhất k cá thể, với giá trị k lớn hơn.
Nói cách khác, bạn cần thanh lọc cơ sở dữ liệu của mình những thông tin mang tính phân biệt đối xử. Ví dụ: nếu bạn chỉ giữ giới tính (M/F) trong cơ sở dữ liệu, bạn không thể tìm ra ai là ai. Bởi vì chỉ có hai mục: M và F.
Nhưng nếu bạn lấy ngày sinh nhật thì tổng số bài dự thi của bạn sẽ ít nhiều là 2*365*80 ~=50.000. (Tôi chọn 80 năm). Ngay cả khi cơ sở dữ liệu của bạn chứa 500.000 người, có thể chỉ một trong số họ (giả sử một nam sinh ngày 3 tháng 3 năm 1985) có mục nhập như vậy và do đó bạn có thể nhận ra anh ta.
Đây chỉ là một cách đơn giản dựa vào thành phần. Nếu bạn muốn một cái gì đó phức tạp hơn, hãy tìm thông tin tương quanVà PCA
EDIT: Hãy đưa ra một ví dụ. Giả sử tôi đang làm việc trong lĩnh vực y tế. Nếu tôi chỉ giữ
Điều này dẫn đến tổng số danh mục là 2*4*2*50*12*10 = 96.000 danh mục. Vì vậy, nếu cơ sở dữ liệu của bạn chứa 200.000.000 mục nhập (ước tính sơ bộ về số lượng cư dân Hoa Kỳ trong cơ sở dữ liệu), bạn sẽ không thể xác định được ai đó.
Điều này cũng có nghĩa là bạnKHÔNGKhông có thêm thông tin nào được cung cấp, không có mã bưu điện, v.v.仅Với 6 thông tin đưa ra, bạn có thể tính toán một số thống kê hay (những người sinh vào tháng 12 có sống lâu hơn không?) nhưng không thể xác định được vì 96.000 thấp hơn nhiều so với 200.000.000.
Tuy nhiên, nếu bạn chỉ có cơ sở dữ liệu về thành phố bạn đang sống, chẳng hạn như với 200.000 cư dân, thì không thể đảm bảo tính ẩn danh. Bởi vì 200.000 “không lớn hơn bao nhiêu” so với 96.000. ("Không nhiều" là một thuật ngữ khoa học thực sự phức tạp đòi hỏi kiến thức về xác suất :P )
Về thuật toán - "Thuật toán" quyền riêng tư và ẩn danh, chúng tôi tìm thấy một câu hỏi tương tự trên Stack Overflow: https://stackoverflow.com/questions/6249013/
我是 python 的新手。我试图找到我的文本的频率分布。这是代码, import nltk nltk.download() import os os.getcwd() text_file=open(
我对安卓 fragment 感到困惑。我知道内存 fragment 但无法理解什么是 android fragment 问题。虽然我发现很多定义,比如 Android fragmentation re
尝试对 WordPress 进行 dockerise 我发现了这个场景: 2个数据卷容器,一个用于数据库(bbdd),另一个用于wordpress文件(wordpress): sudo docker
这个问题已经有答案了: From the server is there a way to know that my page is being loaded in an Iframe (1 个回答)
我正在玩小型服务器,试图对运行在其上的服务进行docker化。为简化起见,假设我必须主要处理:Wordpress和另一项服务。 在Docker集线器上有许多用于Wordpress的图像,但是它们似乎都
我想要发生的是,当帐户成功创建后,提交的表单应该消失,并且应该出现一条消息(取决于注册的状态)。 如果成功,他们应该会看到一个简单的“谢谢。请检查您的电子邮件。” 如果不是,那么他们应该会看到一条适当
就是这样,我需要为客户添加一个唯一标识符。通过 strip 元数据。这就是我现在完全构建它的方式,但是我只有最后一部分告诉我用户购买了哪个包。 我试着看这里: Plans to stripe 代码在这
我有一个类将执行一些复杂的操作,涉及像这样的一些计算: public class ComplexAction { public void someAction(String parameter
这个问题已经有答案了: maven add a local classes directory to module's classpath (1 个回答) 已关闭10 年前。 我有一些不应更改的旧 E
我使用 fragment 已经有一段时间了,但我经常遇到一个让我烦恼的问题。 fragment 有时会相互吸引。现在,我设法为此隔离了一个用例,它是这样的: Add fragment A(也使用 ad
我的 html 中有一个 ol 列表,上面有行条纹。看起来行条纹是从数字后面开始的。有没有办法让行条纹从数字开始? 我已经包含了正在发生的事情的片段 h4:nth-child(even) {
如何仅使用 css 将附加图像 html 化? 如果用纯 css 做不到,那我怎么能至少用一个图像来做 最佳答案 这不是真正的问题,而是您希望我们为您编写代码。我建议您搜索“css breadcrum
以下是 Joshua 的 Effective Java 的摘录: If you do synchronize your class internally, you can use various te
在这里工作时,我们有一个框向业务合作伙伴提供 XML 提要。对我们的提要的请求是通过指定查询字符串参数和值来定制的。其中一些参数是必需的,但很多不是。 例如,我们要求所有请求都指定一个 GUID 来标
我有 3 个缓冲区,其中包含在 32 位处理器上运行的 R、G、B 位数据。 我需要按以下方式组合三个字节: R[0] = 0b r1r2r3r4r5r6r7r8 G[0] = 0b g1g2g3g4
我最近发现了关于如何使用 History.js、jQuery 和 ScrollTo 通过 HTML5 History API 对网站进行 Ajax 化的要点:https://github.com/br
我们有一个 Spring Boot 应用程序,由于集成需要,它变得越来越复杂——比如在你这样做之后发送一封电子邮件,或者在你之后广播一条 jms 消息等等。在寻找一些更高级别的抽象时,我遇到了 apa
我正在尝试首次实施Google Pay。我面临如何指定gateway和gatewayMarchantId的挑战。 我所拥有的是google console帐户,不知道在哪里可以找到此信息。 priva
昨天下午 3 点左右,我为两个想要从一个 Azure 帐户转移到另一个帐户的网站设置了 awverify 记录。到当天结束时,Azure 仍然不允许我添加域,所以我赌了一把,将域和 www 子域重新指
我正在使用terms facet在elasticsearch服务器中获取顶级terms。现在,我的标签"indian-government"不被视为一个标签。将其视为"indian" "governm
Tôi là một lập trình viên xuất sắc, rất giỏi!