Những lo ngại về quyền riêng tư có thể làm hỏng kế hoạch chưa từng có để sử dụng dữ liệu Facebook để nghiên cứu các cuộc bầu cử

Nhân viên của Facebook làm việc để giảm sự lan truyền thông tin sai lệch có thể ảnh hưởng đến cuộc bầu cử.

NOAH BERGER / AFP / Getty Images

Những lo ngại về quyền riêng tư có thể làm hỏng kế hoạch chưa từng có để sử dụng dữ liệu Facebook để nghiên cứu các cuộc bầu cử

Bởi Jeffrey MannerSep. 24, 2019, 4:50 chiều

Gary King được hưởng lợi từ thời điểm hoàn hảo trong việc bán Facebook trên ý tưởng chia sẻ một kho tàng dữ liệu của mình với các học giả. Nhưng bây giờ, đồng hồ đang làm việc chống lại những nỗ lực của King và những người khác để giữ cho dự án đổi mới, nhằm mục đích hiểu rõ hơn về cách thông tin lan truyền trên Facebook ảnh hưởng đến các cuộc bầu cử và các tổ chức chính trị trên toàn thế giới. Điểm nhấn chính: bảo vệ quyền riêng tư của người dùng Facebook.

Vào tháng 3 năm 2018, King, một nhà khoa học xã hội định lượng tại Đại học Harvard, đã đến thăm trụ sở của Facebook tại Menlo Park, California. Các phương tiện truyền thông vừa phá vỡ thông tin rằng một công ty của Anh, Cambridge Analytica, đã bán hồ sơ cử tri cho các ứng cử viên dựa trên thông tin cá nhân được cung cấp một cách vô tình bởi hàng triệu người dùng Facebook. Vụ bê bối kết quả là một bài học nghiêm túc cho Facebook về cách không chia sẻ dữ liệu của mình với người ngoài.

King đã quảng cáo một cách tốt hơn để Facebook chia sẻ dữ liệu. Kế hoạch của ông được thiết kế để đáp ứng các tiêu chuẩn đạo đức và trí tuệ cao trong khi đạt được ba mục tiêu quan trọng: bảo vệ quyền riêng tư của người dùng Facebook, bảo vệ bí mật thương mại của công ty về cách quản lý dữ liệu và không áp dụng các hạn chế đối với những gì các nhà nghiên cứu có thể công bố từ dữ liệu.

Sự sắp xếp mới lạ, King tin rằng, có thể biến đổi khoa học xã hội định lượng bằng cách cung cấp cho các nhà nghiên cứu quyền truy cập vào dữ liệu thực sự lớn thay vì các cuộc khảo sát và các mẫu nhỏ mà theo truyền thống là chế độ ăn kiêng. Nó cũng sẽ đối mặt với một thách thức lớn đối với lĩnh vực này: Các công ty tư nhân hiện sở hữu nhiều thông tin hơn về cách con người cư xử so với chính phủ. Và các nhà nghiên cứu cần truy cập tốt hơn vào những dữ liệu đó.

Các quan chức của Facebook đã lắng nghe một cách lịch sự với sân của King nhưng không đưa ra lời hứa nào. Anh ta hình dung anh ta đã đánh ra.

Sau đó, anh nhớ lại, gần đây, tôi đang ở trong phòng khách sạn, chuẩn bị về nhà, khi tôi nhận được email từ những người tôi mới gặp. Một số người đặt câu hỏi: Chuyện gì chúng ta có thể làm về điều này? đến vụ bê bối Cambridge Analytica. Các quan chức của công ty, những người đã chứng kiến ​​sự thất vọng khi giá cổ phiếu Facebook giảm mạnh sau những tiết lộ, rõ ràng lo lắng về vụ bê bối có thể gây tổn hại đến danh tiếng của công ty.

Vài ngày sau King nhận được một cuộc điện thoại tiếp theo. Bạn có thể thực hiện một nghiên cứu về cuộc bầu cử năm 2016 và nói với mọi người rằng chúng tôi đã không thay đổi kết quả không? Và nếu chúng tôi làm sai, hãy nói cho chúng tôi biết phải làm gì và chúng tôi sẽ làm điều đó ngay lập tức. King King nói rằng phản ứng đầu tiên của anh ấy là, tôi đoán mất 100 tỷ đô la vốn hóa tập trung vào tâm trí.

Một mô hình mới quan trọng

Cuộc gọi đã khiến King và Nate Persily, giáo sư luật tại Đại học Stanford ở Palo Alto, California, cố gắng hết sức trong kế hoạch của họ để đứng lên Social Science One, một tổ chức phi lợi nhuận sẽ là trang web trực tuyến để các nhà nghiên cứu truy cập bất kỳ dữ liệu nào mà Facebook công bố . Dự án đầu tiên của nó sẽ cung cấp cho các nhà nghiên cứu cái nhìn về cách 2 tỷ người dùng của Facebook đã chia sẻ các trang web thảo luận về cuộc bầu cử tổng thống Mỹ năm 2016, cũng như các tổ chức dân chủ trên toàn thế giới.

Các bộ dữ liệu sẽ chứa các địa chỉ web hoặc URL mà người dùng Facebook đã chia sẻ công khai, một số đặc điểm của các URL đó và tổng hợp thông tin về người chia sẻ, bao gồm tuổi, giới tính, vị trí và khuynh hướng chính trị của họ. Nó hứa sẽ là một mỏ vàng cho các nhà nghiên cứu nghiên cứu trong những điều kiện, và bởi ai, tin tức giả mạo được lan truyền trên internet.

Vào ngày 9 tháng 4 năm 2018, Elliot Schrage, một giám đốc điều hành cấp cao của Facebook, đã công bố sáng kiến ​​mới mà ông viết sẽ giúp cung cấp nghiên cứu độc lập, đáng tin cậy về vai trò của phương tiện truyền thông xã hội trong các cuộc bầu cử. mô hình cho mối quan hệ đối tác giữa ngành công nghiệp và giới học thuật. Và mặc dù ông không đề cập đến Cambridge Analytica, vụ bê bối rõ ràng xuất hiện trong tâm trí ông. Các công cụ tương tự của Facebook giúp các chính trị gia kết nối với các thành phần của họ, cũng có thể bị lạm dụng để thao túng và lừa đảo, anh viết.

Tổ chức leo lên tàu

Thông báo tháng 4 năm 2018 cũng liệt kê bảy tổ chức từ thiện sẽ tài trợ cho sáng kiến ​​này. Các tập đoàn đã được lắp ráp bởi Larry Kramer, Chủ tịch William và Flora Hewlett Foundation, nằm chỉ là một vài dặm từ trụ sở chính của Facebook tại Menlo Park. Tổ chức này gần đây đã mở rộng một sáng kiến ​​dân chủ lớn, được gọi là Sáng kiến ​​Madison, tập trung vào nghiên cứu Quốc hội để chú ý hơn đến thông tin sai lệch kỹ thuật số.

Tôi nhớ người quản lý chương trình của chúng tôi run rẩy vì phấn khích khi nghe tin về mối quan hệ đối tác mới, Kramer nhớ lại. Chúng tôi vừa xác định thiếu quyền truy cập dữ liệu là vấn đề cốt lõi của chúng tôi đối với Sáng kiến ​​Madison, và sau đó, bùng nổ, đây là kho báu sẽ cho phép chúng tôi làm những gì chúng tôi nghĩ cần phải làm.

Kramer đã có thể nhận được Quỹ Alfred P. Sloan, Quỹ Laura và John Arnold, Quỹ Charles Koch, Quỹ John S. và James L. Knight, Quỹ Dân chủ và Mạng lưới Omidyar để đăng nhập. Tất cả đều có chung sở thích về cách thức hoạt động của các nền dân chủ, ông nói. Sự đa dạng về ý thức hệ của họ, Koch Koch ủng hộ một số nguyên nhân bảo thủ, trong khi Mạng Omidyar được cho là tự do, cũng rất quan trọng.

Chúng tôi đồng ý rằng chúng tôi cần tài trợ bên ngoài để thực hiện công việc này, K Kerer nhớ lại. Vì bởi vì nó được tài trợ bởi Facebook, mọi người sẽ không tin vào kết quả. Đó là cách mọi thứ diễn ra ngày hôm nay. Các tổ chức đã đồng ý cung cấp tổng cộng 11 triệu đô la cho dự án thí điểm 1 năm, được quản lý bởi Hội đồng nghiên cứu khoa học xã hội (SSRC), một tổ chức phi lợi nhuận có trụ sở tại thành phố New York cũng sẽ điều hành quá trình tài trợ

Cấu trúc này có ý nghĩa, và những người điều hành nó là đỉnh cao, leo Kramer nói. Và đã có một khởi đầu tuyệt vời.

Vào tháng 7 năm 2018, SSRC đã đưa ra lời kêu gọi đề xuất và vào tháng 4 đã trao 50.000 đô la tài trợ cho mỗi nhóm các nhà khoa học. (Một nhóm thứ hai gồm 13 đội đã được chọn nhưng chưa được công bố.) Vòng dự án đầu tiên bao gồm các nghiên cứu về cách hoạt động trên Facebook có thể ảnh hưởng đến sự tham gia của công dân và các cuộc bầu cử gần đây ở Đài Loan, Chile, Brazil và Đức, cũng như cách thức Người dùng phản ứng khác nhau đối với các nguồn tin tức trực tuyến chính thống và gây hiểu lầm.

Nhanh lên và chờ đợi

Nhưng nhiều như Kramer hy vọng sự hợp tác độc đáo giữa Facebook, Social Science One và các nhà tài trợ sẽ phát triển mạnh mẽ, anh nghĩ rằng có thể đã là một sai lầm khi di chuyển quá nhanh ngay từ đầu. Đây là tất cả những gì diễn ra rất nhanh, anh ấy nói. Bây giờ rõ ràng, tất cả mọi người tham gia đều đánh giá thấp thời gian cần thiết để đưa ra một cách chấp nhận được để bảo vệ quyền riêng tư của người dùng Facebook. Hầu như tất cả các vấn đề [xung quanh quyền riêng tư] đã phát sinh là do chúng tôi thực sự không có thời gian để vượt qua tất cả các Ts và chấm vào Is như chúng ta thường làm, Bình Kramer nói.

Những người được cấp như Joshua Tucker, giáo sư khoa học chính trị và khoa học dữ liệu tại Đại học New York ở thành phố New York, đã phải trả giá cho sự vội vàng đó. Vào tháng 1, nhóm của ông đã báo cáo về một nghiên cứu cho thấy những người lớn tuổi chia sẻ thông tin sai lệch gấp 7 lần so với thế hệ millennials. Các kết quả cho thấy kiến ​​thức kỹ thuật số có thể là một yếu tố quan trọng trong việc mọi người có thể xác định tính chính xác của những gì họ đọc trực tuyến.

Nhưng dự án đó dựa trên nghiên cứu khảo sát truyền thống với những người đã đồng ý chia sẻ hành vi trực tuyến của họ. Và Tucker muốn tiến xa hơn, bằng cách liên kết dữ liệu có sẵn công khai mà anh ta đã lấy được từ Reddit và Twitter với dữ liệu người dùng không công khai do Facebook cung cấp. Dữ liệu của Facebook, theo ông, sẽ cho phép nhóm nghiên cứu thử nghiệm một số giả thuyết của chúng tôi về cách tin tức, bao gồm thông tin sai lệch, được lan truyền trên các nền tảng truyền thông xã hội khác nhau.

Dữ liệu liên kết được chia sẻ được coi là trái cây treo thấp về mặt bảo vệ quyền riêng tư, ông nói thêm, vì chúng chỉ chứa thông tin tổng hợp.

Có thể nói với bạn rằng những người đàn ông từ 25 đến 35 tuổi sống ở tiểu bang New York đã chia sẻ một liên kết cụ thể 1000 lần, trong khi những người phụ nữ ở Bắc Dakota trên 65 tuổi đã chia sẻ dữ liệu sáu lần, anh ấy giải thích về bộ dữ liệu đã hứa. Tuy nhiên, nó sẽ không chứa ID Facebook hoặc hashtag của bạn, theo sau là một loạt những điều về bạn.

Tuy nhiên, hiện tại, Tucker, người cũng lãnh đạo một trong bốn ủy ban tư vấn đã giúp truyền bá về Khoa học xã hội Một người không thể truy cập vào những dữ liệu đó. Đó là bởi vì Facebook chưa tìm ra cách đảm bảo quyền riêng tư trước khi phát hành dữ liệu.

Các thách thức quyền riêng tư trở nên rõ ràng gần như ngay lập tức, các quan chức của King và Facebook cho biết. Cụ thể, họ nhận ra các kỹ thuật truyền thống để đảm bảo quyền riêng tư, dựa trên ẩn danh, không còn phù hợp nữa. Các nhà khoa học máy tính đã chỉ ra rằng họ có thể xác định các cá nhân được bao gồm trong các tập dữ liệu ẩn danh bằng cách sử dụng sức mạnh tính toán khổng lồ để kết nối dữ liệu bị che giấu với thông tin cá nhân khác đã có sẵn công khai trực tuyến.

Với khả năng như vậy, các chuyên gia về quyền riêng tư nói với Facebook rằng họ đã cắt dữ liệu quá mỏng về các nhóm nhân khẩu học và số lần [các địa chỉ web được chia sẻ], một quan chức của Facebook giải thích. Để đảm bảo quyền riêng tư, công ty đã phải thêm rất nhiều tiếng ồn thống kê vào dữ liệu mà các kết quả đã bị bóp méo quá mức có thể hữu ích cho các nhà nghiên cứu, quan chức này nói.

Câu trả lời, Facebook quyết định, là sử dụng quyền riêng tư khác biệt. Đó là một cách tiếp cận toán học để thêm tiếng ồn khiến người ngoài không thể biết liệu thông tin cá nhân của một cá nhân có được chứa trong một tập dữ liệu cụ thể hay không và do đó, đảm bảo quyền riêng tư của họ. Ở cấp độ hoạt động, quan chức của Facebook giải thích, điều đó có nghĩa là chúng tôi cần một bộ máy chủ mới, với các loại bảo mật mới và với quyền riêng tư được áp dụng cho các bộ dữ liệu.

Nhưng để đạt được mục tiêu đó cần có thời gian. Sự riêng tư của Khác biệt là một công nghệ vượt trội, King King nói. Đây là một sự phát triển rất quan trọng, nhưng nó không giống như có phần mềm hoàn toàn hoạt động và nó đã được điều chỉnh phù hợp với tất cả các phương pháp thống kê. Vì vậy, chúng tôi nhận ra rằng chúng tôi đã có một năm hoặc nhiều công việc mà chúng tôi đã không lên kế hoạch.

Hãy nhớ rằng, đây là nghiên cứu, Vua King cho biết thêm. Nếu nó dễ dàng, nó sẽ được gọi là tìm kiếm.

Tucker nói rằng các cộng tác viên biết rằng họ đang tham gia vào vùng biển khá chưa được khám phá, khi thỏa thuận của Facebook bị đình công. Kế hoạch ban đầu là để cho các nhà nghiên cứu làm việc trên dữ liệu tổng hợp và sau đó giải quyết câu hỏi hóc búa hơn về quyền riêng tư sau này, ông nói. Nhưng điều đó đã trở thành không thể tin được.

Cuộc tìm kiếm sự riêng tư khác biệt đã đến với một chi phí làm chậm sự sẵn có của dữ liệu, ông nói. Nhưng làm như vậy để đổi lấy sự đảm bảo toán học về quyền riêng tư, anh ấy nói thêm, là một cái giá anh ấy sẵn sàng trả.

Một cuộc cách mạng thành công

Cuối tháng trước, tập đoàn tài trợ và SSRC quyết định rằng đồng hồ đã hết. Trong một bức thư ngỏ gửi SSRC, các nhà tài trợ đã viết rằng họ khuyên bạn nên tạm dừng quá trình tài trợ trừ khi và cho đến khi có nhiều dữ liệu hơn. Một số hoặc tất cả chúng ta có thể sẵn sàng xem xét mở rộng hoặc tái tạo hỗ trợ nếu dữ liệu mới về nhập khẩu và giá trị đủ khả dụng.

Đồng thời, SSRC đã đưa ra một tuyên bố đồng tình với khuyến nghị đó và mô tả cách thức mà nó sẽ kết thúc dự án vào cuối năm 2019. Các nhà nghiên cứu đã tài trợ sẽ nhận được các khoản tài trợ của họ và những người trong vòng hai sẽ được tài trợ nếu họ có thể hoàn thành dự án hiện tại với dữ liệu hiện có.

Một số báo cáo phương tiện truyền thông về những thông báo đó đưa ra sự chậm trễ như một ví dụ khác về việc Facebook sẽ thực hiện lại lời hứa. Các quan chức của Facebook từ chối đánh giá đó, nói rằng công ty đã nói rõ từ khi bắt đầu rằng quyền riêng tư là sự cân nhắc cao nhất.

Tucker, Kramer và King nói rằng họ tin rằng Facebook đang làm tất cả những gì có thể để mở đường cho các nhà nghiên cứu truy cập. Tôi không nghĩ rằng họ đang bị đình trệ Mọi người đều muốn nghiên cứu này được thực hiện. Nhưng nó rất phức tạp.

Kramer nói rằng anh ta không bảo vệ hành động của Facebook. Tôi không quan tâm nếu [sự chậm trễ] giúp đỡ hoặc làm tổn thương "công ty, ông nói. Nhưng ông nghĩ rằng Facebook xứng đáng nhận được một số tín dụng cho việc thử.

Làm thế nào tất cả hóa ra có thể ảnh hưởng đến việc liệu những gã khổng lồ kỹ thuật số khác, như Google, cũng tham gia vào những nỗ lực chia sẻ dữ liệu đó. Khi chúng tôi bắt đầu, thì Kramer nói, chúng tôi hy vọng điều đó sẽ xảy ra với Facebook và sau đó mời các công ty truyền thông xã hội khác ngồi trên dữ liệu tương tự để tham gia và giúp chúng tôi có cái nhìn toàn diện. Nhưng không ai trong số họ quan tâm.

Một quan chức của Google xác nhận rằng công ty đã từ chối tham gia khi được Social Science One tiếp cận. Chúng tôi quyết định chờ xem điều gì sẽ xảy ra với Facebook, chuyên gia Clement Wolf, lãnh đạo chính sách công toàn cầu ở San Francisco, California, nói về người khổng lồ truyền thông xã hội. Và chúng tôi rất quan tâm đến cách nó diễn ra.

Nếu thành công, Facebook Tucker nói, có thể cách mạng hóa các loại dữ liệu trực tuyến mà các nhà nghiên cứu có thể truy cập và những câu hỏi mà những người không phải là nhân viên của nền tảng đó có thể hỏi. Nhân viên của Facebook có thể làm điều đó ngay bây giờ, nhưng chúng tôi không thể.

Khoảng hai chục nhân viên Facebook đã dành cả năm qua để giải quyết vấn đề và đã đạt được tiến bộ đáng kể. Tuần trước, chẳng hạn, Facebook đã cung cấp dữ liệu được bảo vệ khác nhau trên khoảng 32 triệu địa chỉ trang web mà người dùng Facebook đã chia sẻ công khai hơn 100 lần trong 2 năm qua. Dữ liệu bao gồm thông tin về việc địa chỉ được báo cáo có chứa tin tức giả mạo, thư rác hoặc ngôn từ kích động thù địch hay không và bao nhiêu lần nó được chia sẻ mà không được nhấp vào.

Phát hành đó là tín hiệu tốt cho dự án, King, người coi việc đình chỉ tài trợ chỉ đơn thuần là một cú hích trên con đường hướng tới sự hợp tác nhiều hơn giữa các công ty internet lớn và các học giả. Data tăng áp một lĩnh vực, "ông nói. Và khoa học xã hội có nhiều dữ liệu hơn bao giờ hết. Nhưng hầu hết dữ liệu nằm trong các công ty và họ sử dụng nó cho mục đích riêng của họ. Vì vậy, chúng tôi, với tư cách là nhà khoa học, không có lựa chọn nào khác ngoài việc đưa ra một số thỏa thuận với ngành công nghiệp tư nhân .

* Sửa chữa, 25 tháng 9, 10:25 sáng: Câu chuyện này đã được cập nhật để sửa tên của Hội đồng Nghiên cứu Khoa học Xã hội.