Tìm hiểu về nhiễu trong báo cáo tóm tắt

Tìm hiểu ý nghĩa của nhiễu, vị trí nhiễu được thêm vào và cách nhiễu ảnh hưởng đến nỗ lực đo lường của bạn.

Báo cáo tóm tắt là kết quả của việc tổng hợp báo cáo có thể tổng hợp. Khi các báo cáo có thể tổng hợp được một trình thu thập phân lô và được dịch vụ tổng hợp xử lý, nhiễu (một lượng dữ liệu ngẫu nhiên) sẽ được thêm vào các báo cáo tóm tắt thu được. Độ nhiễu được thêm vào để bảo vệ quyền riêng tư của người dùng. Mục tiêu của cơ chế này là tạo ra một khung có thể hỗ trợ hoạt động đo lường sự riêng tư một cách biệt lập.

Độ nhiễu được thêm vào báo cáo tóm tắt cuối cùng.
Độ nhiễu được thêm vào báo cáo tóm tắt cuối cùng.

Giới thiệu về nhiễu trong báo cáo tóm tắt

Mặc dù việc thêm nhiễu thường không phải là một phần của hoạt động đo lường quảng cáo hiện nay, nhưng trong nhiều trường hợp, nhiễu được thêm vào sẽ không thay đổi đáng kể cách bạn diễn giải kết quả.

Bạn có thể nghĩ về vấn đề này theo cách sau: Bạn có tự tin đưa ra quyết định dựa trên một phần dữ liệu nhất định nếu dữ liệu đó không bị nhiễu không?

Ví dụ: liệu nhà quảng cáo có tự tin thay đổi chiến lược hoặc ngân sách của chiến dịch dựa trên thực tế là Chiến dịch A có 15 lượt chuyển đổi và Chiến dịch B có 16 lượt chuyển đổi hay không?

Nếu câu trả lời là không, thì tiếng ồn không liên quan.

Bạn nên định cấu hình việc sử dụng API theo cách sau:

  1. Câu trả lời cho câu hỏi này là có.
  2. Nhiễu được quản lý theo cách không ảnh hưởng đáng kể đến khả năng đưa ra quyết định dựa trên một số dữ liệu nhất định. Bạn có thể tiếp cận vấn đề này như sau: đối với số lượt chuyển đổi tối thiểu dự kiến, bạn muốn giữ mức độ nhiễu trong chỉ số đã thu thập dưới một tỷ lệ phần trăm nhất định.

Trong phần này và phần tiếp theo, chúng ta sẽ trình bày các chiến lược để đạt được mục tiêu 2.

Các khái niệm cốt lõi

Dịch vụ tổng hợp sẽ thêm nhiễu một lần vào mỗi giá trị tóm tắt (tức là một lần cho mỗi khoá) mỗi khi có yêu cầu báo cáo tóm tắt.

Các giá trị nhiễu này được lấy ngẫu nhiên từ một phân phối xác suất cụ thể, như sau.

Tất cả các yếu tố ảnh hưởng đến nhiễu đều dựa trên 2 khái niệm chính.

  1. Phân phối nhiễu (xem chi tiết bên dưới) là như nhau bất kể giá trị tóm tắt là thấp hay cao. Do đó, giá trị tóm tắt càng cao thì khả năng nhiễu ảnh hưởng đến giá trị này càng thấp.

    Ví dụ: giả sử cả tổng giá trị giao dịch mua được tổng hợp là 20.000 đô la và tổng giá trị giao dịch mua được tổng hợp là 200 đô la đều chịu ảnh hưởng của nhiễu được chọn từ cùng một phân phối.

    Giả sử nhiễu từ phân phối này dao động trong khoảng từ -100 đến +100.

    • Đối với giá trị mua hàng tóm tắt là 20.000 đô la Mỹ, mức độ nhiễu dao động từ 0 đến 100/20.000=0,5%.
    • Đối với giá trị mua hàng tóm tắt là 200 đô la, mức độ nhiễu dao động từ 0 đến 100/200=50%.

    Do đó, nhiễu có thể sẽ ít ảnh hưởng đến giá trị giao dịch mua tổng hợp là 20.000 USD hơn là giá trị 200 USD. Tương đối mà nói, 20.000 USD có khả năng ít nhiễu hơn, tức là có khả năng có tỷ lệ tín hiệu trên nhiễu cao hơn.

    Các giá trị tổng hợp cao hơn có tác động tương đối thấp hơn do độ nhiễu.
    Các giá trị tổng hợp cao hơn có tác động tương đối thấp hơn do độ nhiễu.

    Điều này có một số ý nghĩa thực tế quan trọng được nêu trong phần tiếp theo. Cơ chế này là một phần của thiết kế API và có những tác động lâu dài trên thực tế. Chúng sẽ tiếp tục đóng vai trò quan trọng khi các công nghệ quảng cáo thiết kế và đánh giá nhiều chiến lược tổng hợp.

  2. Mặc dù nhiễu được lấy từ cùng một hàm phân phối bất kể giá trị tóm tắt, nhưng hàm phân phối đó phụ thuộc vào một số thông số. Một trong các tham số này, epsilon, có thể được các công nghệ quảng cáo thay đổi trong thời gian dùng thử nguồn gốc đã kết thúc để đánh giá nhiều chế độ điều chỉnh tiện ích/quyền riêng tư. Tuy nhiên, hãy coi khả năng điều chỉnh epsilon là tạm thời. Chúng tôi rất mong nhận được ý kiến phản hồi của bạn về các trường hợp sử dụng và giá trị epsilon hoạt động hiệu quả.

Mặc dù không trực tiếp kiểm soát cách thêm nhiễu, nhưng công ty công nghệ quảng cáo có thể tác động đến ảnh hưởng của nhiễu đối với dữ liệu đo lường của mình. Trong các phần tiếp theo, chúng ta sẽ tìm hiểu sâu về cách nhiễu có thể bị ảnh hưởng trong thực tế.

Trước khi làm việc đó, hãy xem xét kỹ hơn cách áp dụng nhiễu.

Phóng to: cách áp dụng hiệu ứng nhiễu

Một phân phối nhiễu

Độ nhiễu được lấy từ phân phối Laplace, với các tham số sau:

  • Giá trị trung bình (μ) là 0. Điều này có nghĩa là giá trị nhiễu có khả năng cao nhất là 0 (không thêm nhiễu) và giá trị có nhiễu có khả năng nhỏ hơn giá trị ban đầu cũng như lớn hơn giá trị ban đầu (đôi khi được gọi là không thiên vị).
  • Một tham số tỷ lệ của b = CONTRIBUTION_BUDGET / epsilon.
    • CONTRIBUTION_BUDGET được xác định trong trình duyệt.
    • epsilon được dùng trong Dịch vụ tổng hợp.

Sơ đồ sau đây cho thấy hàm mật độ xác suất cho phân phối Laplace với μ=0, b = 20:

Hàm mật độ xác suất cho hàm phân phối Laplace với μ=0, b = 20
Hàm mật độ xác suất cho phân phối Laplace với μ=0, b = 20

Giá trị nhiễu ngẫu nhiên, một phân phối nhiễu

Giả sử một công nghệ quảng cáo yêu cầu báo cáo tóm tắt cho 2 khoá tổng hợp, key1 và key2.

Dịch vụ tổng hợp chọn hai giá trị nhiễu x1 và x2, theo cùng một phân phối nhiễu. x1 được thêm vào giá trị tóm tắt cho key1 và x2 được thêm vào giá trị tóm tắt cho key2.

Trong các sơ đồ, chúng ta sẽ biểu thị các giá trị nhiễu là giống nhau. Đây là một cách đơn giản hoá; trên thực tế, các giá trị nhiễu sẽ khác nhau vì chúng được rút ngẫu nhiên từ phân phối.

Điều này minh hoạ rằng tất cả giá trị nhiễu đều đến từ cùng một bản phân phối và độc lập với giá trị tóm tắt mà chúng được áp dụng.

Các đặc tính khác của tiếng ồn

Nhiễu được áp dụng cho mọi giá trị tóm tắt, kể cả giá trị trống (0).

Ngay cả các giá trị tóm tắt trống cũng có thể bị nhiễu.
Ngay cả các giá trị tóm tắt trống cũng có thể bị nhiễu.

Ví dụ: ngay cả khi giá trị tóm tắt thực cho một khoá nhất định là 0, thì giá trị tóm tắt có nhiễu mà bạn sẽ thấy trong báo cáo tóm tắt cho khoá này (rất có thể) sẽ không phải là 0.

Nhiễu có thể là số dương hoặc số âm.

Ví dụ về tiếng ồn tích cực và tiêu cực.
Ví dụ về tiếng ồn tích cực và tiêu cực.

Ví dụ: đối với số tiền mua hàng trước khi thêm nhiễu là 327.000, nhiễu có thể là +6.000 hoặc -6.000 (đây là các giá trị ví dụ tuỳ ý).

Đánh giá nhiễu

Tính độ lệch chuẩn của nhiễu

Độ lệch chuẩn của nhiễu là:

b*sqrt(2) = (CONTRIBUTION_BUDGET / epsilon)*sqrt(2)
Ví dụ:

Với epsilon = 10, độ lệch chuẩn của nhiễu là:

b*sqrt(2) = (CONTRIBUTION_BUDGET / epsilon)*sqrt(2) = (65,536/10)*sqrt(2) = 9,267

Đánh giá thời điểm có sự khác biệt đáng kể về hoạt động đo lường

Vì bạn sẽ biết độ lệch chuẩn của nhiễu được thêm vào mỗi giá trị do dịch vụ tổng hợp xuất ra, nên bạn có thể xác định các ngưỡng thích hợp để so sánh nhằm xác định xem những khác biệt quan sát được có phải là do nhiễu hay không.

Ví dụ: nếu lượng dữ liệu nhiễu được thêm vào một giá trị là khoảng +/- 10 (tính cả việc điều chỉnh quy mô) và sự khác biệt về giá trị giữa hai chiến dịch là hơn 100, thì có thể kết luận rằng sự khác biệt về giá trị được đo lường giữa mỗi chiến dịch không chỉ do dữ liệu nhiễu.

Tương tác và chia sẻ ý kiến phản hồi

Bạn có thể tham gia và thử nghiệm API này.

Các bước tiếp theo