Tìm hiểu cách xử lý, tính toán và giảm tác động của nhiễu trong báo cáo có thể tổng hợp.
Trước khi bắt đầu
Trước khi tiếp tục, để hiểu rõ về nhiễu và tác động của nhiễu, hãy tham khảo bài viết Tìm hiểu về nhiễu trong báo cáo tóm tắt.
Các chế độ kiểm soát tiếng ồn
Mặc dù không thể kiểm soát trực tiếp nhiễu được thêm vào báo cáo có thể tổng hợp, nhưng bạn có thể thực hiện các bước để giảm thiểu tác động. Các phần sau đây giải thích những chiến lược này.
Tăng ngân sách đóng góp
Như đã giải thích trong phần Tìm hiểu về nhiễu, nhiễu được áp dụng cho giá trị tóm tắt của mỗi khoá dựa trên thang đo từ 0 đến 65.536 (0 đến CONTRIBUTION_BUDGET).
Do đó, để tối đa hoá tín hiệu so với nhiễu, bạn nên tăng tỷ lệ từng giá trị trước khi đặt giá trị đó làm giá trị có thể tổng hợp, tức là nhân từng giá trị với một hệ số nhất định (hệ số tỷ lệ) trong khi xác minh rằng giá trị đó vẫn nằm trong hạn mức đóng góp.
Tính hệ số tỷ lệ
Hệ số tỷ lệ biểu thị mức độ bạn muốn chia tỷ lệ một giá trị có thể tổng hợp nhất định. Giá trị của chỉ số này phải là ngân sách đóng góp chia cho giá trị có thể tổng hợp tối đa cho một khoá nhất định.
Ví dụ: giả sử nhà quảng cáo muốn biết tổng giá trị mua hàng. Bạn biết rằng giá trị mua tối đa dự kiến của bất kỳ giao dịch mua riêng lẻ nào là 2.000 USD, ngoại trừ một số giá trị ngoại lệ mà bạn quyết định bỏ qua:
- Tính hệ số tỷ lệ:
- Để tối đa hoá tỷ lệ tín hiệu trên nhiễu, bạn cần điều chỉnh giá trị này thành 65.536 (ngân sách đóng góp).
- Điều này dẫn đến hệ số tỷ lệ 65.536 / 2.000, tức là khoảng 32x. Trên thực tế, bạn có thể làm tròn hệ số này lên hoặc xuống.
- Tăng giá trị trước khi tổng hợp. Đối với mỗi 1 USD mua hàng, hãy tăng chỉ số được theo dõi thêm 32. Ví dụ: đối với giao dịch mua trị giá 1.200.000 VND, hãy đặt giá trị có thể tổng hợp là 1.200.000*32 = 38.400.000.
- Giảm giá trị sau khi tổng hợp. Sau khi bạn nhận được báo cáo tóm tắt chứa giá trị mua hàng được cộng trên nhiều người dùng, hãy giảm giá trị tóm tắt bằng cách sử dụng hệ số tỷ lệ mà bạn đã dùng trước khi tổng hợp. Trong ví dụ của chúng tôi, chúng tôi đã sử dụng hệ số tỷ lệ là 32 trước khi tổng hợp, vì vậy, chúng tôi cần chia giá trị tóm tắt nhận được trong báo cáo tóm tắt cho 32. Do đó, nếu giá trị mua hàng tóm tắt cho một khoá nhất định trong báo cáo tóm tắt là 76.800, thì giá trị mua hàng tóm tắt (có nhiễu) là 76.800/32 = 2.400 USD.
Phân chia ngân sách
Nếu có nhiều mục tiêu đo lường (ví dụ: số lượt mua hàng và giá trị lượt mua hàng), bạn có thể muốn chia ngân sách cho các mục tiêu này.
Trong trường hợp này, các hệ số mở rộng của bạn sẽ khác nhau đối với các giá trị có thể tổng hợp khác nhau, tuỳ thuộc vào giá trị tối đa dự kiến của một giá trị có thể tổng hợp nhất định.
Đọc thông tin chi tiết trong phần Tìm hiểu về khoá tổng hợp.
Ví dụ: giả sử bạn đang theo dõi cả số lượt mua và giá trị giao dịch mua, đồng thời quyết định phân bổ ngân sách một cách đồng đều.
Bạn có thể phân bổ 65.536 / 2 = 32.768 cho mỗi loại chỉ số đo lường và mỗi nguồn.
- Số lượt mua:
- Bạn chỉ theo dõi một giao dịch mua, nên số lượng giao dịch mua tối đa cho một lượt chuyển đổi nhất định là 1.
- Do đó, bạn quyết định đặt hệ số tỷ lệ cho số lượng mua là 32.768 / 1 = 32.768.
- Giá trị giao dịch mua:
- Giả sử giá trị mua hàng dự kiến tối đa của một giao dịch mua hàng riêng lẻ là 2.000 USD.
- Do đó, bạn quyết định đặt hệ số tỷ lệ cho giá trị mua là 32.768 / 2.000 = 16,384 hoặc khoảng 16.
Các khoá tổng hợp thô hơn giúp cải thiện tỷ lệ tín hiệu trên nhiễu
Vì khoá thô ghi nhận nhiều sự kiện chuyển đổi hơn khoá chi tiết, nên khoá thô thường dẫn đến các giá trị tóm tắt cao hơn.
Các giá trị tóm tắt cao hơn ít bị ảnh hưởng bởi nhiễu hơn các giá trị thấp hơn; nhiễu trên các giá trị này có khả năng thấp hơn so với giá trị này.
Các giá trị được thu thập bằng các khoá thô hơn có khả năng ít nhiễu hơn so với các giá trị được thu thập bằng các khoá chi tiết hơn.
Ví dụ:
Trong điều kiện mọi yếu tố khác đều không đổi, một khoá theo dõi giá trị giao dịch mua trên toàn cầu (tổng giá trị trên tất cả các quốc gia) sẽ dẫn đến tổng giá trị giao dịch mua cao hơn (và tổng số lượt chuyển đổi cao hơn) so với một khoá theo dõi lượt chuyển đổi ở cấp quốc gia.
Do đó, mức độ nhiễu tương đối trên tổng giá trị mua hàng cho một quốc gia cụ thể sẽ cao hơn mức độ nhiễu tương đối trên tổng giá trị mua hàng cho tất cả các quốc gia.
Tương tự, nếu các yếu tố khác không đổi, tổng giá trị giao dịch mua giày sẽ thấp hơn tổng giá trị giao dịch mua của tất cả mặt hàng (bao gồm cả giày).
Do đó, mức độ nhiễu tương đối trên tổng giá trị mua của giày sẽ cao hơn mức độ nhiễu tương đối trên tổng giá trị mua của tất cả các mặt hàng.
Việc cộng các giá trị tóm tắt (tổng hợp) cũng cộng cả nhiễu của các giá trị đó
Bằng cách cộng các giá trị tóm tắt từ báo cáo tóm tắt để truy cập vào dữ liệu cấp cao hơn, bạn cũng cộng giá trị gây nhiễu từ các giá trị tóm tắt này.
Hãy xem xét 2 phương pháp khác nhau:
- Cách tiếp cận A: bạn thêm một Mã địa lý vào khoá. Báo cáo tóm tắt cho thấy các khoá ở cấp mã nhận dạng địa lý, mỗi khoá được liên kết với giá trị mua hàng tóm tắt ở cấp Mã nhận dạng địa lý cụ thể.
- Cách tiếp cận B: bạn không thêm mã nhận dạng địa lý vào khoá. Báo cáo tóm tắt cho thấy trực tiếp giá trị mua hàng tóm tắt cho tất cả mã nhận dạng địa lý / vị trí.
Cách truy cập vào giá trị giao dịch mua ở cấp quốc gia:
- Với phương pháp A, bạn sẽ tính tổng các giá trị tóm tắt ở cấp mã địa lý và do đó cũng tính tổng nhiễu của các giá trị đó. Điều này có thể khiến giá trị mua hàng ở cấp mã nhận dạng địa lý cuối cùng bị nhiễu hơn.
- Với phương pháp B, bạn sẽ xem trực tiếp dữ liệu xuất hiện trong báo cáo tóm tắt. Dữ liệu đó chỉ được thêm nhiễu một lần.
Do đó, giá trị mua hàng tóm tắt cho một mã địa lý nhất định có thể sẽ có nhiều nhiễu hơn khi sử dụng phương pháp A.
Tương tự, việc thêm một phương diện ở cấp mã bưu chính vào các khoá của bạn có thể dẫn đến nhiều kết quả nhiễu hơn so với việc sử dụng các khoá thô hơn với một phương diện ở cấp khu vực.
Việc tổng hợp trong khoảng thời gian dài hơn sẽ làm tăng tỷ lệ tín hiệu trên nhiễu
Việc yêu cầu báo cáo tóm tắt ít thường xuyên hơn có nghĩa là mỗi giá trị tóm tắt có thể sẽ cao hơn so với khi bạn yêu cầu báo cáo thường xuyên hơn; nhiều lượt chuyển đổi có thể xảy ra trong khoảng thời gian dài hơn.
Như đã đề cập trước đó, giá trị tóm tắt càng cao thì khả năng nhiễu tương đối càng thấp. Do đó, việc yêu cầu báo cáo tóm tắt ít thường xuyên hơn sẽ dẫn đến tỷ lệ tín hiệu trên nhiễu cao hơn (tốt hơn).
Sau đây là ví dụ minh hoạ:
- Nếu bạn yêu cầu báo cáo tóm tắt hằng giờ trong 24 giờ, sau đó cộng giá trị tóm tắt từ mỗi báo cáo hằng giờ để truy cập vào dữ liệu ở cấp độ ngày, thì nhiễu sẽ được thêm 24 lần.
- Trong một báo cáo tóm tắt hằng ngày, nhiễu chỉ được thêm vào một lần.
Epsilon cao hơn, ít nhiễu hơn
Giá trị epsilon càng cao thì tiếng ồn càng thấp và khả năng bảo vệ quyền riêng tư càng thấp.
Tận dụng tính năng lọc và loại bỏ dữ liệu trùng lặp
Một phần quan trọng trong việc phân bổ ngân sách giữa các khoá khác nhau là hiểu rõ số lần một sự kiện nhất định có thể xảy ra. Ví dụ: nhà quảng cáo có thể chỉ quan tâm đến một lượt mua hàng cho mỗi lượt nhấp, nhưng có thể quan tâm đến tối đa 3 lượt chuyển đổi "lượt xem trang sản phẩm". Để hỗ trợ những trường hợp sử dụng này, bạn cũng có thể muốn sử dụng các tính năng API sau đây để kiểm soát số lượng báo cáo được tạo và lượt chuyển đổi nào được tính:
- Lọc. Đọc thêm về tính năng lọc.
- Loại bỏ trùng lặp. Đọc thêm về quy trình loại bỏ dữ liệu trùng lặp.
Thử nghiệm với epsilon
Công nghệ quảng cáo có thể đặt epsilon thành một giá trị lớn hơn 0 và tối đa là 64. Phạm vi này giúp bạn thử nghiệm một cách linh hoạt. Giá trị epsilon càng thấp thì khả năng bảo vệ quyền riêng tư càng cao. Bạn nên bắt đầu với epsilon=10.
Đề xuất thử nghiệm
Bạn nên thực hiện những việc sau:
- Bắt đầu với epsilon = 10.
- Trong trường hợp việc này gây ra các vấn đề đáng chú ý về tiện ích, hãy tăng dần epsilon.
- Chia sẻ ý kiến phản hồi của bạn về những điểm uốn cụ thể mà bạn có thể thấy liên quan đến khả năng sử dụng dữ liệu.
Tương tác và chia sẻ ý kiến phản hồi
Bạn có thể tham gia và thử nghiệm API này.
- Đọc về báo cáo có thể tổng hợp và dịch vụ tổng hợp, đặt câu hỏi và đề xuất ý kiến phản hồi.
- Đọc hướng dẫn về Báo cáo phân bổ.
Các bước tiếp theo
- Để biết thêm thông tin về các yếu tố ảnh hưởng đến báo cáo, chẳng hạn như biến chiến dịch, tần suất phân lô và độ chi tiết của phương diện, hãy tham khảo bài viết Thử nghiệm các quyết định về thiết kế báo cáo tóm tắt .
- Dùng thử Phòng thí nghiệm nhiễu.