درک نویز در گزارش های خلاصه

بیاموزید که نویز به چه معناست، کجا اضافه می‌شود و چگونه بر تلاش‌های اندازه‌گیری شما تأثیر می‌گذارد.

گزارش‌های خلاصه نتیجه تجمیع گزارش‌های قابل تجمیع هستند. هنگامی که گزارش‌های قابل تجمیع توسط یک جمع‌کننده دسته‌بندی و توسط سرویس تجمیع پردازش می‌شوند، نویز - مقدار تصادفی از داده‌ها - به گزارش‌های خلاصه حاصل اضافه می‌شود. نویز برای محافظت از حریم خصوصی کاربر اضافه می‌شود. هدف از این مکانیسم، داشتن چارچوبی است که بتواند از اندازه‌گیری‌های خصوصی متفاوت پشتیبانی کند.

نویز در گزارش خلاصه نهایی اضافه می‌شود.
نویز در گزارش خلاصه نهایی اضافه می‌شود.

مقدمه‌ای بر نویز در گزارش‌های خلاصه

اگرچه اضافه کردن نویز معمولاً امروزه بخشی از اندازه‌گیری تبلیغات نیست، اما در بسیاری از موارد، نویز اضافه شده تغییر قابل توجهی در نحوه تفسیر نتایج شما ایجاد نمی‌کند.

شاید بهتر باشد به این شکل به آن فکر کنیم: آیا اگر داده‌ها نویز نداشته باشند، با اطمینان خاطر می‌توانید بر اساس یک داده خاص تصمیم بگیرید؟

برای مثال، آیا یک تبلیغ‌کننده با توجه به اینکه کمپین A، ۱۵ تبدیل و کمپین B، ۱۶ تبدیل داشته‌اند، با اطمینان خاطر می‌تواند استراتژی یا بودجه کمپین خود را تغییر دهد؟

اگر جواب منفی است، نویز بی‌ربط است.

کاری که باید انجام دهید این است که نحوه‌ی استفاده از API خود را به گونه‌ای پیکربندی کنید که:

  1. پاسخ سوال مثبت است.
  2. نویز به گونه‌ای مدیریت می‌شود که تأثیر قابل توجهی بر توانایی شما در تصمیم‌گیری بر اساس داده‌های خاص نداشته باشد. می‌توانید به این روش عمل کنید: برای حداقل تعداد تبدیل مورد انتظار، می‌خواهید نویز را در معیار جمع‌آوری‌شده زیر درصد مشخصی نگه دارید.

در این بخش و بخش‌های بعدی، استراتژی‌هایی را برای دستیابی به مورد ۲ تشریح خواهیم کرد.

مفاهیم اصلی

سرویس تجمیع، هر بار که گزارش خلاصه درخواست می‌شود، یک بار به هر مقدار خلاصه - یعنی یک بار به ازای هر کلید - نویز اضافه می‌کند.

این مقادیر نویز به صورت تصادفی از یک توزیع احتمال خاص ، به شرح زیر، استخراج می‌شوند.

تمام عناصری که بر نویز تأثیر می‌گذارند، به دو مفهوم اصلی متکی هستند.

  1. توزیع نویز ( جزئیات در زیر ) صرف نظر از مقدار خلاصه، کم یا زیاد، یکسان است. بنابراین، هرچه مقدار خلاصه بالاتر باشد، احتمال تأثیر نویز نسبت به این مقدار کمتر است.

    برای مثال، فرض کنید که هم ارزش خرید تجمیعی کل ۲۰،۰۰۰ دلار و هم ارزش خرید تجمیعی کل ۲۰۰ دلار، تحت تأثیر نویزهایی هستند که از توزیع یکسانی انتخاب شده‌اند.

    فرض کنید نویز حاصل از این توزیع تقریباً بین -100 و +100 متغیر باشد.

    • برای ارزش خرید خلاصه ۲۰،۰۰۰ دلار، نویز بین ۰ تا ۱۰۰/۲۰،۰۰۰ = ۰.۵٪ متغیر است.
    • برای ارزش خرید خلاصه ۲۰۰ دلار، نویز بین ۰ تا ۱۰۰/۲۰۰ = ۵۰٪ متغیر است.

    بنابراین، احتمالاً نویز تأثیر کمتری بر ارزش خرید کلی ۲۰،۰۰۰ دلاری نسبت به ارزش ۲۰۰ دلاری خواهد داشت. به طور نسبی، ۲۰،۰۰۰ دلار احتمالاً نویز کمتری خواهد داشت، یعنی احتمالاً نسبت سیگنال به نویز بالاتری خواهد داشت.

    مقادیر تجمیع‌شده بالاتر، تأثیر نویز نسبتاً کمتری دارند.
    مقادیر تجمیع‌شده بالاتر، تأثیر نویز نسبتاً کمتری دارند.

    این موضوع چند پیامد عملی مهم دارد که در بخش بعدی به آنها اشاره شده است. این مکانیسم بخشی از طراحی API است و پیامدهای عملی آن بلندمدت هستند. آنها همچنان نقش مهمی در طراحی و ارزیابی استراتژی‌های مختلف تجمیع توسط متخصصان تبلیغات ایفا خواهند کرد.

  2. اگرچه نویز صرف نظر از مقدار خلاصه، از توزیع یکسانی استخراج می‌شود، اما این توزیع به پارامترهای مختلفی بستگی دارد. یکی از این پارامترها، اپسیلون ، می‌تواند توسط تکنسین‌های تبلیغات در طول دوره آزمایشی نهایی تغییر داده شود تا تنظیمات مختلف کاربردی/حریم خصوصی ارزیابی شوند. با این حال، امکان تنظیم اپسیلون را به عنوان یک گزینه موقت در نظر بگیرید. ما از بازخورد شما در مورد موارد استفاده و مقادیر اپسیلون که به خوبی کار می‌کنند، استقبال می‌کنیم.

اگرچه یک شرکت فناوری تبلیغات کنترل مستقیمی بر نحوه‌ی افزودن نویز ندارد، اما می‌تواند بر تأثیر نویز بر داده‌های اندازه‌گیری خود تأثیر بگذارد. در بخش‌های بعدی، به چگونگی تأثیرگذاری نویز در عمل خواهیم پرداخت.

قبل از انجام این کار، بیایید نگاهی دقیق‌تر به نحوه اعمال نویز بیندازیم.

بزرگنمایی: نحوه اعمال نویز

توزیع نویز یکطرفه

نویز از توزیع لاپلاس با پارامترهای زیر استخراج می‌شود:

  • میانگین ( μ ) برابر با ۰. این بدان معناست که محتمل‌ترین مقدار نویز ۰ است (بدون نویز اضافه شده)، و احتمال اینکه مقدار نویزی از مقدار اصلی کوچک‌تر باشد، همانقدر است که احتمال بزرگتر بودن آن وجود دارد (این حالت گاهی اوقات بی‌طرفانه نامیده می‌شود).
  • پارامتر مقیاس b = CONTRIBUTION_BUDGET / epsilon .
    • CONTRIBUTION_BUDGET در مرورگر تعریف شده است.
    • epsilon در سرویس تجمیع استفاده می‌شود.

نمودار زیر تابع چگالی احتمال را برای توزیع لاپلاس با μ=0 و b = 20 نشان می‌دهد:

تابع چگالی احتمال برای توزیع لاپلاس با μ=0 و b = 20
تابع چگالی احتمال برای توزیع لاپلاس با μ=0 و b = 20

مقادیر نویز تصادفی، توزیع نویز تکی

فرض کنید یک تکنسین تبلیغات، گزارش‌های خلاصه‌ای را برای دو کلید تجمیع، key1 و key2، درخواست می‌کند.

سرویس تجمیع، دو مقدار نویز x1 و x2 را انتخاب می‌کند که از توزیع نویز یکسانی پیروی می‌کنند. x1 به مقدار خلاصه برای key1 و x2 به مقدار خلاصه برای key2 اضافه می‌شود.

در نمودارها، مقادیر نویز را یکسان نشان می‌دهیم. این یک ساده‌سازی است؛ در واقعیت، مقادیر نویز متفاوت خواهند بود، زیرا به صورت تصادفی از توزیع استخراج می‌شوند.

این نشان می‌دهد که مقادیر نویز همگی از توزیع یکسانی می‌آیند و مستقل از مقدار خلاصه‌ای هستند که روی آن اعمال شده‌اند.

سایر خواص نویز

نویز به هر مقدار خلاصه - از جمله مقادیر خالی (0) - اعمال می‌شود.

حتی مقادیر خلاصه خالی نیز در معرض نویز قرار دارند.
حتی مقادیر خلاصه خالی نیز در معرض نویز قرار دارند.

برای مثال، حتی اگر مقدار خلاصه واقعی برای یک کلید مشخص ۰ باشد، مقدار خلاصه نویزی که در گزارش خلاصه برای این کلید مشاهده خواهید کرد (به احتمال زیاد) ۰ نخواهد بود.

نویز می‌تواند یک عدد مثبت یا منفی باشد.

نمونه‌هایی از نویز مثبت و منفی
نمونه‌هایی از نویز مثبت و منفی

برای مثال، برای مبلغ خرید پیش از نویز ۳۲۷۰۰۰، نویز ممکن است +۶۰۰۰ یا -۶۰۰۰ باشد (اینها مقادیر دلخواه برای مثال هستند).

ارزیابی نویز

محاسبه انحراف معیار نویز

انحراف معیار نویز برابر است با:

b*sqrt(2) = (CONTRIBUTION_BUDGET / epsilon)*sqrt(2)
مثال

با اپسیلون = ۱۰، انحراف معیار نویز برابر است با:

b*sqrt(2) = (CONTRIBUTION_BUDGET / epsilon)*sqrt(2) = (65,536/10)*sqrt(2) = 9,267

ارزیابی زمانی که تفاوت‌های اندازه‌گیری قابل توجه هستند

از آنجا که شما انحراف معیار نویز اضافه شده به هر مقدار خروجی توسط سرویس تجمیع را خواهید دانست، می‌توانید آستانه‌های مناسبی را برای مقایسه تعیین کنید تا مشخص شود که آیا تفاوت‌های مشاهده شده می‌تواند به دلیل نویز باشد یا خیر.

برای مثال، اگر نویز اضافه شده به یک مقدار تقریباً +/- 10 باشد (با در نظر گرفتن مقیاس‌بندی) و تفاوت مقدار بین دو کمپین بیش از 100 باشد، احتمالاً می‌توان با اطمینان نتیجه گرفت که تفاوت در مقدار اندازه‌گیری شده بین هر کمپین فقط به دلیل نویز نیست.

مشارکت کنید و بازخورد خود را به اشتراک بگذارید

شما می‌توانید در این API شرکت کنید و آن را آزمایش کنید .

مراحل بعدی