การทำความเข้าใจข้อผิดพลาดในรายงานสรุป

ดูว่าสัญญาณรบกวนคืออะไร ตำแหน่งที่เพิ่มสัญญาณรบกวน และผลกระทบของสัญญาณรบกวนต่อความพยายามในการวัดผล

รายงานสรุปเป็นผลลัพธ์ของการรวมรายงานที่รวมได้ เมื่อผู้รวบรวมจัดกลุ่มรายงานที่รวบรวมได้ และบริการรวมข้อมูลประมวลผลรายงานเหล่านั้น ระบบจะเพิ่มสัญญาณรบกวน ซึ่งเป็นข้อมูลจำนวนหนึ่งแบบสุ่ม ลงในรายงานสรุปที่ได้ ระบบจะเพิ่มสัญญาณรบกวนเพื่อปกป้องความเป็นส่วนตัวของผู้ใช้ เป้าหมายของกลไกนี้คือการมีเฟรมเวิร์กที่รองรับการวัดผลแบบส่วนตัวเชิงอนุพันธ์

ระบบจะเพิ่มสัญญาณรบกวนในรายงานสรุปขั้นสุดท้าย
มีการเพิ่มสัญญาณรบกวนในรายงานสรุปขั้นสุดท้าย

ข้อมูลเบื้องต้นเกี่ยวกับสัญญาณรบกวนในรายงานสรุป

แม้ว่าโดยปกติแล้วการเพิ่มสัญญาณรบกวนจะไม่ใช่ส่วนหนึ่งของการวัดโฆษณาในปัจจุบัน แต่ในหลายกรณี สัญญาณรบกวนที่เพิ่มเข้ามาจะไม่เปลี่ยนแปลงวิธีตีความผลลัพธ์ของคุณอย่างมีนัยสำคัญ

คุณอาจลองคิดในลักษณะต่อไปนี้ คุณมั่นใจที่จะตัดสินใจโดยอิงตามข้อมูลบางอย่างหรือไม่ หากข้อมูลนั้นไม่มีสัญญาณรบกวน

ตัวอย่างเช่น ผู้ลงโฆษณาจะมั่นใจในการเปลี่ยนกลยุทธ์หรืองบประมาณแคมเปญหรือไม่ หากแคมเปญ ก. มี Conversion 15 รายการ และแคมเปญ ข. มี Conversion 16 รายการ

หากคำตอบคือไม่ เสียงรบกวนก็ไม่เกี่ยวข้อง

สิ่งที่คุณต้องทำคือการกำหนดค่าการใช้งาน API ในลักษณะต่อไปนี้

  1. คำตอบของคำถามนี้คือ "ได้"
  2. ระบบจะจัดการสัญญาณรบกวนในลักษณะที่ไม่ส่งผลกระทบอย่างมีนัยสำคัญต่อความสามารถในการตัดสินใจโดยอิงตามข้อมูลบางอย่าง คุณสามารถพิจารณาเรื่องนี้ได้ดังนี้ สำหรับจำนวน Conversion ขั้นต่ำที่คาดไว้ คุณต้องการให้สัญญาณรบกวนในเมตริกที่รวบรวมไว้ต่ำกว่า % หนึ่งๆ

ในส่วนนี้และส่วนถัดไป เราจะอธิบายกลยุทธ์เพื่อให้บรรลุเป้าหมายที่ 2

แนวคิดหลัก

บริการรวมข้อมูลจะเพิ่มสัญญาณรบกวน 1 ครั้งในแต่ละค่าสรุป ซึ่งก็คือ 1 ครั้งต่อคีย์ ทุกครั้งที่มีการขอรายงานสรุป

ค่าสัญญาณรบกวนเหล่านี้จะดึงมาจากการแจกแจงความน่าจะเป็นที่เฉพาะเจาะจงแบบสุ่ม ดังนี้

องค์ประกอบทั้งหมดที่ส่งผลต่อสัญญาณรบกวนขึ้นอยู่กับแนวคิดหลัก 2 ประการ

  1. การกระจายสัญญาณรบกวน (รายละเอียดด้านล่าง) จะเหมือนกันไม่ว่าค่าสรุปจะต่ำหรือสูง ดังนั้นยิ่งค่าสรุปสูงเท่าใด ความผันผวนก็จะยิ่งมีผลกระทบน้อยลงเมื่อเทียบกับค่านี้

    ตัวอย่างเช่น สมมติว่าทั้งมูลค่าการซื้อรวมทั้งหมด $20,000 และมูลค่าการซื้อรวมทั้งหมด $200 ขึ้นอยู่กับสัญญาณรบกวนที่เลือกจากการกระจายเดียวกัน

    สมมติว่าสัญญาณรบกวนจากการกระจายนี้จะแตกต่างกันโดยประมาณระหว่าง -100 ถึง +100

    • สำหรับมูลค่าการซื้อรวมที่ $20,000 ความผันผวนจะอยู่ระหว่าง 0 ถึง 100/20,000=0.5%
    • สำหรับมูลค่าการซื้อโดยรวมที่ $200 ความผันผวนจะอยู่ระหว่าง 0 ถึง 100/200=50%

    ดังนั้น สัญญาณรบกวนจึงน่าจะส่งผลต่อมูลค่าการซื้อรวม $20,000 น้อยกว่ามูลค่า $200 เมื่อเทียบกันแล้ว $20,000 มีแนวโน้มที่จะมีสัญญาณรบกวนน้อยกว่า นั่นคือมีแนวโน้มที่จะมีอัตราส่วนสัญญาณต่อสัญญาณรบกวนสูงกว่า

    ค่ารวมที่สูงขึ้นจะมีผลกระทบจากสัญญาณรบกวนต่ำกว่า
    ค่ารวมที่สูงขึ้นจะมีผลกระทบจากสัญญาณรบกวนค่อนข้างต่ำ

    ซึ่งมีผลในทางปฏิบัติที่สำคัญบางประการซึ่งระบุไว้ในส่วนถัดไป กลไกนี้เป็นส่วนหนึ่งของการออกแบบ API และผลกระทบในทางปฏิบัติจะเกิดขึ้นในระยะยาว โดยจะยังคงมีบทบาทสำคัญต่อไปเมื่อเทคโนโลยีโฆษณาออกแบบและประเมินกลยุทธ์การรวบรวมข้อมูลต่างๆ

  2. แม้ว่าระบบจะดึงข้อมูลสัญญาณรบกวนจากการแจกแจงเดียวกันโดยไม่คำนึงถึงค่าสรุป แต่การแจกแจงนั้นขึ้นอยู่กับพารามิเตอร์หลายรายการ พารามิเตอร์ตัวหนึ่งในพารามิเตอร์เหล่านี้คือ epsilon ซึ่งเทคโนโลยีโฆษณาอาจเปลี่ยนแปลงได้ในระหว่างการทดลองใช้แหล่งที่มาที่สิ้นสุดแล้วเพื่อประเมินการปรับค่าต่างๆ ของยูทิลิตี/ความเป็นส่วนตัว อย่างไรก็ตาม โปรดทราบว่าความสามารถในการปรับแต่งค่าเอปซิลอนเป็นเพียงชั่วคราว เรายินดีรับฟังความคิดเห็นเกี่ยวกับกรณีการใช้งานและค่าของ Epsilon ที่ทำงานได้ดี

แม้ว่าบริษัทเทคโนโลยีโฆษณาจะไม่ได้ควบคุมโดยตรงถึงวิธีเพิ่มสัญญาณรบกวน แต่ก็สามารถมีอิทธิพลต่อผลกระทบของสัญญาณรบกวนที่มีต่อข้อมูลการวัดผลได้ ในส่วนถัดไป เราจะเจาะลึกถึงวิธีที่สามารถส่งผลต่อสัญญาณรบกวนในทางปฏิบัติ

ก่อนอื่นมาดูรายละเอียดเกี่ยวกับวิธีใช้สัญญาณรบกวนกัน

การซูมเข้า: วิธีใช้การลดสัญญาณรบกวน

การกระจายเสียงรบกวน

ระบบจะดึงข้อมูลสัญญาณรบกวนจากการแจกแจงแบบลาปลาซ โดยมีพารามิเตอร์ต่อไปนี้

  • ค่าเฉลี่ย (μ) เท่ากับ 0 ซึ่งหมายความว่าค่าสัญญาณรบกวนที่มีแนวโน้มมากที่สุดคือ 0 (ไม่มีการเพิ่มสัญญาณรบกวน) และค่าที่มีสัญญาณรบกวนมีแนวโน้มที่จะน้อยกว่าค่าเดิมพอๆ กับที่มีแนวโน้มที่จะมากกว่า (บางครั้งเรียกว่าไม่เอนเอียง)
  • พารามิเตอร์มาตราส่วนของb = CONTRIBUTION_BUDGET / epsilon
    • CONTRIBUTION_BUDGET กำหนดไว้ในเบราว์เซอร์
    • epsilon ใช้ในบริการรวมข้อมูล

แผนภาพต่อไปนี้แสดงฟังก์ชันความหนาแน่นของความน่าจะเป็นสำหรับการแจกแจงแบบลาปลาซที่มี μ=0, b = 20

ฟังก์ชันความหนาแน่นของความน่าจะเป็นสำหรับการแจกแจงแบบลาปลาซที่มี μ=0, b = 20
ฟังก์ชันความหนาแน่นของความน่าจะเป็นสำหรับการแจกแจงแบบลาปลาซที่มี μ=0, b = 20

ค่าสัญญาณรบกวนแบบสุ่ม การกระจายสัญญาณรบกวน 1 รายการ

สมมติว่าเทคโนโลยีโฆษณารายหนึ่งขอรายงานสรุปสำหรับคีย์การรวม 2 รายการ ได้แก่ คีย์ 1 และคีย์ 2

บริการรวบรวมข้อมูลจะเลือกค่าสัญญาณรบกวน 2 ค่า ได้แก่ x1 และ x2 ตามการกระจายสัญญาณรบกวนเดียวกัน ระบบจะเพิ่ม x1 ลงในค่าสรุปสำหรับคีย์ 1 และเพิ่ม x2 ลงในค่าสรุปสำหรับคีย์ 2

ในไดอะแกรม เราจะแสดงค่าสัญญาณรบกวนเป็นค่าเดียวกัน นี่เป็นเพียงการทำให้ง่ายขึ้น ในความเป็นจริง ค่าสัญญาณรบกวนจะแตกต่างกันไปเนื่องจากค่าเหล่านี้ดึงมาจากการกระจายแบบสุ่ม

ซึ่งแสดงให้เห็นว่าค่าสัญญาณรบกวนทั้งหมดมาจาก Distribution เดียวกัน และเป็นอิสระจากค่าสรุปที่ใช้

คุณสมบัติอื่นๆ ของสัญญาณรบกวน

ระบบจะใช้สัญญาณรบกวนกับค่าสรุปทุกค่า รวมถึงค่าว่าง (0)

แม้ว่าค่าสรุปจะเป็นค่าว่าง แต่ก็อาจมีสัญญาณรบกวน
แม้แต่ค่าสรุปที่ว่างเปล่าก็อาจมีสัญญาณรบกวน

ตัวอย่างเช่น แม้ว่าค่าสรุปที่แท้จริงสำหรับคีย์หนึ่งๆ จะเป็น 0 แต่ค่าสรุปที่มีการเพิ่ม Noise ที่คุณเห็นในรายงานสรุปสำหรับคีย์นี้จะไม่ใช่ 0 (ส่วนใหญ่)

สัญญาณรบกวนอาจเป็นค่าบวกหรือค่าลบก็ได้

ตัวอย่างสัญญาณรบกวนเชิงบวกและเชิงลบ
ตัวอย่างสัญญาณรบกวนเชิงบวกและเชิงลบ

ตัวอย่างเช่น สำหรับจํานวนเงินที่ซื้อก่อนเพิ่ม Noise ที่ 327,000 Noise อาจเป็น +6,000 หรือ -6,000 (ค่าเหล่านี้เป็นค่าตัวอย่างที่กำหนดขึ้น)

การประเมินเสียงรบกวน

การคำนวณค่าเบี่ยงเบนมาตรฐานของสัญญาณรบกวน

ค่าเบี่ยงเบนมาตรฐานของสัญญาณรบกวนคือ

b*sqrt(2) = (CONTRIBUTION_BUDGET / epsilon)*sqrt(2)
ตัวอย่าง

เมื่อ epsilon = 10 ค่าเบี่ยงเบนมาตรฐานของสัญญาณรบกวนจะเป็นดังนี้

b*sqrt(2) = (CONTRIBUTION_BUDGET / epsilon)*sqrt(2) = (65,536/10)*sqrt(2) = 9,267

การประเมินเมื่อความแตกต่างในการวัดผลมีความสําคัญ

เนื่องจากคุณจะทราบส่วนเบี่ยงเบนมาตรฐานของสัญญาณรบกวนที่เพิ่มลงในค่าแต่ละค่าที่บริการรวบรวมข้อมูลเอาต์พุต คุณจึงกำหนดเกณฑ์ที่เหมาะสมสำหรับการเปรียบเทียบเพื่อพิจารณาว่าความแตกต่างที่สังเกตได้อาจเกิดจากสัญญาณรบกวนหรือไม่

ตัวอย่างเช่น หากการเพิ่มสัญญาณรบกวนให้กับค่ามีค่าประมาณ +/- 10 (เมื่อพิจารณาการปรับขนาด) และความแตกต่างของค่าระหว่าง 2 แคมเปญมากกว่า 100 ก็อาจสรุปได้อย่างปลอดภัยว่าความแตกต่างของค่าที่วัดระหว่างแต่ละแคมเปญไม่ได้เกิดจากสัญญาณรบกวนเพียงอย่างเดียว

มีส่วนร่วมและแชร์ความคิดเห็น

คุณเข้าร่วมและทดลองใช้ API นี้ได้

ขั้นตอนถัดไป