Guia de teste de medição

O objetivo deste guia é fornecer orientações sobre como executar um teste independente da API Attribution Reporting do Sandbox de privacidade. Para mais detalhes, consulte a seção 12.

  • A medição dos resultados do grupo de controle e de tratamento nos designs experimentais 1 e 2 da CMA é abordada nas orientações de teste das APIs Relevance, já que o objetivo desses experimentos é testar a eficácia do uso da API Protected Audience e Topics. Para mais detalhes, consulte a seção 11.

Antes de começar

Objetivos da avaliação e configuração proposta do experimento

Objetivo 1: determinar a eficácia da API Attribution Reporting para relatórios

Propomos uma configuração de A/A para medir o impacto nos relatórios

  • Essa proposta está alinhada com as orientações da CMA sobre a avaliação de métricas baseadas em conversões. Para mais detalhes, consulte a Seção 21 e a Seção 12.
  • Preferimos esse método ao Modo A/B porque o teste da API Attribution Reporting (ARA) pode ser feito medindo simultaneamente as conversões no mesmo conjunto de impressões usando duas metodologias de medição diferentes (cookies de terceiros + dados de cookies não de terceiros e ARA + dados de cookies não de terceiros).
  • Um experimento A/A também isola o impacto da API Attribution Reporting na medição de conversões. Por exemplo, ele evita mudanças nas taxas de conversão devido à falta de cookies de terceiros.

Pontos de análise sugeridos

  • Escolha uma fatia de tráfego grande o suficiente para gerar resultados estatisticamente significativos e que tenha cookies de terceiros e APIs do Sandbox de privacidade. O ideal é que seja todo o tráfego, exceto o modo B (que desativa cookies de terceiros).
    • Recomendamos excluir o Modo B do experimento A/A, já que os cookies de terceiros não estarão disponíveis e você não poderá comparar os resultados da ARA com os resultados de atribuição com base em cookies de terceiros.
    • Se você quiser incluir o Modo B, ative os relatórios de depuração para a fatia de tráfego do Modo B. Os relatórios de depuração ajudam a resolver problemas de configuração ou implementação.
  • Se você planeja testar com uma parcela menor de tráfego, os resultados das medições vão ser mais ruidosos do que o esperado. Recomendamos que você anote na sua análise qual fração do tráfego foi usada e se você está informando resultados com base em relatórios de depuração com ruído ou sem ruído.
    • Para relatórios de resumo, os valores de resumo provavelmente serão menores, e o serviço de agregação vai adicionar ruído da mesma distribuição, independentemente do valor do resumo.
  • Teste diferentes metodologias de medição nessa fatia de tráfego
    • Controle 1: usar as metodologias de medição atuais (cookies de terceiros + dados de cookies não de terceiros)
    • (Opcional) Controle 2: sem Sandbox de privacidade e cookies de terceiros, ou seja, apenas dados de cookies não de terceiros
      • Talvez ainda haja cookies de terceiros disponíveis para alguns sites. Para resultados mais precisos, não use esses cookies de terceiros para medição nas metodologias de controle 2 ou tratamento.
    • Tratamento: APIs do Sandbox de privacidade e dados de cookies que não são de terceiros
      • Talvez ainda haja cookies de terceiros disponíveis para alguns sites. Para resultados mais precisos, não use esses cookies de terceiros para medição nas metodologias de controle 2 ou tratamento.

Métricas

  • Defina quais métricas fazem sentido para sua empresa medir os resultados e inclua uma descrição do que a métrica significa e como ela está sendo medida.
    • Sugerimos se concentrar nas dimensões e métricas que são importantes para seus anunciantes. Por exemplo, se os anunciantes se concentrarem em conversões de compra, meça as contagens de conversão e o valor da compra.
  • As métricas baseadas em contagem ou soma (por exemplo, taxa de conversão) são mais ideais do que o custo por (por exemplo, custo por conversão). Para a análise A/A, as métricas de custo podem ser totalmente derivadas dos valores de contagem ou soma da conversão.
  • Especifique se as métricas são baseadas em relatórios de eventos, relatórios de resumo ou uma combinação dos dois (e se relatórios de depuração foram usados).
  • Consulte as tabelas de modelo sugeridas para saber como formatar o feedback quantitativo.

Análise

  • Cobertura:
    • Você consegue medir um conjunto semelhante de usuários em comparação com o cookie de terceiros? Você tem uma cobertura maior (por exemplo, com o app para Web)?
    • Você consegue medir as conversões (e dimensões ou métricas) que são mais importantes para você ou seus anunciantes?
  • Feedback quantitativo
    • No relatório do anunciante, por exemplo, qual porcentagem de conversões principais você poderia informar para esse anunciante ou qual porcentagem de campanhas atende a uma barra de qualidade de relatório. A criação de uma barra de qualidade ajuda a ajustar as campanhas com poucas conversões.
    • Por exemplo, dividida por anunciante, há alguns anunciantes que dependem mais ou menos de cookies de terceiros para gerar relatórios?
  • Outros feedbacks qualitativos:
    • Como a ARA afeta a complexidade da configuração de medição/atribuição dos anunciantes?
    • A ARA ajuda ou atrapalha os anunciantes a se concentrar nas métricas e metas mais importantes para eles?

Tabelas de modelo sugeridas para informar o impacto

(Relatórios) Tabela 1:

Exemplo de tabela de modelo para informar os resultados experimentais à CMA (extraida da página 18, mas os testadores devem considerar quais métricas são mais significativas / viáveis para fornecer e adaptar a tabela conforme necessário).

Tratamento x controle 1
Compara o estado final proposto com o estado atual
Tratamento x controle 2
Compara o estado final proposto sem nenhuma API do PS.
Controle 2 x controle 1
Compara a medição de conversões com e sem cookies de terceiros, sem APIs do PS.
Metodologia de medição Comparar a medição de conversões do tratamento (ARA com dados de cookies não de terceiros) com o controle 1 (dados de cookies de terceiros e não de terceiros) Comparar a medição de conversões do tratamento (ARA com dados de cookies não de terceiros) com o controle 2 (somente dados de cookies não de terceiros) Comparar a medição de conversões do Controle 2 (somente dados de cookies próprios) com o Controle 1 (dados de cookies próprios e de terceiros)
Conversões por real Efeito Efeito Efeito
Erro padrão Erro padrão Erro padrão
Intervalo de confiança de 95% Intervalo de confiança de 95% Intervalo de confiança de 95%
Total de conversões Efeito Efeito Efeito
Erro padrão Erro padrão Erro padrão
Intervalo de confiança de 95% Intervalo de confiança de 95% Intervalo de confiança de 95%
Taxa de conversão Efeito Efeito Efeito
Erro padrão Erro padrão Erro padrão
Intervalo de confiança de 95% Intervalo de confiança de 95% Intervalo de confiança de 95%
(adicione suas próprias métricas)
Tabela 2:

Exemplo de tabela de modelo para relatar estatísticas descritivas de métricas nos grupos de tratamento e controle (retirado da página 20, mas os testadores devem considerar quais métricas são mais significativas / viáveis para fornecer e adaptar a tabela conforme necessário).

Métrica Tratamento
Medição de conversões usando a ARA e os dados de cookies que não são de terceiros
Controle 1
Medição de conversões usando cookies de terceiros e quaisquer dados de cookies que não sejam de terceiros
Controle 2
Medição de conversões usando apenas dados de cookies próprios
Conversões por real Média Média Média
Desvio padrão Desvio padrão Desvio padrão
25º e 75º percentis 25º e 75º percentis 25º e 75º percentis
Total de conversões Média Média Média
Desvio padrão Desvio padrão Desvio padrão
25º e 75º percentis 25º e 75º percentis 25º e 75º percentis
Taxa de conversão Média Média Média
Desvio padrão Desvio padrão Desvio padrão
25º e 75º percentis 25º e 75º percentis 25º e 75º percentis
(adicione suas próprias métricas)

Meta 2: determinar a eficácia da API Attribution Reporting para a otimização de lances

Sugerimos uma configuração A/B para medir o impacto na otimização de lances.

  • Para medir o impacto na otimização de lances, você precisa treinar dois modelos de aprendizado de máquina diferentes e usá-los em duas fatias de tráfego: um modelo treinado com as metodologias de medição atuais (cookies de terceiros + dados não de cookies de terceiros) para ser aplicado ao grupo de controle e um modelo treinado com a API Attribution Reporting + dados não de cookies de terceiros para ser aplicado ao grupo de tratamento.
  • O treinamento do modelo precisa ser baseado no tráfego que o testador considerar necessário para maximizar a performance, mesmo que o grupo de tratamento seja uma parcela menor do tráfego e haja sobreposição entre as populações de treinamento. Por exemplo, use o modelo de cookie de terceiros que está sendo treinado em todo o tráfego e treine o modelo de ARA em todo o tráfego de ARA ativado para a Meta 1.
    • Ao enviar resultados para a CMA, observe se há uma diferença significativa entre as fatias de tráfego usadas para treinar modelos diferentes. Por exemplo, se os modelos baseados em cookies de terceiros são treinados em 100% do tráfego, mas os modelos baseados em ARA são treinados em apenas 1% do tráfego.
  • Se possível, o treinamento para os modelos de lances de tratamento e de controle deve ocorrer pelo mesmo período.
  • Considere se você precisa treinar e atualizar continuamente os modelos de lances durante o experimento e, se for o caso, se precisa treinar com o máximo de tráfego possível ou apenas com o tráfego dos grupos de tratamento e controle.
  • Os diferentes modelos devem ser usados em fatias de tráfego distintas como um experimento A/B. Para a atribuição e a randomização de usuários entre os grupos de tratamento e de controle, recomendamos usar grupos de navegadores rotulados facilitados pelo Chrome (Modo A) ou realizar seu próprio experimento com conjuntos aleatórios de navegadores. Não recomendamos o uso do Modo B, porque a falta de cookies de terceiros dificulta a geração de relatórios sobre métricas baseadas em conversões.
    • Os grupos de navegadores facilitados pelo Chrome excluem algumas instâncias do Chrome, como usuários do Chrome Enterprise, enquanto seus próprios conjuntos aleatórios de navegadores podem não excluir essas instâncias. Portanto, execute o experimento apenas em grupos do Modo A ou em grupos que não são do Modo A/Modo B para evitar comparar as métricas obtidas em grupos facilitados pelo Chrome com as métricas obtidas fora desses grupos.
    • Se não estiver usando grupos de navegadores rotulados facilitados pelo Chrome (por exemplo, executando o experimento em outro tráfego):
      • Verifique se a divisão de tratamento e controle dos usuários é aleatória e imparcial. Independentemente da configuração do grupo de experimentos, avalie as características dos grupos de tratamento e de controle para verificar se eles são comparáveis. (Consulte a Seção 15)
      • Verifique se as características do usuário e as configurações da campanha dos grupos de tratamento e controle são iguais (por exemplo, use regiões geográficas semelhantes nos dois grupos). (Consulte a Seção 28)
        • Exemplos específicos incluem: verificar se tipos de conversão semelhantes estão sendo medidos usando a mesma janela e lógica de atribuição, se as campanhas segmentam públicos-alvo, grupos de interesse e locais semelhantes e se usam textos e formatos de anúncio parecidos.
      • √ que os tamanhos iniciais da população para grupos de tratamento e de controle são grandes o suficiente para ter flexibilidade nos lances e na experimentação.
    • Se você usar grupos de navegadores rotulados facilitados pelo Chrome (Modo A), a randomização de instâncias do navegador Chrome para grupos será processada pelo Chrome. Recomendamos que você verifique, como antes, se a randomização resulta em grupos imparciais / comparáveis para seus propósitos.

Pontos de análise sugeridos

  • Recomendamos definir grupos de controle e de tratamento e usar um modelo de aprendizado de máquina diferente para otimizar os lances em cada grupo:
    • Controle 1: usar o modelo de otimização de lances treinado com as metodologias de medição atuais (cookies de terceiros + dados de cookies não de terceiros)
    • (Opcional) Controle 2: use o modelo de otimização de lances treinado sem o Sandbox de privacidade e sem cookies de terceiros, ou seja, apenas dados de cookies não de terceiros.
      • Alguns cookies de terceiros ainda podem estar disponíveis para alguns sites. Para resultados mais precisos, não use esses cookies de terceiros para medição nas metodologias de controle 2 ou tratamento.
    • Tratamento: use o modelo de otimização de lances treinado na API Attribution Reporting e dados de cookies não de terceiros.
      • Alguns cookies de terceiros ainda podem estar disponíveis para alguns sites. Para resultados mais precisos, não use esses cookies de terceiros para medição nas metodologias de controle 2 ou tratamento.

Métricas

  • Defina quais métricas fazem sentido para sua empresa medir os resultados e inclua uma descrição do que a métrica significa e como ela está sendo medida.
    • Por exemplo, a métrica significativa pode ser o gasto (receita do editor), que está alinhado com a orientação da CMA para entender o impacto da descontinuação dos cookies de terceiros na métrica "Receita por impressão". Consulte a Seção 19 para mais detalhes.
  • Se você estiver gerando relatórios sobre métricas baseadas em conversões, use a mesma metodologia de medição para cada grupo para evitar testes multivariáveis (testar o impacto na otimização e nos relatórios em um experimento). Consulte as tabelas de modelo sugeridas para saber como formatar o feedback quantitativo.
  • Considere outras maneiras de coletar métricas sobre o impacto da otimização de lances, por exemplo, usando lances simulados. Há alguma métrica simulada que seria útil para entender o impacto dos cookies de terceiros e da ARA nos seus modelos de lances?
  • Especifique se as métricas são baseadas em relatórios de eventos, relatórios de resumo ou uma combinação dos dois (e se relatórios de depuração foram usados).

Análise

  • Cobertura:
    • Você consegue medir em um conjunto semelhante de usuários em comparação com o cookie de terceiros? Você notou alguma mudança na cobertura (por exemplo, com o app para a Web)?
    • Você consegue medir as conversões (e dimensões/métricas) que são mais importantes para você ou seus anunciantes?
  • Como as diferenças entre os grupos afetam o seguinte:
    • Relatórios do anunciante, por exemplo, qual porcentagem das conversões principais você poderia informar.
    • O treinamento e a otimização, por exemplo, simulam o impacto de diferentes dados de conversão na performance do modelo.
  • Outros feedbacks qualitativos:
    • Como a ARA afeta a complexidade da configuração de otimização de lances dos anunciantes?
    • A ARA ajuda ou impede os anunciantes de se concentrar nas métricas e metas que são importantes para eles?

Tabelas de modelo sugeridas para o impacto dos lances

Tabela 1:

Exemplo de tabela de modelo de resultados experimentais que os participantes do mercado devem enviar à CMA (retirado da página 18, mas os testadores devem considerar quais métricas são mais significativas / viáveis para fornecer e adaptar a tabela conforme necessário).

Tratamento x controle 1
Compara o estado final proposto com o estado atual
Tratamento x controle 2
Compara o estado final proposto sem nenhuma API do PS.
Controle 2 x controle 1
Compara a otimização de lances com e sem cookies de terceiros, sem APIs do PS.
Metodologia de medição Para evitar testes multivariáveis, use dados de cookies próprios e de terceiros para medir as métricas baseadas em conversões dos dois grupos em cada experimento.
Receita por impressão Efeito Efeito Efeito
Erro padrão Erro padrão Erro padrão
Intervalo de confiança de 95% Intervalo de confiança de 95% Intervalo de confiança de 95%
(Adicione suas próprias métricas)
Tabela 2 (Lances):

Exemplo de tabela de modelo para relatar estatísticas descritivas de métricas nos grupos de tratamento e controle (retirado da página 20, mas os testadores devem considerar quais métricas são mais significativas / viáveis para fornecer e adaptar a tabela conforme necessário).

Tratamento
Otimização de lances usando a ARA e os dados de cookies que não são de terceiros
Controle 1
Otimização de lances usando cookies de terceiros e outros dados de cookies
Controle 2
Otimização de lances usando apenas dados de cookies próprios
Metodologia de medição Para evitar testes multivariáveis, use dados de cookies próprios e de terceiros para medir as métricas baseadas em conversões em todos os grupos.
Receita por impressão Média Média Média
Desvio padrão Desvio padrão Desvio padrão
25º e 75º percentis 25º e 75º percentis 25º e 75º percentis
(adicione suas próprias métricas)

Objetivo 3: testar a carga do serviço de agregação

Consulte Framework de teste de carga do serviço de agregação.