05: Probabilidade condicional (continuação)

Vídeo

Exercícios do livro (cap. 2)

30. Filho mais velho

Uma família tem \(3\) filhos: \(A\), \(B\) e \(C\).

  1. O evento “\(A\) é mais velho que \(B\)” é independente de “\(A\) é mais velho que \(C\)”?
  • Intuitivamente:

    Não, pois \(A\) ser mais velho que \(B\) torna mais provável que \(A\) seja mais velho que \(C\).

  1. Qual a probabilidade de que \(A\) é mais velho que \(B\), dado que \(A\) é mais velho que \(C\)?
  • Queremos achar \(P(A > B \mid A > C)\).

  • Esta probabilidade é igual a

    \[ \frac{P(A > B, A > C)}{P(A > C)} \]

  • O numerador é a probabilidade de \(A\) ser o mais velho.

  • Se todas as \(6\) ordens de nascimento tiverem a mesma probabilidade,

    \[ P(A > B, A > C) = 2/6 = 1/3 \]

  • O denominador é

    \[ P(A > C) = 3/6 = 1/2 \]

  • Daí, \(P(A > B \mid A > C) = \frac{1/3}{1/2} = \frac23\).

  • De fato, a probabilidade condicional \(P(A > B \mid A > C) = 2/3\) é maior do que a probabilidade não-condicional \(P(A > B) = 1/2\).

31. Auto-independência?

Um evento pode ser independente de si mesmo?

  • Chamando este evento de \(A\), é preciso que

    \[ P(A \cap A) = P(A) = P(A) \cdot P(A) \]

  • Isto só é possível se \(P(A) = 0\) ou se \(P(A) = 1\).

32. Dados de Efron

Considere \(4\) dados não-padrão (dados de Efron), cujos lados são rotulados da seguinte forma (cada lado tem a mesma probabilidade):

\[ \begin{aligned} A &: 4, 4, 4, 4, 0, 0 \\ B &: 3, 3, 3, 3, 3, 3 \\ C &: 6, 6, 2, 2, 2, 2 \\ D &: 5, 5, 5, 1, 1, 1 \end{aligned} \]

Cada dado é lançado uma vez. Cada letra representa o resultado do dado correspondente.

  1. Ache \(P(A > B)\), \(P(B > C)\), \(P(C > D)\), e \(P(D > A)\).
  • Eventos equivalentes:

    \[ \begin{aligned} A > B &\iff A = 4 \\ B > C &\iff C = 2 \\ C > D &\iff C = 6 \cup (C = 2 \cap D = 1) \\ D > A & \iff D = 5 \cup (D = 1\cap A = 0) \end{aligned} \]

  • \(P(A > B) = 2/3\).

  • \(P(B > C) = 2/3\).

  • \(P(C > D) = 1/3 + 2/3 \cdot 1/2 = 2/3\).

  • \(P(D > A) = 1/2 + 1/2 \cdot 2/3 = 2/3\).

  1. O evento \(A > B\) é independente de \(B > C\)?

    O evento \(B > C\) é independente de \(C > D\)?

  • Sim:

    \[ \begin{aligned} P(A > B \cap B > C) &= P(A = 4) \cdot P(C = 2) \\ &= P(A > B) \cdot P(B > C) \end{aligned} \]

    Intuitivamente: como o resultado de \(B\) não importa para \(A > B\) nem para \(B > C\), os eventos são independentes.

  • Não:

    \[ \begin{aligned} P(B > C \cap C > D) &= P(C = 2 \cap [C = 6 \cup (C = 2 \cap D = 1)]) \\ &= P((C = 2 \cap C = 6) \cup (C = 2 \cap D = 1)) \\ &= P(C = 2 \cap D = 1) \\ &= 2/3 \cdot 1/2 \\ &= 1/3 \end{aligned} \]

    mas

    \[ P(B > C) \cdot P(C > D) = 4/9 \]

33. Amigos de Alice e Bob

  • Alice, Bob, e mais \(100\) pessoas vivem em uma cidade.

  • \(C\) é o conjunto das outras \(100\) pessoas.

  • \(A \subseteq C\) é o conjunto de amigos de Alice.

  • \(B \subseteq C\) é o conjunto de amigos de Bob.

  • Para cada pessoa em \(C\), a probabilidade de Alice ser amiga da pessoa é \(1/2\).

  • Idem para Bob.

  • As amizades são independentes.

  1. Seja \(D \subseteq C\). Achar \(P(A = D)\).
  • Para cada \(x \in C\):

    1. \(x \in A \land x \in D\), com probabilidade \(\frac12 \cdot \frac{|D|}{|C|}\),

      ou (exclusivo)

    2. \(x \not\in A \land x \not\in D\), com probabilidade \(\frac12 \cdot \left(1 - \frac{|D|}{|C|}\right)\)

  • Somando as probabilidades dos casos, para cada \(x \in C\), a probabilidade de \(x\) estar em \(A\) e em \(D\), ou de \(x\) não estar nem em \(A\), nem em \(D\), é

    \[ \frac12 \cdot \frac{|D|}{|C|} + \frac12 \cdot \left(1 - \frac{|D|}{|C|}\right) = \frac12 \]

  • A probabilidade de \(A = D\) é a probabilidade de, para todo \(x \in C\), acontecer de \(x \in A \land x \in D\) ou \(x \in A \land x \in D\). Como os eventos são independentes, temos

    \[ P(A = D) = \frac1{2^{|C|}} \]

  • Vamos simular a situação. Estamos supondo que os elementos de \(D\) são escolhidos segundo uma amostragem simples uniforme, sem reposição. Veja explicações mais detalhadas abaixo.

    simular <- function(p, n) {
    
      A <- (1:n)[runif(n) <= p]
      D <- (1:n)[runif(n) <= 1/2]
    
      if (length(A) != length(D)) {
        FALSE
      } else {
        all(A == D)
      }
    
    }
  • Para as probabilidades não ficarem tão pequenas, vamos usar um universo \(C\) com \(10\) elementos apenas:

    p <- 1/2
    n <- 10
    nsims <- 1e6
    
    resultado <- mean(
      1:nsims %>% 
        map_lgl(~simular(p, n))
    )
    
    cat('P(A = D) simulado = ', resultado)
    ## P(A = D) simulado =  0,000981
    cat('P(A = D) teórico  = ', 1/2^n)
    ## P(A = D) teórico  =  0,0009765625
  • E se \(p \neq 1/2\)?

  • Como explicado abaixo, a probabilidade de um \(x \in C\) pertencer a \(D\) (supondo que \(D\) é obtido por amostragem simples) é \(1/2\).

  • Então, Para cada \(x \in C\):

    1. \(x \in A \land x \in D\), com probabilidade \(p/2\),

      ou (exclusivo)

    2. \(x \not\in A \land x \not\in D\), com probabilidade \((1 - p)/2\)

  • Somando as probabilidades dos casos, para cada \(x \in C\), a probabilidade de \(x\) estar em \(A\) e em \(D\), ou de \(x\) não estar nem em \(A\), nem em \(D\), é, de novo, \(1/2\).

  • Logo, \(P(A = D) = 1/ 2^{|C|}\) novamente.

  • Ou seja, o resultado vale para qualquer valor de \(p\). Altere o valor de \(p\) no código da simulação acima para verificar.

  1. Achar \(P(A \subseteq B)\)
  • Para cada \(x \in A\), a probabilidade de \(x \in B\) é \(1/2\).

  • Logo, \(P(A \subseteq B) = 1 / 2^{|A|}\).

  1. Achar \(P(A \cup B) = C\).
  • Para cada \(x \in C\),

    \[ \begin{aligned} P(x \in A \cup B) &= P(x \in A) + P(x \in B) - P(x \in A \cap B) \\ &= 1/2 + 1/2 - 1/4 \\ &= 3/4 \end{aligned} \]

  • Logo, \(P(A \cup B = C) = (3/4)^{|C|}\)

Extra: amostragem simples

  • Na resolução acima, usamos a igualdade

    \[ P(x \in D) = \frac{|D|}{n} \]

    para representar a probabilidade de que um elemento qualquer de um universo com \(n\) elementos pertença a um conjunto \(D\) fixo.

  • Mas e quando não sabemos qual é o conjunto \(D\), nem qual o seu tamanho?

  • Neste caso, precisamos supor algo sobre a distribuição dos subconjuntos.

  • O mais comum é supor que cada um dos \(2^n\) subconjuntos tem a mesma probabilidade de ser o resultado da amostragem.

  • Com esta suposição, como calculamos \(P(x \in D)\)?

  • Vamos condicionar ao tamanho do conjunto \(D\) e marginalizar:

    \[ P(x \in D) = \sum_{k = 0}^{n} P(x \in D \mid |D| = k) \cdot P(|D| = k) \]

  • Calculando a primeira probabilidade dentro do somatório:

    \[ \begin{aligned} P(x \in D \mid |D| = k) &= \frac{\binom{n - 1}{k - 1}}{\binom n k} \\ &= \frac k n \end{aligned} \]

    Na primeira linha, o numerador é a quantidade de subconjuntos de \(k\) elementos que contêm \(x\) (basta escolher os outros \(k - 1\) elementos dentre os \(n - 1\) outros elementos do universo); o denominador é o total de subconjuntos de \(k\) elementos.

    Perceba que aqui usamos a suposição de que todos os subconjuntos têm a mesma probabilidade de ser amostrados.

    Perceba também que, como antes, esta probabilidade é igual a \(\frac{|D|}{n}\).

  • Calculando a segunda probabilidade dentro do somatório:

    \[ \begin{aligned} P(|D| = k) &= \frac{\binom{n}{k}}{2^n} \end{aligned} \]

    De novo, usando a suposição de que todos os subconjuntos são equiprováveis, temos a quantidade de subconjuntos de \(k\) elementos sobre o total de subconjuntos.

  • Juntando tudo:

    \[ \begin{aligned} P(x \in D) &= \sum_{k = 0}^{n} P(x \in D \mid |D| = k) \cdot P(|D| = k) \\ &= \sum_{k = 0}^{n} \frac 1 {2^n} \binom n k \frac k n \\ &= \frac 1 {2^n} \sum_{k = 0}^{n} \binom{n - 1}{k - 1} \\ &= \frac 1 {2^n} \cdot 2^{n - 1} \\ &= \frac 1 2 \end{aligned} \]

    Fazer amostragem uniforme significa que todos os subconjuntos são equiprováveis, ou, equivalentemente, que cada elemento do universo tem \(50\%\) de chance de estar na amostra.

  • Por isso, na simulação, geramos o conjunto \(D\) com o comando

    D <- (1:n)[runif(n) <= 1/2]

35. Xadrez

  • Você vai jogar \(2\) partidas de xadrez contra um adversário desconhecido.

  • O nível do seu adversário pode ser novato, intermediário, ou avançado, com probabilidades iguais.

  • As probabilidades de você vencer uma partida são, dependendo do nível do adversário, respectivamente, \(90\%\), \(50\%\), e \(30\%\).

  1. Qual a probabilidade de você vencer a primeira partida?

  2. Parabéns, você venceu a primeira partida. Dada esta informação, qual a probabilidade de que você também vença a segunda partida (suponha que, dado o nível do seu adversário, os resultados das partidas são independentes)?

  3. Explique a diferença entre

    1. supor que os resultados das partidas são independentes, e

    2. supor que os resultados das partidas são independentes, dado o nível do seu adversário.

    Qual destas suposições parece mais razoável? Por quê?

  • Antes de mais nada, vamos definir os eventos:

    \[ \begin{aligned} N &= \text{o adversário é novato} \\ I &= \text{o adversário é intermediário} \\ A &= \text{o adversário é avançado} \\ V_1 &= \text{você vence a primeira partida} \\ V_2 &= \text{você vence a segunda partida} \end{aligned} \]

  • O enunciado dá as probabilidades

    \[ \begin{aligned} P(N) &= 1/3 \\ P(I) &= 1/3 \\ P(A) &= 1/3 \\ P(V_1 \mid N) &= 9/10 \\ P(V_1 \mid I) &= 5/10 \\ P(V_1 \mid A) &= 3/10 \end{aligned} \]

  • Para resolver (a), basta usar probabilidade total, condicionando sobre o nível do adversário:

    \[ \begin{aligned} P(V_1) &= P(V_1 \mid N) \cdot P(N) \;+\; P(V_1 \mid I) \cdot P(I) \;+\; P(V_1 \mid A) \cdot P(A) \\ &= \frac{9}{10} \cdot \frac{1}{3} + \frac{5}{10} \cdot \frac{1}{3} + \frac{3}{10} \cdot \frac{1}{3} \\ &= \frac{1}{3} \cdot \left( \frac{9}{10} + \frac{5}{10} + \frac{3}{10} \right) \\ &= \frac{17}{30} \end{aligned} \]

    Faz sentido. Como as probabilidades dos níveis possíveis do adversário são iguais, a probabilidade de vencer é a média aritmética das probabilidades de vencer contra cada nível.

    Se as probabilidades dos níveis do adversário fossem diferentes, seria a média ponderada.

  • Para (b), queremos calcular \(P(V_2 \mid V_1)\).

    Dizer que \(V_1\) e \(V_2\) são independentes dado o nível do adversário é dizer

    \[ P(V_2 \mid V_1, N) = P(V_1 \mid V_2, N) = P(V_2 \mid N) = P(V_1 \mid N) \]

    e analogamente para probabilidades condicionadas a \(I\) e a \(A\).

    Ou seja, dado um nível específico do adversário, saber que \(V_1\) ocorreu não altera a probabilidade de \(V_2\) ocorrer, e vice-versa.

    Vamos calcular \(P(V_2 \mid V_1)\) usando probabilidade total, condicionando ao nível:

    \[ \begin{aligned} \underbrace{P(V_2 \mid V_1, N) \cdot P(N \mid V_1)}_{\text{novato}} \;+\; \underbrace{P(V_2 \mid V_1, I) \cdot P(I \mid V_1)}_{\text{intermediário}} \;+\; \underbrace{P(V_2 \mid V_1, A) \cdot P(A \mid V_1)}_{\text{avançado}} \end{aligned} \]

    Para o lado esquerdo de cada produto, a independência condicional diz que

    \[\begin{alignat*}{3} P(V_2 \mid V_1, N) &= P(V_1 \mid N) &= 9/10 \\ P(V_2 \mid V_1, I) &= P(V_1 \mid I) &= 5/10 \\ P(V_2 \mid V_1, A) &= P(V_1 \mid A) &= 3/10 \end{alignat*}\]

    Para o lado direito de cada produto, usamos Bayes. Todas as probabilidades envolvidas já foram calculadas.

    Novato:

    \[ \begin{aligned} P(N \mid V_1) &= \frac{P(V_1 \mid N) \cdot P(N)}{P(V_1)} \\ &= \frac{9/10 \cdot 1/3}{17/30} \\ &= \frac{9}{17} \end{aligned} \]

    Intermediário:

    \[ \begin{aligned} P(I \mid V_1) &= \frac{P(V_1 \mid I) \cdot P(I)}{P(V_1)} \\ &= \frac{5/10 \cdot 1/3}{17/30} \\ &= \frac{5}{17} \end{aligned} \]

    Avançado:

    \[ \begin{aligned} P(A \mid V_1) &= \frac{P(V_1 \mid A) \cdot P(A)}{P(V_1)} \\ &= \frac{3/10 \cdot 1/3}{17/30} \\ &= \frac{3}{17} \end{aligned} \]

    A resposta final é

    \[ \frac{9}{10} \cdot \frac{9}{17} \;+\; \frac{5}{10} \cdot \frac{5}{17} \;+\; \frac{3}{10} \cdot \frac{3}{17} \;=\; \frac{23}{34} \]

  • Para responder (c):

    Dizer que \(V_1\) e \(V_2\) são incondicionalmente independentes seria dizer que

    \[ P(V_2 \mid V_1) = P(V_2) \]

    Ainda mais, como o nível do adversário não muda de uma partida para outra, teríamos também

    \[ P(V_2) = P(V_1) \]

    Ou seja, cada partida seria uma prova de Bernoulli com a mesma probabilidade de sucesso.

    Considerando independência condicional, saber que vencemos a primeira partida nos dá informação sobre o nível do adversário, e esta informação é considerada para calcular a probabilidade de vencer a segunda partida.

    De fato, usando independência condicional, temos

    \[ P(V_1) \approx 0{,}57 \]

    e

    \[ P(V_2 \mid V_1) \approx 0{,}68 \]

36. Paradoxo de Berkson

Se

  • \(A\) e \(B\) são independentes, e

  • \(P(A \cap B) > 0\), e

  • \(P(A \cup B) < 1\), e

  • \(C = A \cup B\)

então \(A\) e \(B\) são condicionalmente dependentes, dado \(C\), com

\[ P(A \mid B, C) < P(A \mid C) \]

Exemplo: universidade admite candidatos que são bons jogadores de basquete (\(A\)) ou que são bons em Matemática (\(B\)) — supondo que estes são eventos independentes, o que é meio duvidoso.5

  • De \(P(A \cap B) > 0\), temos que \(P(A) > 0\) e que \(P(B) > 0\).

  • Daí, \(P(C) = P(A \cup B) > 0\).

  • Para o lado esquerdo:

    \[ \begin{aligned} P(A \mid B, C) &= \frac{P(A \cap B \cap C)}{P(B \cap C)} \\ &= \frac{P(A \cap B)}{P(B)} \\ &= \frac{P(A)P(B)}{P(B)} \\ &= P(A) \end{aligned} \]

  • Para o lado direito:

    \[ \begin{aligned} P(A \mid C) &= \frac{P(A \cap C)}{P(C)} \\ &= \frac{P(A)}{P(C)} \\ &= \frac{P(A)}{P(A \cup B)} \end{aligned} \]

  • Como o denominador \(P(A \cup B) < 1\), esta probabilidade é maior do que \(P(A)\).

37. Doenças e sintoma

  • Quem tem a doença \(D_1\) ou a doença \(D_2\) (ou ambas) tem o sintoma estranho \(W\).

  • \(D_1\) e \(D_2\) são independentes, com \(P(D_j) = p_j\), e com \(q_j = 1 - p_j\).

  • \(0 < p_j < 1\).

  • Uma pessoa sadia tem o sintoma \(W\) com probabilidade \(w_0\).

  1. Achar \(P(W)\).
  • Por probabilidade total:

    \[ \begin{aligned} P(W) &= P(W \mid D_1 \cup D_2) \cdot P(D_1 \cup D_2) + P(W \mid \neg(D_1 \cup D_2)) \cdot P(\neg(D_1 \cup D_2)) \\ &= 1 \cdot (p_1 + p_2 - p_1p_2) + w_0 \cdot (1 - p_1 - p_2 + p_1p_2) \\ &= p_1 + p_2 - p_1p_2 + w_0q_1q_2 \end{aligned} \]

  1. Achar \(P(D_1 \mid W)\), \(P(D_2 \mid W)\), e \(P(D_1 \cap D_2 \mid W)\).
  • Por Bayes:

    \[ \begin{aligned} P(D_1 \mid W) &= \frac{P(W \mid D_1) \cdot P(D_1)}{P(W)} \\ &= \frac{1 \cdot p_1}{p_1 + p_2 - p_1p_2 + w_0q_1q_2} \\ &= \frac{p_1}{p_1 + p_2 - p_1p_2 + w_0q_1q_2} \end{aligned} \]

  • Analogamente,

    \[ P(D_2 \mid W) = \frac{p_2}{p_1 + p_2 - p_1p_2 + w_0q_1q_2} \]

  • Finalmente,

    \[ \begin{aligned} P(D_1 \cap D_2 \mid W) &= \frac{P(D_1 \cap D_2 \cap W)}{P(W)} \\ &= \frac{P(D_1 \cap D_2)}{P(W)} & (\text{pois }D_1 \cap D_2 \subseteq W)\\ &= \frac{p_1p_2}{p_1 + p_2 - p_1p_2 + w_0q_1q_2} \end{aligned} \]

  1. \(D_1\) e \(D_2\) são condicionalmente independentes, dado \(W\)?
  • Basta verificar se

    \[ P(D_1 \mid W) \cdot P(D_2 \mid W) = P(D_1 \cap D_2 \mid W) \]

  • Isto equivale a

    \[ \frac{p_1p_2}{(p_1 + p_2 - p_1p_2 + w_0q_1q_2)^2} = \frac{p_1p_2}{p_1 + p_2 - p_1p_2 + w_0q_1q_2} \]

  • Esta igualdade só é verdade se

    1. \(w_0 = 0\) e \(P(D_1 \cup D_2) = 0\) (o que é proibido pelo enunciado). Ninguém estaria doente, e ninguém teria o sintoma.

      ou

    2. \(P(D_1 \cup D_2) = 1\). Aqui, todos estariam doentes, e todos teriam o sintoma.

  • Lembramos que

    \[ w_0 = P(W \mid \neg(D_1 \cup D_2)) = \frac{P(W \cap \neg(D_1 \cup D_2))}{P(\neg(D_1 \cup D_2))} \]

  • No caso (1) acima, \(w_0 = P(W) = 0\), e não faz mais sentido condicionar sobre \(W\).

  • No caso (2) acima, \(P(\neg(D_1 \cup D_2)) = 0\), e a própría definição de \(w_0\) deixa de fazer sentido.

  1. Suponha que \(w_0 = 0\). Neste caso, \(D_1\) e \(D_2\) são condicionalmente independentes, dado \(W\)?
  • Por causa do discutido no item (c), vamos supor que \[0 < P(D_1 \cup D_2) < 1\] para que possamos condicionar sobre \(W\) e para que a definição de \(w_0\) faça sentido.

  • Como no item (c), verificamos se

    \[ P(D_1 \mid W) \cdot P(D_2 \mid W) = P(D_1 \cap D_2 \mid W) \]

  • Que equivale a

    \[ \frac{p_1p_2}{(p_1 + p_2 - p_1p_2)^2} = \frac{p_1p_2}{p_1 + p_2 - p_1p_2} \]

  • Isto é impossível, se \(0 < P(D_1 \cup D_2) < 1\).

  • Intuitivamente, \(D_1\) e \(D_2\) seriam condicionalmente dependentes, dado \(W\), pois, dado que uma pessoa tem o sintoma \(W\), saber que ela não tem a doença \(D_1\) imediatamente nos diz que ela tem a doença \(D_2\).

Quando \(w_0 = 0\) e \(0 < P(D_1 \cup D_2) < 1\), a consequência é que

\[ D_1 \cup D_2 = W \] como eventos.

Daí, com as outras condições do enunciado, temos uma instância do paradoxo de Berkson, com \(A = D_1\) e \(B = D_2\).

38. Naïve Bayes

  • Temos uma lista de \(100\) palavras.

  • Evento \(W_j = {}\) a palavra \(j\) aparece no email.

  • Evento \(\text{spam} = {}\) o email é spam.

  • \(p = P(\text{spam})\).

  • \(p_j = P(W_j \mid \text{spam})\).

  • \(r_j = P(W_j \mid \neg \text{spam})\).

  • A naïveté do algoritmo consiste nas seguintes suposições — não-realistas, mas úteis:

    • Os \(W_j\) são condicionalmente independentes, dado \(\text{spam}\).

    • Os \(W_j\) são condicionalmente independentes, dado \(\neg \text{spam}\).

  • Um novo email é recebido. Contém as palavras \(23\), \(64\), e \(65\), e nenhuma das outras.

  • Vamos chamar de \(\vec W\) a lista de eventos

    \[ \begin{array}{l} \neg W_1, \ldots, \neg W_{22}, \\ W_{23},\\ \neg W_{24}, \ldots, \neg W_{63},\\ W_{64}, W_{65},\\ \neg W_{66}, \ldots, \neg W_{100} \end{array} \]

  • Calcular \(P\left( \text{spam} \;\middle|\; \vec W \right)\).

  • Por Bayes:

    \[ P\left( \text{spam} \;\middle|\; \vec W \right) = \frac{P\left(\vec W \;\middle|\; \text{spam} \right)} {P\left( \vec W \right)} \]

  • Com a suposição naïve, podemos multiplicar as probabilidades condicionais:

    \[ P\left(\vec W\;\middle|\; \text{spam} \right) = p_{23} \cdot p_{64} \cdot p_{65} \cdot \!\!\!\!\!\!\!\!\! \prod_{ \begin{array}{c} 1 \leq j \leq 100, \\ j \not\in \{ 23, 64, 65 \} \end{array} } \!\!\!\!\!\!\! (1 - p_j) \]

    Vamos chamar este valor de \(m\).

  • Para calcular \(P\left( \vec W \right)\), usamos probabilidade total:

    \[ \begin{aligned} P\left( \vec W \right) &= P\left(\vec W \;\middle|\; \text{spam} \right) \cdot P(\text{spam}) \;+\; P\left(\vec W \;\middle|\; \neg\text{spam} \right) \cdot P(\neg\text{spam}) \\ &= m \cdot p \;+\; m' \cdot (1 - p) \end{aligned} \]

    onde, de maneira análoga ao cálculo de \(m\),

    \[ m' = r_{23} \cdot r_{64} \cdot r_{65} \cdot \!\!\!\!\!\!\!\!\! \prod_{ \begin{array}{c} 1 \leq j \leq 100. \\ j \not\in \{ 23, 64, 65 \} \end{array} } \!\!\!\!\!\!\! (1 - r_j) \]

  • O valor procurado é, então,

    \[ P\left( \text{spam} \;\middle|\; \vec W \right) = \frac{P\left(\vec W \;\middle|\; \text{spam} \right)} {P\left( \vec W \right)} = \frac{mp}{mp + m'(1 - p)} \]