terça-feira, julho 20, 2010

Jane tem duas filhas

Um dos meus maiores prazeres é resolver puzzles. Eu não quero apresentá-los mas resolvê-los e falar sobre os mesmos... portanto, estão avisados se ao continuarem a ler, sentirem que os estraguei para vocês... estão avisados.

Existem muitos sítios na Net onde se podem procurar puzzles. Um dos meus preferidos nos últimos tempos é o blog de Richard's Wiseman que todas as semanas publica um puzzle às sextas-feiras, que resolve às segundas. Sempre simples de descrever mas muito concorrido nos comentários, este apareceu a 9 de Julho de 2010:

"Alguns meses atrás eu descrevi um enigma ao longo das linhas de ... "Jane tem duas crianças. Um deles é uma filha. Qual é a probabilidade de que sua outra criança seja também uma filha? "

Agora, aqui está uma segunda parte do quebra-cabeça ...

"Jane tem dois crianças. Um deles é uma filha chamada Emma. Qual é a probabilidade de Jane ter duas filhas?"

A estes vou acrescentar mais dois puzzles:

"Jane tem dois crianças, pelo menos uma das quais é uma filha. Questionada sobre o nome dela, disse que se chamava Emma. Qual é a probabilidade de Jane ter duas filhas?"

Esta formulação é minha, e parecendo ser igual à anterior, tenho razões para pensar que não é. A quarta é o puzzle que eu pensava originalmente ser o proposto realmente por Wiseman:

"Jane tem dois crianças, uma das quais é uma filha nascida a uma Terça. Qual é a probabilidade de Jane ter duas filhas?"

Este ultimo foi me passado por um amigo, JCC, e vem de Gary Foshee que fez furor apresentando-o na Gathering for Gardner deste ano, uma convenção bi-anual dedicada a Martin Gardner. Considerada uma gema de primeira água, a primeira reacção é sempre, o que é que a Terça-Feira tem a haver com o problema, e a resposta de Gary quando abandonava o palco foi, "tem tudo a haver".

Apesar de todos estes puzzles serem muito parecidos, podem ter respostas muito diferentes e tão rasteiras que chegam a constituir paradoxos. Comecemos pelo primeiro.



1. "Um deles é uma filha"

Poderá não parecer mas a resposta é consensual. A probabilidade é 1/3, assumindo probabilidades iguais para filhos e filhas. Sabemos que Jane tem duas crianças, e as combinações de Sexos que elas podem tomar são:

Casos1234
1ª CriançaFFMM
2ª CriançaFMFM
Probabilidade`1/4``1/4``1/4``1/4`

O número de cada coluna designa a ordem com que as crianças aparecem. Cada um destes pares tem igual probabilidade de acontecer. Sabemos também que ela não tem dois filhos porque pelo menos uma filha tem. Assim, do universo de possibilidades, temos que excluir o caso rapaz-rapaz... mas cada um dos outros continuará a existir com igual probabilidade:

Casos1234
1ª CriançaFFMM
2ª CriançaFMFM
`stackrel "Probabilidade" "não normalizada"``1/4``1/4``1/4`

A probabilidade final é assim `(1//4)/(3//4)=1/3`

2. "Um deles é uma filha chamada Emma"

O que é mesmo estranho é quando sabemos que uma filha se chama Emma. Neste caso, a criança está identificada e tudo o que precisamos saber é o sexo da outra. E a probabilidade desta ser uma menina é, outra vez, 1/2. Mas alto lá, senão soubermos o nome de uma das meninas, a probabilidade é 1/3, mas se soubermos, ela sobe para 1/2? Como isso é possível? E aqui começa a grande discussão.

A primeira coisa que é preciso acertar é que a solução acima só é 1/2 senão houver repetições de nomes entre as crianças de sexo feminino. Se houver, o problema é similar ao quarto puzzle, que discutirei mais tarde.

Segundo aspecto, a probabilidade é dependente da ordem de preferência dos nomes. Como Jukka brilhantemente apontou:

"In the second part, I think what matters is also how common the name Emma is (I’m being super pedantic here!). Specifically, the key is, is it more common to name a first child Emma, rather than the second. Imagine if Emma is the most wanted name ever, and everybody names their first child that. Then the name won’t matter and the probability comes out being 1/3 again. If, on the other hand, everybody names their second girl child Emma, then the probability is clearly 1."

Assumindo implicitamente que nenhum nome se pode repetir, Jukka continua depois definindo a probabilidade `p_n` de ser a n-ésima filha a receber o nome de Emma, e não outros ("Let pn be the probability that exactly nth girl child is named Emma"), calculando a probabilidade P procurada em :

`P=(p_1 + p_2)/(3*p_1 + p_2)=>1/2" qd. " p_1=p_2`

Mais tarde, escrevi-lhe:

Another implicit assumption to be stressed is the equal probability for boys and girls… this is what leads directly to Richard’s 1/2, however, it is hidden in your expression. Someone would think `p_1=p_2` is what produces 1/2 but I suspect, it is what preserves it. If `p_d` was the probability of having a girl in any birth, then your expression would have to be written like:

`{:(P=((p_1 + p_2)p_d^2)/(2p_1*p_d(1-p_d)+(p_1 + p_2)p_d^2)),(= ((p_1 + p_2)p_d)/(2p_1(1-p_d)+(p_1 + p_2)p_d)),(= ((p_1 + p_2)p_d)/(2p_1-2p_1p_d+p_1p_d + p_2p_d)),(= ((p_1 + p_2)p_d)/(2p_1+ (p_2-p_1)p_d)):}`

if `p_1=p_2=p`, we’ll have: `P=(2p)p_d/(2p)=p_d`

Se quem ler com atenção estes parágrafos deduzir que a explicação apresentada para o valor 1/2 foi demasiado simples, deduzirá correctamente. A explicação que apresentei, aposta na assumpção de que cada criança é independente das outras, isto é, não existe correlação entre as propriedades de uma criança e de outra qualquer. Este assumpção permite que uma vez identificada a criança com um nome ("Emma"), possamos nos concentrar na segunda independentemente do que aconteceu à primeira. Mas não existe essa independência. Para resolver o puzzle desta maneira, já admitimos que os nomes não se podem repetir. Isto é razoável se pensarmos que uma mãe dificilmente nomeará duas filhas com o mesmo nome, mas é também uma admissão tácita de que as crianças não podem constituir um conjunto de variáveis independentes e identicamente distribuídas (i.i.d.). Daí a explorar o que acontece quando as probabilidades de um nome ser usado numa filha variam com a ordem com que ela ocorre, é um passo natural. A tabela seguinte mostra as probabilidades de cada caso onde aparece uma Emma (E) acontecer. A probabilidade que queremos é a probabilidade normalizada dos casos 1a e 1b face às possibilidades {1a,1b,2e,3e}, que por sinal é a expressão que deduzi anteriormente:

Casos1a1b2e3e4
1ª CriançaEFEMM
2ª CriançaFEMEM
`stackrel "Probabilidade" "não normalizada"``p_1p_d^2``p_2p_d^2``p_1p_d(1-p_d)``p_1p_d(1-p_d)`

Relembremos que `p_n` é a probabilidade de o nome Emma ser atribuído à n-ésima filha. Portanto, `p_1` e `p_2` são as probabilidades de Jane ser uma mãe que atribui o nome Emma à primeira e à segunda filha, respectivamente.

Admitamos para maior facilidade que `p_1=p_2` e logo que a probabilidade que procuramos é `P=p_d=1//2`. Como é que não sabendo o nome, a probabilidade é 1/3, mas sabendo-o, ela cresce para 1/2? A resposta mais simples que tenho para dar é que cada puzzle define um universo de possíveis Janes cumprindo as suas restrições, onde Janes com duas filhas apresentam-se em diferentes proporções do universo total. Janes com duas filhas têm duas oportunidades de nomear as mesmas de "Emma", enquanto Janes com uma, só têm uma. A probabilidade de um par de filhas conter uma Jane é assim dupla da presente nas Janes com uma filha, mão obstante estas serem em maior proporção. E isso corrige a probabilidade de 1/3 para 1/2.

3. "Questionada sobre o nome dela, disse que se chamava Emma"

Este resultado é bastante contra-intuitivo. Durante a discussão, discutiu-se várias contra-exemplos que deveriam sublinhar a sua absurdidade:

ivan viehoff escreveu

I am afraid that Richard is wrong here, for a reason well known to card players, specifically bridge players, which is known as the Rule of Restricted Choice. It’s a little tricky to spot that this is a Restricted Choice case, but the following different ways of presenting the information perhaps make it clear.

Conversation:
“I have two children, at least one is a girl.”
“I see, that means it is a 2/3 probability the other is a boy. Please tell me the name of your daughter, or the name of one of your daughters if you have two?”

Continuation A:
“Emma”
“So now I know that you have two children and one is a girl called Emma. That suddenly means that it is now 1/2 probability your other child is a daughter. But I’m not convinced that you gave me any information of the nature that should change the probabilities.”

Continuation B:
“I won’t tell you.”
“Well it doesn’t matter, I’ll just pretend its Emma. ‘Emma’ can stand for whatever her real name is, it doesn’t matter. So now I know that you have two children and one is a girl called Emma (or whatever ‘Emma’ stands for). So, the probability the other child is a boy is 1/2. See, I can change the probability without getting any information out of you. Plainly that is nonsense.”

Eu escrevi-lhe:

…Imagine that the universe of girl names has only two equi-probable names. Assume also the names are not repeatable (that means also, couples with more than 2 girls are out). The probability of having 2 girls when you know there is at least one in two children, is indeed 1/3, but what happens when you know the name of one girl to be Emma?

Something funny happens: the extra information is going to filter the possible couples of children. All the couples of girls are going to be preserved, because all of them have an Emma (there is only two names, remember?, and the second name must be there too), but the couples boy-girl and girl-boy are going to be cut in half, because only half will have an Emma. And that changes the probability of 1/3 to 1/2.

As you see, the first continuation has enough information to change the probabilities. I’ll leave to you to find what happens with other number of names. Your dialogs gives the idea that the continuation B is equal to A, and being B an abusive extrapolation of the first puzzle (in the sense that there is no more information there than in the first), then A should had given the same result as that one. But A is not identical to B. In A there is actually some pruning of the possible cases of the first, in B, there is not because whatever name the listener can “find” for the one of the girls, it magically applies to any case who comes forth.

Em retrospectiva, teria sido melhor não lhe ter dito nada... hoje penso que estava errado por razões que explicarei no fim.

Os argumentos continuaram como este de Ken D :

Suppose the question read “one is a daughter, whose name is written on a piece of paper in this sealed envelope”.
What are the odds now?
I then open the envelope and say “her name is Emma”.
Did the odds change?
Is the mother Jane Heisenberg? :-)

A esta comentei:

I think you and Ken are confounding random processes “after the fact” with the “before the fact”. When we say Jane has two children, and one is a daughter called Emma, this being a statement after the fact, in no way is going to interfere or define the fact itself. Whatever odds we are calculating are about our bet in discover the particular familiar composition of Jane’s children… which is already determined. This is not about the mechanism how Jane’s family was produced but how we, considering the scarce information we have, can trim our guesses in order to have more or less chances of find the right one. To do that, we try to gather information about the fact. It might appear counter-intuitive but to know the name of one of the daughters, or even, to know some hidden name it is it (your envelope, Ken), is enough to change those odds. Your calculation of the odds as being 1/2 is proof of that.

Poderão estranhar a minha insistência nestas penosas transcrições. O facto é que não as faria se pudesse sustentar que tinha chegado á razão pelos meus próprios meios. Nesse caso, limitar-me-ia a resolver o problema e a expô-lo. Se transcrevo tudo isto é para realçar que durante várias intervenções, não consegui destrinçar o que estava realmente em jogo, e também para documentar para a minha posterioridade, o suficiente para saber como posso errar. A minha posição era de que, se o pessoal calculava as probabilidades como sendo 1/2, então não podiam sustentar que ter um nome não as podia alterar, como eles estavam a fazer. O argumento de que "não" seria informação relevante, seria contrariado pela evidência dos seus próprios cálculos.E no entanto, as dúvidas que eles lançam são particularmente intrigantes. Pode-se falar claramente num paradoxo. Qual a diferença entre um envelope escondido, o falar e o não falar. Ken foi ao ponto de desafiar para um jogo de moedas, mas que no fim reproduzia apenas o primeiro puzzle, não o segundo (ele lançava duas moedas, e rejeitava o resultado se caíssem ambas em caras... quando lhe apontei que também tinha que rejeitar quando uma coroa de certa data, respondeu-me que isso era o equivalente a exigir que Emma fosse a mais velha... ao que respondi que a ordem de nascimentos era determinada pela ordem de queda das moedas). Outros apresentaram dúvidas semelhantes, muitos não cheguei a as ler bem ou a as perceber. Em retrospectiva, penso que Murph foi o primeiro a acertar na mosca:

I am starting to understand this, but there is a vague wording in the puzzle that threw me off. If you find out Jane has (at least) one daughter and then ask her what one of them is named, and she says “Emma”, the odds of Emma having a sister are still 1/3. However, if you search the set of 2-children families for a daughter named Emma and Jane puts up her hand, the odds of Emma having a sister increases to 1/2.

Mas este troço só o percebi depois. Quem me abriu realmente os olhos foi Ken D:

I think I have an answer to how adding the knowledge of Emma’s name “shouldn’t” change the odds of the other being a girl, too.

If you went to all those families with two daughters, one of whom was named Emma, only half of them would tell you “I have a daughter named Emma”. The other half would say “I have a daughter named (other daughter)”.

Foi aqui que me apercebi: O puzzle de Richard descreve o puzzle a partir de uma posição de omnisciência. Mas todas as objecções embaraçosas apostavam na cooperação ou não de Jane para fornecer a informação que Richard "sabe". Quando a informação é fornecida por Jane, sem preferências pelo nome que deve dizer, existe uma porção de mães de "Emma's", que nos diz outro nome. Desta forma, apesar das mães que têm 2 filhas serem metade das que têm uma Emma, as que nos chegam ao conhecimento são metade daquelas. Isto pode ser ainda melhor compreendido se por qualquer razão, as mães forem relutantes em dizer que tinham uma filha Emma (imaginem que o nome era Hitler ou Bin Laden). As que não dissessem que esse era o nome de uma filha, certamente não teria outra, e a probabilidade procurada seria zero, porque essas a que ela diria respeito, nunca se dariam a conhecer.

Devia sentir vergonha com tudo isto. Desde o principio que este tipo de puzzle cheira a probabilidades condicionadas, e quem diz destas, diz "aproximação bayesiana". O teorema de Bayes é das primeiras coisas que vem à cabeça, mas pelos vistos, a compreensão real que ele deveria trazer, falhou-me. O teorema de Bayes assenta na igualdade:

`P(x,y)=P(x|y)P(y)=P(y|x)P(x) => P(y|x)=(P(x|y)P(y))/(P(x)) => P(y|x) prop P(x|y)P(y)`

Se `y` forem cenários e `x` forem observações, a expressão acima mostra que a probabilidade de um cenário particular `y` após uma observação `x` é dependente da probabilidade da observação ocorrer dentro desse cenário. A aproximação Bayesiana à realidade assenta na ideia de que todo o nosso conhecimento do universo físico é mediado por observações, e podendo o conjunto destas ocorrer com diferentes probabilidade num sem número de cenários diferentes, todos estes são candidatos prováveis para explicar a realidade. O que a aproximação faz é admitir a nossa incerteza sobre qual o cenário certo e sugerir que esta incerteza seja descrita pela atribuição de probabilidades a cada cenário, distribuição essa que tem o nome de prior e será representada por `P(y)`. Cada observação posterior `x` dá depois origem a uma nova distribuição `P(y|x)`, chamada posterior que reflecte como a observação alterou as nossas incertezas. `P(y|x)` deve-se ler como sendo a probabilidade de `y` sabendo a observação `x`. Para chegarmos a esta, precisamos conhecer `P(x|y)`, isto é o modelo que gera as observações em função de cada cenário. E foi esta implicação que me escapou, a de que inerente ao conhecimento Bayesiano, há que conhecer de que forma as observações chegam até nós.

É essa a diferença entre o segundo puzzle (Richard's puzzle) e o terceiro. O segundo é acerca da caracterização de um conjunto de cenários, acerca do prior se se preferir ("Um deles é uma filha chamada Emma"). No terceiro, a informação sobre esses cenários possíveis chega-nos até nós através de observações e são por isso mediadas por `P(x|y)` ("Questionada sobre o nome dela, disse que se chamava Emma"), dando-nos um resultado diferente. Todos os contra-exemplos usados para contestar o puzzle de Richard eram do terceiro tipo, apostando numa equivalência a meu ver errada, entre este e o segundo. Mas não posso reclamar nenhum crédito porque também eu não vi o que estava ser feito.

Conclusão, não obstante as mães com duas filhas serem metade das que têm uma Emma, somente metade daquelas vão dizer que a têm, retornando as probabilidades a 1/3... e isto significa que um nome num envelope, o dizer e o não dizer não alteram de facto as probabilidades de acertarmos...

4. "uma das quais é uma filha nascida a uma Terça"

Este quarto puzzle era aquele que pensava que era o segundo. Como se vê a construção é idêntica diferindo apenas na informação adicional, a filha nasceu numa terça-feira. Como é que isso muda as coisas? A principal diferença em relação ao segundo é que, contrário á solução de Richard neste, é razoável admitir que podem haver outros filhos/filhas nascidas numa Terça-feira. A tabela de casos fica assim diferente:

Casos1a1b1c2e3e4
1ª CriançaTFTTMM
2ª CriançaFTTMTM
`stackrel "Probabilidade" "não normalizada"``2p_t(1-p_t)p_d^2``p_t^2p_d^2``2p_tp_d(1-p_d)`
Soma`(1-(1-p_t)^2)p_d^2``2p_tp_d(1-p_d)`

Onde `p_t` é a probabilidade de uma nascimento a uma terça. A probabilidade fica assim:

`{:(P=((1-(1-p_t)^2)p_d^2)/((1-(1-p_t)^2)p_d^2+2p_tp_d(1-p_d))),(=((2p_t-p_t^2)p_d)/((2p_t-p_t^2)p_d+2p_t-2p_tp_d)),(=((2p_t-p_t^2)p_d)/(-p_t^2p_d+2p_t)),(=(2p_d-p_tp_d)/(2-p_tp_d)):}`

Se `p_d=1/2` e `p_t=1/7`, então `P=(1-1//14)/(2-1//14)=13/27`.

A estrutura deste problema é semelhante ao do problema 2, inclusive no facto de se discutir um facto e não uma observação (como no 3). E se no problema 2, tivéssemos aberto a porta para nomes repetidos? Essa foi a minha hipótese quando li o problema pela primeira vez ("Monday, I’ll explain what Tuesday means."). A resposta é simples, uma vez que se defina uma probabilidade para o nome ocorrer, substitui-se ela na expressão acima. Se os nomes femininos forem muitos, então essa probabilidade será baixa e teremos `lim_(p_t->0) (2p_d-p_tp_d)/(2-p_tp_d) = p_d`.

Estas expressões ainda não contemplam a ideia da Jukka de probabilidades diferentes com a ordem de nascimentos, mas até lá será um passo.

PS.: Poderão se perguntar porque é que nas contas da Jukka no caso 1, as probabilidades `p_n` aparecem isoladas, enquanto aqui aparecem como produtos do tipo `p_t^2`. A razão é porque enquanto `p_t` são as probabilidades de uma certa criança ter uma certa propriedade, no primeiro caso `p_n` media as probabilidades de uma certa propriedade ter uma certa criança. Mais concretamente, `p_n` mediria a probabilidade do nome Emma ter a ordem n na fila de nomes, enquanto `p_t` mediria a probabilidade de uma criança ter o dia de nascimento numa Terça-feira.

Uma última informação, para fechar este tópico. Este conjunto de problemas é suficientemente polémico e rico para merecer uma página inteira dedicada, na Wikipédia. Procure-se em Boy or Girl paradox.

Sem comentários: