Bayesian data analysis demo 2.4

Probability of a girl birth given placenta previa (BDA3 p. 37).

Calculate the posterior distribution on a discrete grid of points by multiplying the likelihood and a non-conjugate prior at each point, and normalizing over the points. Simulate draws from the resulting non-standard posterior distribution using inverse cdf using the discrete grid.

ggplot2 and gridExtra are used for plotting, tidyr for manipulating data frames

library(ggplot2)
theme_set(theme_minimal())
library(gridExtra)
library(tidyr)
library(dplyr)

Evaluating posterior with non-conjugate prior in grid

Posterior with observations (437,543) and uniform prior (Beta(1,1))

a <- 437
b <- 543

Evaluate densities at evenly spaced points between 0.1 and 1

df1 <- data.frame(theta = seq(0.1, 1, 0.001))
df1$con <- dbeta(df1$theta, a+1, b+1)

Compute the density of non-conjugate prior in discrete points, i.e. in a grid this non-conjugate prior is the same as in figure 2.4 in the book

pp <- rep(1, nrow(df1))
pi <- sapply(c(0.388, 0.488, 0.588), function(pi) which(df1$theta == pi))
pm <- 11
pp[pi[1]:pi[2]] <- seq(1, pm, length.out = length(pi[1]:pi[2]))
pp[pi[3]:pi[2]] <- seq(1, pm, length.out = length(pi[3]:pi[2]))

normalize the prior

df1$nc_p <- pp / sum(pp)

compute the un-normalized non-conjugate posterior in a grid

po <- dbinom(a, a+b, df1$theta) * pp

normalize the posterior

df1$nc_po <- po / sum(po)

Plot posterior with uniform prior, non-conjugate prior and the corresponding non-conjugate posterior

# pivot the data frame into key-value pairs
# and change variable names for plotting
df2 <- df1 %>%
  pivot_longer(cols = -theta, names_to = "grp", values_to = "p") %>%
  mutate(grp = factor(grp, labels=c('Posterior with uniform prior',
                                    'Non-conjugate prior',
                                    'Non-conjugate posterior')))
## levels(df2$grp) <- 
ggplot(data = df2) +
  geom_line(aes(theta, p)) +
  facet_wrap(~grp, ncol = 1, scales = 'free_y') +
  coord_cartesian(xlim = c(0.35,0.6)) +
  scale_y_continuous(breaks=NULL) +
  labs(x = '', y = '')

Inverse cdf sampling

compute the cumulative density in a grid

df1$cs_po <- cumsum(df1$nc_po)

Sample from uniform distribution U(0,1)

# set.seed(seed) is used to set seed for the randon number generator
set.seed(2601)
# runif(k) returns k uniform random numbers from interval [0,1]
r <- runif(10000)

Inverse-cdf sampling

# function to find the value smallest value theta at which the cumulative
# sum of the posterior densities is greater than r.
invcdf <- function(r, df) df$theta[sum(df$cs_po < r) + 1]
# sapply function for each sample r. The returned values s are now
# random draws from the distribution.
s <- sapply(r, invcdf, df1)

Create three plots: p1 is the posterior, p2 is the cdf of the posterior and p3 is the histogram of posterior draws (drawn using inv-cdf)

p1 <- ggplot(data = df1) +
  geom_line(aes(theta, nc_po)) +
  coord_cartesian(xlim = c(0.35, 0.6)) +
  labs(title = 'Non-conjugate posterior', x = '', y = '') +
  scale_y_continuous(breaks = NULL)
p2 <- ggplot(data = df1) +
  geom_line(aes(theta, cs_po)) +
  coord_cartesian(xlim = c(0.35, 0.6)) +
  labs(title = 'Posterior-cdf', x = '', y = '') +
  scale_y_continuous(breaks = NULL)
p3 <- ggplot() +
  geom_histogram(aes(s), binwidth = 0.003) +
  coord_cartesian(xlim = c(0.35, 0.6)) +
  labs(title = 'Histogram of posterior draws', x = '', y = '') +
  scale_y_continuous(breaks = NULL)
# combine the plots
grid.arrange(p1, p2, p3)

LS0tCnRpdGxlOiAiQmF5ZXNpYW4gZGF0YSBhbmFseXNpcyBkZW1vIDIuNCIKYXV0aG9yOiAiQWtpIFZlaHRhcmksIE1hcmt1cyBQYWFzaW5pZW1pIgpkYXRlOiAiYHIgZm9ybWF0KFN5cy5EYXRlKCkpYCIKb3V0cHV0OgogIGh0bWxfZG9jdW1lbnQ6CiAgICB0aGVtZTogcmVhZGFibGUKICAgIGNvZGVfZG93bmxvYWQ6IHRydWUKLS0tCiMjIFByb2JhYmlsaXR5IG9mIGEgZ2lybCBiaXJ0aCBnaXZlbiBwbGFjZW50YSBwcmV2aWEgKEJEQTMgcC4gMzcpLgoKQ2FsY3VsYXRlIHRoZSBwb3N0ZXJpb3IgZGlzdHJpYnV0aW9uIG9uIGEgZGlzY3JldGUgZ3JpZCBvZiBwb2ludHMgYnkKbXVsdGlwbHlpbmcgdGhlIGxpa2VsaWhvb2QgYW5kIGEgbm9uLWNvbmp1Z2F0ZSBwcmlvciBhdCBlYWNoIHBvaW50LAphbmQgbm9ybWFsaXppbmcgb3ZlciB0aGUgcG9pbnRzLiBTaW11bGF0ZSBkcmF3cyBmcm9tIHRoZSByZXN1bHRpbmcKbm9uLXN0YW5kYXJkIHBvc3RlcmlvciBkaXN0cmlidXRpb24gdXNpbmcgaW52ZXJzZSBjZGYgdXNpbmcgdGhlCmRpc2NyZXRlIGdyaWQuCgpnZ3Bsb3QyIGFuZCBncmlkRXh0cmEgYXJlIHVzZWQgZm9yIHBsb3R0aW5nLCB0aWR5ciBmb3IgbWFuaXB1bGF0aW5nIGRhdGEgZnJhbWVzCgpgYGB7ciBzZXR1cCwgbWVzc2FnZT1GQUxTRSwgZXJyb3I9RkFMU0UsIHdhcm5pbmc9RkFMU0V9CmxpYnJhcnkoZ2dwbG90MikKdGhlbWVfc2V0KHRoZW1lX21pbmltYWwoKSkKbGlicmFyeShncmlkRXh0cmEpCmxpYnJhcnkodGlkeXIpCmxpYnJhcnkoZHBseXIpCmBgYAoKIyMjIEV2YWx1YXRpbmcgcG9zdGVyaW9yIHdpdGggbm9uLWNvbmp1Z2F0ZSBwcmlvciBpbiBncmlkCgpQb3N0ZXJpb3Igd2l0aCBvYnNlcnZhdGlvbnMgKDQzNyw1NDMpIGFuZCB1bmlmb3JtIHByaW9yIChCZXRhKDEsMSkpCgpgYGB7ciB9CmEgPC0gNDM3CmIgPC0gNTQzCmBgYAoKRXZhbHVhdGUgZGVuc2l0aWVzIGF0IGV2ZW5seSBzcGFjZWQgcG9pbnRzIGJldHdlZW4gMC4xIGFuZCAxCgpgYGB7ciB9CmRmMSA8LSBkYXRhLmZyYW1lKHRoZXRhID0gc2VxKDAuMSwgMSwgMC4wMDEpKQpkZjEkY29uIDwtIGRiZXRhKGRmMSR0aGV0YSwgYSsxLCBiKzEpCmBgYAoKQ29tcHV0ZSB0aGUgZGVuc2l0eSBvZiBub24tY29uanVnYXRlIHByaW9yIGluIGRpc2NyZXRlIHBvaW50cywgaS5lLiBpbiBhIGdyaWQKdGhpcyBub24tY29uanVnYXRlIHByaW9yIGlzIHRoZSBzYW1lIGFzIGluIGZpZ3VyZSAyLjQgaW4gdGhlIGJvb2sKCmBgYHtyIH0KcHAgPC0gcmVwKDEsIG5yb3coZGYxKSkKcGkgPC0gc2FwcGx5KGMoMC4zODgsIDAuNDg4LCAwLjU4OCksIGZ1bmN0aW9uKHBpKSB3aGljaChkZjEkdGhldGEgPT0gcGkpKQpwbSA8LSAxMQpwcFtwaVsxXTpwaVsyXV0gPC0gc2VxKDEsIHBtLCBsZW5ndGgub3V0ID0gbGVuZ3RoKHBpWzFdOnBpWzJdKSkKcHBbcGlbM106cGlbMl1dIDwtIHNlcSgxLCBwbSwgbGVuZ3RoLm91dCA9IGxlbmd0aChwaVszXTpwaVsyXSkpCmBgYAoKbm9ybWFsaXplIHRoZSBwcmlvcgoKYGBge3IgfQpkZjEkbmNfcCA8LSBwcCAvIHN1bShwcCkKYGBgCgpjb21wdXRlIHRoZSB1bi1ub3JtYWxpemVkIG5vbi1jb25qdWdhdGUgcG9zdGVyaW9yIGluIGEgZ3JpZAoKYGBge3IgfQpwbyA8LSBkYmlub20oYSwgYStiLCBkZjEkdGhldGEpICogcHAKYGBgCgpub3JtYWxpemUgdGhlIHBvc3RlcmlvcgoKYGBge3IgfQpkZjEkbmNfcG8gPC0gcG8gLyBzdW0ocG8pCmBgYAoKUGxvdCBwb3N0ZXJpb3Igd2l0aCB1bmlmb3JtIHByaW9yLCBub24tY29uanVnYXRlCnByaW9yIGFuZCB0aGUgY29ycmVzcG9uZGluZyBub24tY29uanVnYXRlIHBvc3RlcmlvcgoKYGBge3IgfQojIHBpdm90IHRoZSBkYXRhIGZyYW1lIGludG8ga2V5LXZhbHVlIHBhaXJzCiMgYW5kIGNoYW5nZSB2YXJpYWJsZSBuYW1lcyBmb3IgcGxvdHRpbmcKZGYyIDwtIGRmMSAlPiUKICBwaXZvdF9sb25nZXIoY29scyA9IC10aGV0YSwgbmFtZXNfdG8gPSAiZ3JwIiwgdmFsdWVzX3RvID0gInAiKSAlPiUKICBtdXRhdGUoZ3JwID0gZmFjdG9yKGdycCwgbGFiZWxzPWMoJ1Bvc3RlcmlvciB3aXRoIHVuaWZvcm0gcHJpb3InLAogICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAnTm9uLWNvbmp1Z2F0ZSBwcmlvcicsCiAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICdOb24tY29uanVnYXRlIHBvc3RlcmlvcicpKSkKIyMgbGV2ZWxzKGRmMiRncnApIDwtIApnZ3Bsb3QoZGF0YSA9IGRmMikgKwogIGdlb21fbGluZShhZXModGhldGEsIHApKSArCiAgZmFjZXRfd3JhcCh+Z3JwLCBuY29sID0gMSwgc2NhbGVzID0gJ2ZyZWVfeScpICsKICBjb29yZF9jYXJ0ZXNpYW4oeGxpbSA9IGMoMC4zNSwwLjYpKSArCiAgc2NhbGVfeV9jb250aW51b3VzKGJyZWFrcz1OVUxMKSArCiAgbGFicyh4ID0gJycsIHkgPSAnJykKYGBgCgojIyMgSW52ZXJzZSBjZGYgc2FtcGxpbmcKCmNvbXB1dGUgdGhlIGN1bXVsYXRpdmUgZGVuc2l0eSBpbiBhIGdyaWQKCmBgYHtyIH0KZGYxJGNzX3BvIDwtIGN1bXN1bShkZjEkbmNfcG8pCmBgYAoKU2FtcGxlIGZyb20gdW5pZm9ybSBkaXN0cmlidXRpb24gVSgwLDEpCgpgYGB7ciB9CiMgc2V0LnNlZWQoc2VlZCkgaXMgdXNlZCB0byBzZXQgc2VlZCBmb3IgdGhlIHJhbmRvbiBudW1iZXIgZ2VuZXJhdG9yCnNldC5zZWVkKDI2MDEpCiMgcnVuaWYoaykgcmV0dXJucyBrIHVuaWZvcm0gcmFuZG9tIG51bWJlcnMgZnJvbSBpbnRlcnZhbCBbMCwxXQpyIDwtIHJ1bmlmKDEwMDAwKQpgYGAKCkludmVyc2UtY2RmIHNhbXBsaW5nCgpgYGB7ciB9CiMgZnVuY3Rpb24gdG8gZmluZCB0aGUgdmFsdWUgc21hbGxlc3QgdmFsdWUgdGhldGEgYXQgd2hpY2ggdGhlIGN1bXVsYXRpdmUKIyBzdW0gb2YgdGhlIHBvc3RlcmlvciBkZW5zaXRpZXMgaXMgZ3JlYXRlciB0aGFuIHIuCmludmNkZiA8LSBmdW5jdGlvbihyLCBkZikgZGYkdGhldGFbc3VtKGRmJGNzX3BvIDwgcikgKyAxXQojIHNhcHBseSBmdW5jdGlvbiBmb3IgZWFjaCBzYW1wbGUgci4gVGhlIHJldHVybmVkIHZhbHVlcyBzIGFyZSBub3cKIyByYW5kb20gZHJhd3MgZnJvbSB0aGUgZGlzdHJpYnV0aW9uLgpzIDwtIHNhcHBseShyLCBpbnZjZGYsIGRmMSkKYGBgCgpDcmVhdGUgdGhyZWUgcGxvdHM6IHAxIGlzIHRoZSBwb3N0ZXJpb3IsIHAyIGlzIHRoZSBjZGYgb2YgdGhlIHBvc3RlcmlvcgphbmQgcDMgaXMgdGhlIGhpc3RvZ3JhbSBvZiBwb3N0ZXJpb3IgZHJhd3MgKGRyYXduIHVzaW5nIGludi1jZGYpCgpgYGB7ciB9CnAxIDwtIGdncGxvdChkYXRhID0gZGYxKSArCiAgZ2VvbV9saW5lKGFlcyh0aGV0YSwgbmNfcG8pKSArCiAgY29vcmRfY2FydGVzaWFuKHhsaW0gPSBjKDAuMzUsIDAuNikpICsKICBsYWJzKHRpdGxlID0gJ05vbi1jb25qdWdhdGUgcG9zdGVyaW9yJywgeCA9ICcnLCB5ID0gJycpICsKICBzY2FsZV95X2NvbnRpbnVvdXMoYnJlYWtzID0gTlVMTCkKcDIgPC0gZ2dwbG90KGRhdGEgPSBkZjEpICsKICBnZW9tX2xpbmUoYWVzKHRoZXRhLCBjc19wbykpICsKICBjb29yZF9jYXJ0ZXNpYW4oeGxpbSA9IGMoMC4zNSwgMC42KSkgKwogIGxhYnModGl0bGUgPSAnUG9zdGVyaW9yLWNkZicsIHggPSAnJywgeSA9ICcnKSArCiAgc2NhbGVfeV9jb250aW51b3VzKGJyZWFrcyA9IE5VTEwpCnAzIDwtIGdncGxvdCgpICsKICBnZW9tX2hpc3RvZ3JhbShhZXMocyksIGJpbndpZHRoID0gMC4wMDMpICsKICBjb29yZF9jYXJ0ZXNpYW4oeGxpbSA9IGMoMC4zNSwgMC42KSkgKwogIGxhYnModGl0bGUgPSAnSGlzdG9ncmFtIG9mIHBvc3RlcmlvciBkcmF3cycsIHggPSAnJywgeSA9ICcnKSArCiAgc2NhbGVfeV9jb250aW51b3VzKGJyZWFrcyA9IE5VTEwpCiMgY29tYmluZSB0aGUgcGxvdHMKZ3JpZC5hcnJhbmdlKHAxLCBwMiwgcDMpCmBgYAoK

Bayesian data analysis demo 2.4

Aki Vehtari, Markus Paasiniemi

2023-11-07

Probability of a girl birth given placenta previa (BDA3 p. 37).

Evaluating posterior with non-conjugate prior in grid

Inverse cdf sampling