Instruções

Ambiente

1 Leitura e limpeza dos dados

  1. Os nomes das colunas originais estão em inglês. Para ver o dicionário de dados — documentação sobre cada uma das colunas — visite https://www.kaggle.com/datasets/crisparada/brazilian-cities?select=Data_Dictionary.csv.

  2. Eis uma função para renomear as colunas para português. Ela simplesmente retorna um vetor com os novos nomes, na mesma ordem que as colunas originais.

    renomear <- function(x) {
    
      c(
        'cidade',
        'estado',
        'capital',
        'pop_resid',
        'pop_resid_bras',
        'pop_resid_estr',
        'unidades_domest',
        'unidades_domest_urban',
        'unidades_domest_rural',
        'pop_regular',
        'pop_regular_1',
        'pop_regular_1_4',
        'pop_regular_5_9',
        'pop_regular_10_14',
        'pop_regular_15_59',
        'pop_regular_60_mais',
        'area_cultivada',
        'producao_rural',
        'idhm_ranking',
        'idhm',
        'idhm_renda',
        'idhm_longevidade',
        'idhm_educacao',
        'longitude',
        'latitude',
        'altitude',
        'tv_assinatura',
        'telefones_fixos',
        'area',
        'regiao_turismo',
        'categoria_turismo',
        'pop_estimada',
        'tipo',
        'gva_agropec',
        'gva_industria',
        'gva_servicos',
        'gva_publico',
        'gva_total',
        'impostos',
        'pib',
        'pop_pib',
        'pib_capita',
        'atividade_principal',
        'despesas_municipais',
        'empresas_tot',
        'empresas_a',
        'empresas_b',
        'empresas_c',
        'empresas_d',
        'empresas_e',
        'empresas_f',
        'empresas_g',
        'empresas_h',
        'empresas_i',
        'empresas_j',
        'empresas_k',
        'empresas_l',
        'empresas_m',
        'empresas_n',
        'empresas_o',
        'empresas_p',
        'empresas_q',
        'empresas_r',
        'empresas_s',
        'empresas_t',
        'empresas_u',
        'hoteis',
        'camas',
        'agencias_priv',
        'agencias_publ',
        'bancos_priv',
        'bancos_publ',
        'patrimonio_bancos_priv',
        'patrimonio_bancos_publ',
        'carros',
        'motos',
        'tratores',
        'uber',
        'mac',
        'walmart',
        'correios'
      )
    
    }
  3. Ler os dados, renomear as colunas e mudar o tipo de duas delas:

    cidades <- read_csv(
      'dados/BRAZIL_CITIES_REV2022.CSV'
    ) %>% 
      rename_with(.fn = renomear) %>% 
      mutate(
        capital = as.logical(capital),
        uber = as.logical(uber)
      )
    ## Rows: 5578 Columns: 81
    ## ── Column specification ─────────────────────────────────────────────────────────────
    ## Delimiter: ","
    ## chr  (6): CITY, STATE, REGIAO_TUR, CATEGORIA_TUR, RURAL_URBAN, GVA_MAIN
    ## dbl (75): CAPITAL, IBGE_RES_POP, IBGE_RES_POP_BRAS, IBGE_RES_POP_ESTR, IBGE_DU, I...
    ## 
    ## ℹ Use `spec()` to retrieve the full column specification for this data.
    ## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
  4. Examinar a tibble com dfSummary:

    cidades %>% 
      dfSummary() %>% 
      print(method = 'render')
    Variável Estatísticas / Valores Freqs (% de Válidos) Faltante
    cidade [character]
    1. Bom Jesus
    2. São Domingos
    3. Bonito
    4. Planalto
    5. Santa Helena
    6. Santa Inês
    7. Santa Luzia
    8. Santa Terezinha
    9. São Francisco
    10. Vera Cruz
    [ 5290 outros ]
    5 ( 0,1% )
    5 ( 0,1% )
    4 ( 0,1% )
    4 ( 0,1% )
    4 ( 0,1% )
    4 ( 0,1% )
    4 ( 0,1% )
    4 ( 0,1% )
    4 ( 0,1% )
    4 ( 0,1% )
    5536 ( 99,2% )
    0 (0,0%)
    estado [character]
    1. MG
    2. SP
    3. RS
    4. BA
    5. PR
    6. SC
    7. GO
    8. PB
    9. PI
    10. MA
    [ 17 outros ]
    853 ( 15,3% )
    646 ( 11,6% )
    499 ( 8,9% )
    418 ( 7,5% )
    400 ( 7,2% )
    295 ( 5,3% )
    246 ( 4,4% )
    224 ( 4,0% )
    224 ( 4,0% )
    217 ( 3,9% )
    1556 ( 27,9% )
    0 (0,0%)
    capital [logical]
    1. FALSE
    2. TRUE
    5545 ( 99,4% )
    33 ( 0,6% )
    0 (0,0%)
    pop_resid [numeric]
    Média (dp) : 34223,1 (202882,9)
    mín < mediana < máx:
    0 < 10926,5 < 11253503
    IQE (CV) : 18192 (5,9)
    5044 valores distintos 0 (0,0%)
    pop_resid_bras [numeric]
    Média (dp) : 34145,7 (201262,7)
    mín < mediana < máx:
    0 < 10916 < 11133776
    IQE (CV) : 18166 (5,9)
    5072 valores distintos 0 (0,0%)
    pop_resid_estr [numeric]
    Média (dp) : 77,4 (1793,8)
    mín < mediana < máx:
    0 < 0 < 119727
    IQE (CV) : 10 (23,2)
    359 valores distintos 0 (0,0%)
    unidades_domest [numeric]
    Média (dp) : 10283,1 (64692)
    mín < mediana < máx:
    0 < 3167 < 3576148
    IQE (CV) : 5157,2 (6,3)
    4197 valores distintos 0 (0,0%)
    unidades_domest_urban [numeric]
    Média (dp) : 8842,3 (64285,7)
    mín < mediana < máx:
    0 < 1839,5 < 3548433
    IQE (CV) : 3748,8 (7,3)
    3769 valores distintos 0 (0,0%)
    unidades_domest_rural [numeric]
    Média (dp) : 1440,8 (1690,5)
    mín < mediana < máx:
    0 < 916 < 33809
    IQE (CV) : 1342,5 (1,2)
    2653 valores distintos 0 (0,0%)
    pop_regular [numeric]
    Média (dp) : 27552,7 (185746,8)
    mín < mediana < máx:
    0 < 6156 < 10463636
    IQE (CV) : 12514,5 (6,7)
    4785 valores distintos 0 (0,0%)
    pop_regular_1 [numeric]
    Média (dp) : 382,7 (2324,2)
    mín < mediana < máx:
    0 < 92 < 129464
    IQE (CV) : 194 (6,1)
    1030 valores distintos 0 (0,0%)
    pop_regular_1_4 [numeric]
    Média (dp) : 1542,1 (9242,6)
    mín < mediana < máx:
    0 < 376 < 514794
    IQE (CV) : 791,8 (6)
    2019 valores distintos 0 (0,0%)
    pop_regular_5_9 [numeric]
    Média (dp) : 2066 (12299,6)
    mín < mediana < máx:
    0 < 514 < 684443
    IQE (CV) : 1080 (6)
    2314 valores distintos 0 (0,0%)
    pop_regular_10_14 [numeric]
    Média (dp) : 2377,6 (14170)
    mín < mediana < máx:
    0 < 587 < 783702
    IQE (CV) : 1219,5 (6)
    2472 valores distintos 0 (0,0%)
    pop_regular_15_59 [numeric]
    Média (dp) : 18184,2 (125063,7)
    mín < mediana < máx:
    0 < 3835,5 < 7058221
    IQE (CV) : 7863 (6,9)
    4478 valores distintos 0 (0,0%)
    pop_regular_60_mais [numeric]
    Média (dp) : 3000,2 (23221,5)
    mín < mediana < máx:
    0 < 720,5 < 1293012
    IQE (CV) : 1383,8 (7,7)
    2622 valores distintos 0 (0,0%)
    area_cultivada [numeric]
    Média (dp) : 14170,8 (44031,1)
    mín < mediana < máx:
    0 < 3462 < 1205669
    IQE (CV) : 10288,5 (3,1)
    4339 valores distintos 0 (0,0%)
    producao_rural [numeric]
    Média (dp) : 57356,2 (148075)
    mín < mediana < máx:
    0 < 13838,5 < 3274885
    IQE (CV) : 53306,2 (2,6)
    5010 valores distintos 0 (0,0%)
    idhm_ranking [numeric]
    Média (dp) : 2777,3 (1609,5)
    mín < mediana < máx:
    0 < 2776,5 < 5565
    IQE (CV) : 2786,5 (0,6)
    5566 valores distintos 0 (0,0%)
    idhm [numeric]
    Média (dp) : 0,7 (0,1)
    mín < mediana < máx:
    0 < 0,7 < 0,9
    IQE (CV) : 0,1 (0,1)
    350 valores distintos 0 (0,0%)
    idhm_renda [numeric]
    Média (dp) : 0,6 (0,1)
    mín < mediana < máx:
    0 < 0,7 < 0,9
    IQE (CV) : 0,1 (0,1)
    391 valores distintos 0 (0,0%)
    idhm_longevidade [numeric]
    Média (dp) : 0,8 (0,1)
    mín < mediana < máx:
    0 < 0,8 < 0,9
    IQE (CV) : 0,1 (0,1)
    221 valores distintos 0 (0,0%)
    idhm_educacao [numeric]
    Média (dp) : 0,6 (0,1)
    mín < mediana < máx:
    0 < 0,6 < 0,8
    IQE (CV) : 0,1 (0,2)
    467 valores distintos 0 (0,0%)
    longitude [numeric]
    Média (dp) : -46,1 (6,8)
    mín < mediana < máx:
    -72,9 < -46,5 < 0
    IQE (CV) : 9,5 (-0,1)
    5496 valores distintos 0 (0,0%)
    latitude [numeric]
    Média (dp) : -16,4 (8,3)
    mín < mediana < máx:
    -33,7 < -18,1 < 4,6
    IQE (CV) : 14,4 (-0,5)
    5489 valores distintos 0 (0,0%)
    altitude [numeric]
    Média (dp) : 416,9 (289)
    mín < mediana < máx:
    0 < 406,2 < 1639,2
    IQE (CV) : 459,5 (0,7)
    5549 valores distintos 0 (0,0%)
    tv_assinatura [numeric]
    Média (dp) : 3092,8 (35769,4)
    mín < mediana < máx:
    0 < 246,5 < 2047668
    IQE (CV) : 727 (11,6)
    1923 valores distintos 0 (0,0%)
    telefones_fixos [numeric]
    Média (dp) : 6562,2 (87934,3)
    mín < mediana < máx:
    0 < 327 < 5543127
    IQE (CV) : 1032,8 (13,4)
    2237 valores distintos 0 (0,0%)
    area [numeric]
    Média (dp) : 1526,1 (5604)
    mín < mediana < máx:
    0 < 416,6 < 159533,3
    IQE (CV) : 822,2 (3,7)
    5556 valores distintos 0 (0,0%)
    regiao_turismo [character]
    1. 0
    2. Corredores Das Águas
    3. Vale Do Contestado
    4. Amazônia Atlântica
    5. Araguaia-Tocantins
    6. Cariri
    7. Trilhas Do Rio Doce
    8. Chapada Diamantina
    9. Vale Das Águas
    10. Rota Do Yucumã
    [ 312 outros ]
    2290 ( 41,1% )
    59 ( 1,1% )
    45 ( 0,8% )
    40 ( 0,7% )
    39 ( 0,7% )
    37 ( 0,7% )
    37 ( 0,7% )
    35 ( 0,6% )
    33 ( 0,6% )
    32 ( 0,6% )
    2931 ( 52,5% )
    0 (0,0%)
    categoria_turismo [character]
    1. 0
    2. A
    3. B
    4. C
    5. D
    6. E
    2290 ( 41,1% )
    52 ( 0,9% )
    168 ( 3,0% )
    522 ( 9,4% )
    1893 ( 33,9% )
    653 ( 11,7% )
    0 (0,0%)
    pop_estimada [numeric]
    Média (dp) : 37405,8 (219816,2)
    mín < mediana < máx:
    0 < 11574 < 12176866
    IQE (CV) : 19851,8 (5,9)
    5096 valores distintos 0 (0,0%)
    tipo [character]
    1. 0
    2. Intermediário Adjacente
    3. Intermediário Remoto
    4. Rural Adjacente
    5. Rural Remoto
    6. Sem classificação
    7. Urbano
    5 ( 0,1% )
    688 ( 12,3% )
    60 ( 1,1% )
    3040 ( 54,5% )
    323 ( 5,8% )
    5 ( 0,1% )
    1457 ( 26,1% )
    0 (0,0%)
    gva_agropec [numeric]
    Média (dp) : 55000,6 (92020,5)
    mín < mediana < máx:
    0 < 27028 < 1402282
    IQE (CV) : 50761,5 (1,7)
    5373 valores distintos 0 (0,0%)
    gva_industria [numeric]
    Média (dp) : 206310,4 (1296665)
    mín < mediana < máx:
    0 < 11701,5 < 63306755
    IQE (CV) : 59850,8 (6,3)
    5126 valores distintos 0 (0,0%)
    gva_servicos [numeric]
    Média (dp) : 541092,6 (7133989)
    mín < mediana < máx:
    0 < 46623 < 464656988
    IQE (CV) : 129230 (13,2)
    5460 valores distintos 0 (0,0%)
    gva_publico [numeric]
    Média (dp) : 169565,1 (1558102)
    mín < mediana < máx:
    0 < 47242,5 < 92051448
    IQE (CV) : 75242 (9,2)
    5435 valores distintos 0 (0,0%)
    gva_total [numeric]
    Média (dp) : 971968,7 (9411596)
    mín < mediana < máx:
    0 < 158949 < 569910503
    IQE (CV) : 340389,8 (9,7)
    5537 valores distintos 0 (0,0%)
    impostos [numeric]
    Média (dp) : 152362,9 (1964351)
    mín < mediana < máx:
    -14159 < 8660 < 117125387
    IQE (CV) : 29175,5 (12,9)
    4981 valores distintos 0 (0,0%)
    pib [numeric]
    Média (dp) : 1124332 (11352213)
    mín < mediana < máx:
    0 < 168298,5 < 687035890
    IQE (CV) : 369649,2 (10,1)
    5530 valores distintos 0 (0,0%)
    pop_pib [numeric]
    Média (dp) : 36972,6 (216862,9)
    mín < mediana < máx:
    0 < 11570,5 < 12038175
    IQE (CV) : 19609,8 (5,9)
    5114 valores distintos 0 (0,0%)
    pib_capita [numeric]
    Média (dp) : 21110,8 (20328,6)
    mín < mediana < máx:
    0 < 15865 < 314638
    IQE (CV) : 17106,2 (1)
    5046 valores distintos 0 (0,0%)
    atividade_principal [character]
    1. 0
    2. Administração, defesa, ed
    3. Agricultura, inclusive ap
    4. Comércio e reparação de v
    5. Construção
    6. Demais serviços
    7. Eletricidade e gás, água,
    8. Indústrias de transformaç
    9. Indústrias extrativas
    10. Pecuária, inclusive apoio
    11. Produção florestal, pesca
    5 ( 0,1% )
    2725 ( 48,9% )
    735 ( 13,2% )
    46 ( 0,8% )
    7 ( 0,1% )
    1480 ( 26,5% )
    98 ( 1,8% )
    261 ( 4,7% )
    35 ( 0,6% )
    161 ( 2,9% )
    25 ( 0,4% )
    0 (0,0%)
    despesas_municipais [numeric]
    Média (dp) : 76314304 (740935036)
    mín < mediana < máx:
    0 < 17733204 < 45772497944
    IQE (CV) : 41455946 (9,7)
    4071 valores distintos 0 (0,0%)
    empresas_tot [numeric]
    Média (dp) : 906,4 (8327,9)
    mín < mediana < máx:
    0 < 162 < 530446
    IQE (CV) : 380 (9,2)
    1458 valores distintos 0 (0,0%)
    empresas_a [numeric]
    Média (dp) : 18,2 (81)
    mín < mediana < máx:
    0 < 2 < 1948
    IQE (CV) : 7 (4,4)
    247 valores distintos 0 (0,0%)
    empresas_b [numeric]
    Média (dp) : 1,9 (6,2)
    mín < mediana < máx:
    0 < 0 < 274
    IQE (CV) : 2 (3,3)
    55 valores distintos 0 (0,0%)
    empresas_c [numeric]
    Média (dp) : 73,4 (499,5)
    mín < mediana < máx:
    0 < 11 < 31566
    IQE (CV) : 36 (6,8)
    483 valores distintos 0 (0,0%)
    empresas_d [numeric]
    Média (dp) : 0,4 (6,3)
    mín < mediana < máx:
    0 < 0 < 332
    IQE (CV) : 0 (14,9)
    26 valores distintos 0 (0,0%)
    empresas_e [numeric]
    Média (dp) : 2 (11,7)
    mín < mediana < máx:
    0 < 0 < 657
    IQE (CV) : 1 (5,8)
    63 valores distintos 0 (0,0%)
    empresas_f [numeric]
    Média (dp) : 43,2 (407,2)
    mín < mediana < máx:
    0 < 4 < 25222
    IQE (CV) : 14 (9,4)
    345 valores distintos 0 (0,0%)
    empresas_g [numeric]
    Média (dp) : 347,9 (2428,8)
    mín < mediana < máx:
    0 < 74 < 150633
    IQE (CV) : 168 (7)
    996 valores distintos 0 (0,0%)
    empresas_h [numeric]
    Média (dp) : 41 (300,3)
    mín < mediana < máx:
    0 < 7 < 19515
    IQE (CV) : 24 (7,3)
    344 valores distintos 0 (0,0%)
    empresas_i [numeric]
    Média (dp) : 55,9 (483,9)
    mín < mediana < máx:
    0 < 7 < 29290
    IQE (CV) : 22 (8,7)
    396 valores distintos 0 (0,0%)
    empresas_j [numeric]
    Média (dp) : 24,7 (547,2)
    mín < mediana < máx:
    0 < 1 < 38720
    IQE (CV) : 5 (22,1)
    211 valores distintos 0 (0,0%)
    empresas_k [numeric]
    Média (dp) : 15,5 (340,6)
    mín < mediana < máx:
    0 < 0 < 23738
    IQE (CV) : 2 (21,9)
    173 valores distintos 0 (0,0%)
    empresas_l [numeric]
    Média (dp) : 15,1 (212,5)
    mín < mediana < máx:
    0 < 0 < 14003
    IQE (CV) : 3 (14)
    193 valores distintos 0 (0,0%)
    empresas_m [numeric]
    Média (dp) : 51,3 (766,9)
    mín < mediana < máx:
    0 < 4 < 49181
    IQE (CV) : 12 (15)
    317 valores distintos 0 (0,0%)
    empresas_n [numeric]
    Média (dp) : 83,6 (1231,7)
    mín < mediana < máx:
    0 < 4 < 76757
    IQE (CV) : 13 (14,7)
    398 valores distintos 0 (0,0%)
    empresas_o [numeric]
    Média (dp) : 3,3 (6,1)
    mín < mediana < máx:
    0 < 2 < 204
    IQE (CV) : 1 (1,9)
    47 valores distintos 0 (0,0%)
    empresas_p [numeric]
    Média (dp) : 30,9 (260,8)
    mín < mediana < máx:
    0 < 6 < 16030
    IQE (CV) : 15 (8,4)
    276 valores distintos 0 (0,0%)
    empresas_q [numeric]
    Média (dp) : 34,1 (366)
    mín < mediana < máx:
    0 < 3 < 22248
    IQE (CV) : 11 (10,7)
    296 valores distintos 0 (0,0%)
    empresas_r [numeric]
    Média (dp) : 12,2 (122,2)
    mín < mediana < máx:
    0 < 2 < 6687
    IQE (CV) : 6 (10)
    163 valores distintos 0 (0,0%)
    empresas_s [numeric]
    Média (dp) : 51,6 (429,4)
    mín < mediana < máx:
    0 < 12 < 24832
    IQE (CV) : 26 (8,3)
    340 valores distintos 0 (0,0%)
    empresas_t [numeric] 1 valor distinto
    0 : 5578 ( 100,0% )
    0 (0,0%)
    empresas_u [numeric]
    Média (dp) : 0,1 (1,9)
    mín < mediana < máx:
    0 < 0 < 123
    IQE (CV) : 0 (38,4)
    0 : 5551 ( 99,5% )
    1 : 14 ( 0,3% )
    2 : 2 ( 0,0% )
    3 : 4 ( 0,1% )
    5 : 1 ( 0,0% )
    7 : 1 ( 0,0% )
    8 : 2 ( 0,0% )
    35 : 1 ( 0,0% )
    64 : 1 ( 0,0% )
    123 : 1 ( 0,0% )
    0 (0,0%)
    hoteis [numeric]
    Média (dp) : 0,5 (2,9)
    mín < mediana < máx:
    0 < 0 < 97
    IQE (CV) : 0 (5,7)
    33 valores distintos 0 (0,0%)
    camas [numeric]
    Média (dp) : 41 (307,6)
    mín < mediana < máx:
    0 < 0 < 13247
    IQE (CV) : 0 (7,5)
    369 valores distintos 0 (0,0%)
    agencias_priv [numeric]
    Média (dp) : 2 (26,5)
    mín < mediana < máx:
    0 < 0 < 1693
    IQE (CV) : 1 (13,1)
    61 valores distintos 0 (0,0%)
    agencias_publ [numeric]
    Média (dp) : 1,7 (11,2)
    mín < mediana < máx:
    0 < 1 < 626
    IQE (CV) : 2 (6,6)
    51 valores distintos 0 (0,0%)
    bancos_priv [numeric]
    Média (dp) : 0,8 (1,8)
    mín < mediana < máx:
    0 < 0 < 83
    IQE (CV) : 1 (2,3)
    20 valores distintos 0 (0,0%)
    bancos_publ [numeric]
    Média (dp) : 0,9 (1,1)
    mín < mediana < máx:
    0 < 1 < 8
    IQE (CV) : 2 (1,1)
    0 : 2654 ( 47,6% )
    1 : 1181 ( 21,2% )
    2 : 1187 ( 21,3% )
    3 : 500 ( 9,0% )
    4 : 54 ( 1,0% )
    5 : 1 ( 0,0% )
    8 : 1 ( 0,0% )
    0 (0,0%)
    patrimonio_bancos_priv [numeric]
    Média (dp) : 5500436242 (277575211170)
    mín < mediana < máx:
    0 < 0 < 19470765412654
    IQE (CV) : 47748535 (50,5)
    2333 valores distintos 0 (0,0%)
    patrimonio_bancos_publ [numeric]
    Média (dp) : 3598663230 (116432715033)
    mín < mediana < máx:
    0 < 23199252 < 8016164488595
    IQE (CV) : 199119090 (32,4)
    2921 valores distintos 0 (0,0%)
    carros [numeric]
    Média (dp) : 9839,8 (91757,3)
    mín < mediana < máx:
    0 < 1431,5 < 5740995
    IQE (CV) : 3485 (9,3)
    3577 valores distintos 0 (0,0%)
    motos [numeric]
    Média (dp) : 4869,6 (20916,7)
    mín < mediana < máx:
    0 < 1280 < 1134570
    IQE (CV) : 2704,8 (4,3)
    3358 valores distintos 0 (0,0%)
    tratores [numeric]
    Média (dp) : 5,7 (55,3)
    mín < mediana < máx:
    0 < 0 < 3236
    IQE (CV) : 1 (9,6)
    130 valores distintos 0 (0,0%)
    uber [logical]
    1. FALSE
    2. TRUE
    5453 ( 97,8% )
    125 ( 2,2% )
    0 (0,0%)
    mac [numeric]
    Média (dp) : 0,1 (2,2)
    mín < mediana < máx:
    0 < 0 < 130
    IQE (CV) : 0 (16,9)
    20 valores distintos 0 (0,0%)
    walmart [numeric]
    Média (dp) : 0 (0,5)
    mín < mediana < máx:
    0 < 0 < 26
    IQE (CV) : 0 (14,1)
    12 valores distintos 0 (0,0%)
    correios [numeric]
    Média (dp) : 2 (4,4)
    mín < mediana < máx:
    0 < 1 < 225
    IQE (CV) : 1 (2,2)
    36 valores distintos 0 (0,0%)

    Gerado por summarytools 1.0.0 (R versão 4.2.0)
    2022-05-12

2 Análise exploratória

2.1 IDHM

  1. Pesquise o que é IDHM.

    Segundo a Wikipedia (consultada em 02/06/2022):

    O Índice de Desenvolvimento Humano Municipal é uma versão modificada do IDH usado para calcular o IDH das unidades federativas do Brasil. Por ser uma versão modificada do IDH, não é recomendada a comparação com outros países que usam o IDH padrão.

    Foi criado para ser um índice similar ao IDH que se adequasse à demografia brasileira.

    O índice tem 3 indicadores: IDHM Longevidade, IDHM Educação, IDHM Renda.

  2. Qual o valor máximo possível? Qual o valor máximo na tibble?

    Segundo a mesma fonte, o valor máximo é \(1\).

    Na tibble, o valor máximo é

    cidades %>%
      slice_max(idhm, n = 1) %>% 
      select(cidade, estado, idhm)

2.2 Estados e capitais

  1. Compare a quantidade de estados com a quantidade de capitais. O que está errado? Conserte a situação.

    Como capital é uma coluna booleana, usamos sum para obter a quantidade de municípios para os quais capital é verdadeiro:

    cidades %>% 
      summarize(
        estados = n_distinct(estado),
        capitais = sum(capital)
      )

    As quantidades são diferentes!

    Listando as capitais com seus respectivos estados:

    cidades %>% 
      filter(capital) %>% 
      select(estado, cidade) %>% 
      arrange(estado)

    Em alguns estados, existem cidades — não-capitais — que têm o mesmo nome que capitais de outros estados. Estas cidades estão marcadas como capitais.

    repetidas <- cidades %>% 
      filter(capital) %>% 
      select(estado, cidade) %>% 
      arrange(estado) %>% 
      add_count(estado) %>% 
      filter(n > 1)
    
    repetidas

    Vamos consertar:

    nao_capitais <- repetidas %>% 
      slice(-c(3, 4, 8, 9))
    
    cidades <- cidades %>% 
      mutate(
        capital = case_when(
          !(estado %in% nao_capitais$estado) ~ capital, 
          !(cidade %in% nao_capitais$cidade) ~ capital, 
          TRUE ~ FALSE
        )
      )

    E conferir:

    cidades %>% 
      filter(capital) %>% 
      select(estado, cidade) %>% 
      arrange(estado)

2.3 Populações

  1. Verifique se a coluna pop_resid (população de residentes) é a soma de pop_resid_bras (população de residentes brasileiros) com pop_resid_estr (população de residentes estrangeiros). Use a função all.

    cidades %>% 
      summarize(
        all(pop_resid == pop_resid_bras + pop_resid_estr)
      )

    Sim.

2.4 Unidades domésticas

  1. Verifique se a coluna unidades_domest (unidades domésticas) é a soma de unidades_domest_urban (urbanas) com unidades_domest_rural (rurais). Use a função all.

    cidades %>% 
      summarize(
        all(
          unidades_domest == unidades_domest_urban + unidades_domest_rural
        )
      )

    Não.

    dif <- cidades %>% 
      mutate(
        diferenca = 
          unidades_domest - unidades_domest_urban - unidades_domest_rural
      ) %>% 
      filter(
        diferenca != 0
      ) %>% 
      select(cidade, diferenca)
    
    dif
    dif %>% 
      distinct(diferenca)

    A diferença nunca é maior que \(1\).

2.5 Categorias de turismo

  1. Na coluna categoria_turismo, substitua os zeros por NA e converta tudo para um fator ordenado com níveis \(E < D < C < B < A\). Use a função factor.

    categoria_fator <- cidades %>% 
      pull(categoria_turismo) %>% 
      factor(
        levels = c('E', 'D', 'C', 'B', 'A'),
        ordered = TRUE
      )
    cidades <- cidades %>% 
      mutate(
        categoria_turismo = categoria_fator
      )
    cidades %>% 
      count(categoria_turismo)

2.6 Tipos

  1. Na coluna tipo, substitua os zeros por NA e converta tudo para um fator não-ordenado.

    tipo_fator <- cidades %>% 
      pull(tipo)
    
    tipo_fator[tipo_fator == '0'] <- NA
    
    tipo_fator <- factor(tipo_fator, ordered = FALSE)
    cidades <- cidades %>% 
      mutate(
        tipo = tipo_fator
      )
    cidades %>% 
      count(tipo)

2.7 Atividades principais

  1. Na coluna atividade_principal, substitua os zeros por NA e converta tudo para um fator não-ordenado.

    ap_fator <- cidades %>% 
      pull(atividade_principal)
    
    ap_fator[ap_fator == '0'] <- NA
    
    ap_fator <- factor(ap_fator, ordered = FALSE)
    cidades <- cidades %>% 
      mutate(
        atividade_principal = ap_fator
      )
    cidades %>% 
      count(atividade_principal)

2.8 Regiões geográficas

  1. Crie uma nova coluna, do tipo fator, chamada regiao, com a região geográfica (Norte, Nordeste, Centro-Oeste, Sudeste, ou Sul) onde está cada município. Use os níveis ‘N’, ‘NE’, ‘CO’, ‘SE’, ‘S’.

    estados <- unique(cidades$estado) %>% sort()
    
    regioes <- c(
      'N', 'NE', 'N', 'N', 'NE', 'NE', 'CO', 'SE', 'CO', 'NE', 
      'SE', 'CO', 'CO', 'N', 'NE', 'NE', 'NE', 'S', 'SE', 'NE', 
      'N', 'N', 'S', 'S', 'NE', 'SE', 'N'
    )
    
    names(regioes) <- estados
    
    cidades <- cidades %>% 
      mutate(
        regiao = factor(regioes[estado])
      )
    cidades %>%
      distinct(regiao, estado) %>% 
      arrange(regiao)

2.9 Regiões de turismo

  1. Na coluna regiao_turismo, substitua os zeros por NA.

    Quantos zeros são?

    cidades %>% 
      count(regiao_turismo == '0')
    cidades <- cidades %>% 
      mutate(
        regiao_turismo = 
          if_else(
            regiao_turismo == '0', NA_character_, regiao_turismo
          )
      )

    Vamos conferir:

    cidades %>% 
      count(regiao_turismo == '0')
    cidades %>% 
      count(is.na(regiao_turismo))
  2. Quantas regiões de turismo são?

    n_distinct(cidades$regiao_turismo, na.rm = TRUE)
    ## [1] 321
  3. Qual tem mais municípios?

    cidades %>% 
      filter(!is.na(regiao_turismo)) %>% 
      group_by(regiao_turismo) %>% 
      summarize(municipios = n()) %>% 
      slice_max(municipios, n = 1)
  4. Qual tem menos municípios?

    cidades %>% 
      filter(!is.na(regiao_turismo)) %>% 
      group_by(regiao_turismo) %>% 
      summarize(municipios = n()) %>% 
      slice_min(municipios, n = 1)
  5. Quantos municípios não fazem parte de região de turismo?

    cidades %>% 
      filter(is.na(regiao_turismo)) %>% 
      nrow()
    ## [1] 2290
  6. Existe alguma região de turismo contendo cidades de estados diferentes?

    cidades %>% 
      filter(!is.na(regiao_turismo)) %>% 
      group_by(regiao_turismo) %>% 
      summarise(estados = n_distinct(estado)) %>% 
      filter(estados > 1)

2.10 Nomes das regiões de turismo

  1. Gere uma tibble com todos os valores distintos de regiao_turismo, sem repetições.

  2. Quais são as \(10\) palavras mais comuns que iniciam os nomes de regiões de turismo? Use a função word.

    mais_comuns <- cidades %>% 
      distinct(regiao_turismo) %>% 
      transmute(primeira = word(regiao_turismo)) %>% 
      count(primeira, sort = TRUE) %>% 
      head(10)
    
    mais_comuns
  3. Liste, em ordem alfabética, os nomes completos das regiões de turismo cujos nomes começam com palavras desta lista.

    cidades %>% 
      distinct(regiao_turismo) %>% 
      filter(
        word(regiao_turismo) %in% mais_comuns$primeira
      ) %>% 
      select(regiao_turismo) %>% 
      arrange(regiao_turismo)

2.11 PIB

  1. Verifique se a coluna pib_capita é o resultado da divisão de pib por pop_pib. Use a função all.

2.12 Carros

  1. Quais as \(10\) cidades que têm a maior quantidade de carros por habitante?

    Se usarmos pop_regular, algumas cidades têm zero neste campo:

    cidades %>% 
      mutate(
        carros_por_habitante = carros / pop_regular
      ) %>% 
      slice_max(carros_por_habitante, n = 10) %>% 
      select(cidade, estado, carros_por_habitante, pop_regular)

    Vamos excluí-las:

    carros_pop_regular <- cidades %>% 
      filter(pop_regular > 0) %>% 
      mutate(
        carros_por_habitante = carros / pop_regular
      ) %>% 
      slice_max(carros_por_habitante, n = 10) %>% 
      select(cidade, estado, carros_por_habitante, tipo)
    
    carros_pop_regular

    Ou podemos usar a população residente, também eliminando as cidades com zero neste campo:

    carros_pop_resid <- cidades %>% 
      filter(pop_resid > 0) %>% 
      mutate(
        carros_por_habitante = carros / pop_resid
      ) %>% 
      slice_max(carros_por_habitante, n = 10) %>% 
      select(cidade, estado, carros_por_habitante, tipo)
    
    carros_pop_resid

    Ou podemos usar a população estimada, onde as cidades com zero habitantes têm zero carros — e o R calcula \(0/0\) como NaN, não como Inf:

    carros_pop_est <- cidades %>% 
      mutate(
        carros_por_habitante = carros / pop_estimada
      ) %>% 
      slice_max(carros_por_habitante, n = 10) %>% 
      select(cidade, estado, carros_por_habitante, tipo)
    
    carros_pop_est

    Vamos comparar:

    tibble(
      regular = paste(
        carros_pop_regular$cidade,
        carros_pop_regular$estado,
        sep = ', '
      ),
      resid = paste(
        carros_pop_resid$cidade,
        carros_pop_resid$estado,
        sep = ', '
      ),
      estim = paste(
        carros_pop_est$cidade,
        carros_pop_est$estado,
        sep = ', '
      )
    )
  2. Quais as \(10\) cidades que têm a menor quantidade de carros por habitante?

    Vamos ignorar as cidades com zero carros.

    Usando a população regular:

    carros_pop_regular <- cidades %>%
      filter(carros > 0) %>% 
      mutate(
        carros_por_habitante = carros / pop_regular
      ) %>% 
      slice_min(carros_por_habitante, n = 10) %>% 
      select(cidade, estado, carros_por_habitante, tipo)
    
    carros_pop_regular

    Usando a população residente:

    carros_pop_resid <- cidades %>% 
      filter(carros > 0) %>% 
      mutate(
        carros_por_habitante = carros / pop_resid
      ) %>% 
      slice_min(carros_por_habitante, n = 10) %>% 
      select(cidade, estado, carros_por_habitante, tipo)
    
    carros_pop_resid

    Usando a população estimada:

    carros_pop_est <- cidades %>% 
      filter(carros > 0) %>% 
      mutate(
        carros_por_habitante = carros / pop_estimada
      ) %>% 
      slice_min(carros_por_habitante, n = 10) %>% 
      select(cidade, estado, carros_por_habitante, tipo)
    
    carros_pop_est

    Vamos comparar:

    tibble(
      regular = paste(
        carros_pop_regular$cidade,
        carros_pop_regular$estado,
        sep = ', '
      ),
      resid = paste(
        carros_pop_resid$cidade,
        carros_pop_resid$estado,
        sep = ', '
      ),
      estim = paste(
        carros_pop_est$cidade,
        carros_pop_est$estado,
        sep = ', '
      )
    )
  3. Quais são os tipos destas cidades?

    Já incluídos nos resultados acima.

  4. Comente os resultados.

    As cidades com mais carros por habitante são todas da região Sul ou Sudeste.

    Por um dos critérios, são todas do tipo rural adjacente.

    As únicas capitais que aparecem são Belo Horizonte e Curitiba.

    As cidades com menos carros por habitante são todas da região Norte, onde o transporte rodoviário é pouco desenvolvido.

    São todas do tipo rural remoto ou intermediário remoto.

2.13 Motos

  1. Quais as \(10\) cidades que têm a maior quantidade de motos por habitante?

    Se usarmos pop_regular, algumas cidades têm zero neste campo:

    cidades %>% 
      mutate(
        motos_por_habitante = motos / pop_regular
      ) %>% 
      slice_max(motos_por_habitante, n = 10) %>% 
      select(cidade, estado, motos_por_habitante, pop_regular)

    Vamos excluí-las:

    motos_pop_regular <- cidades %>% 
      filter(pop_regular > 0) %>% 
      mutate(
        motos_por_habitante = motos / pop_regular
      ) %>% 
      slice_max(motos_por_habitante, n = 10) %>% 
      select(cidade, estado, motos_por_habitante, tipo)
    
    motos_pop_regular

    Ou podemos usar a população residente, também eliminando as cidades com zero neste campo:

    motos_pop_resid <- cidades %>% 
      filter(pop_resid > 0) %>% 
      mutate(
        motos_por_habitante = motos / pop_resid
      ) %>% 
      slice_max(motos_por_habitante, n = 10) %>% 
      select(cidade, estado, motos_por_habitante, tipo)
    
    motos_pop_resid

    Ou podemos usar a população estimada, onde as cidades com zero habitantes têm zero motos — e o R calcula \(0/0\) como NaN, não como Inf:

    motos_pop_est <- cidades %>% 
      mutate(
        motos_por_habitante = motos / pop_estimada
      ) %>% 
      slice_max(motos_por_habitante, n = 10) %>% 
      select(cidade, estado, motos_por_habitante, tipo)
    
    motos_pop_est

    Vamos comparar:

    tibble(
      regular = paste(
        motos_pop_regular$cidade,
        motos_pop_regular$estado,
        sep = ', '
      ),
      resid = paste(
        motos_pop_resid$cidade,
        motos_pop_resid$estado,
        sep = ', '
      ),
      estim = paste(
        motos_pop_est$cidade,
        motos_pop_est$estado,
        sep = ', '
      )
    )
  2. Quais as \(10\) cidades que têm a menor quantidade de motos por habitante?

    Vamos ignorar as cidades com zero motos.

    Usando a população regular:

    motos_pop_regular <- cidades %>%
      filter(motos > 0) %>% 
      mutate(
        motos_por_habitante = motos / pop_regular
      ) %>% 
      slice_min(motos_por_habitante, n = 10) %>% 
      select(cidade, estado, motos_por_habitante, tipo)
    
    motos_pop_regular

    Usando a população residente:

    motos_pop_resid <- cidades %>% 
      filter(motos > 0) %>% 
      mutate(
        motos_por_habitante = motos / pop_resid
      ) %>% 
      slice_min(motos_por_habitante, n = 10) %>% 
      select(cidade, estado, motos_por_habitante, tipo)
    
    motos_pop_resid

    Usando a população estimada:

    motos_pop_est <- cidades %>% 
      filter(motos > 0) %>% 
      mutate(
        motos_por_habitante = motos / pop_estimada
      ) %>% 
      slice_min(motos_por_habitante, n = 10) %>% 
      select(cidade, estado, motos_por_habitante, tipo)
    
    motos_pop_est

    Vamos comparar:

    tibble(
      regular = paste(
        motos_pop_regular$cidade,
        motos_pop_regular$estado,
        sep = ', '
      ),
      resid = paste(
        motos_pop_resid$cidade,
        motos_pop_resid$estado,
        sep = ', '
      ),
      estim = paste(
        motos_pop_est$cidade,
        motos_pop_est$estado,
        sep = ', '
      )
    )
  3. Quais são os tipos destas cidades?

    Já incluídos nos resultados acima.

  4. Comente os resultados.

    Por dois dos critérios, as cidades com mais motos por habitante são todas da região Norte ou Nordeste.

    São do tipo rural adjacente ou urbano.

    As cidades com menos motos por habitante são todas da região Norte, onde o transporte rodoviário é pouco desenvolvido.

    São todas do tipo rural remoto ou rural adjacente.

2.14 Tratores

  1. Quais as \(10\) cidades que têm a maior quantidade de tratores por habitante? Ignore as cidades que têm zero tratores.

  2. Quais as \(10\) cidades que têm a menor quantidade de tratores por habitante? Ignore as cidades que têm zero tratores.

  3. Quais são os tipos destas cidades?

  4. Comente os resultados.

2.15 Áreas

  1. Quais as \(10\) cidades que têm a maior área?

  2. Quais as \(10\) cidades que têm a menor área?

  3. Quais são os tipos destas cidades?

  4. Comente os resultados.

2.16 Produção rural

  1. Quais as \(10\) cidades que têm a maior produção rural?

    cidades %>% 
      slice_max(producao_rural, n = 10) %>% 
      select(cidade, estado, producao_rural, tipo)
  2. Quais as \(10\) cidades que têm a menor produção rural?

    cidades %>% 
      filter(producao_rural > 0) %>% 
      slice_min(producao_rural, n = 10) %>% 
      select(cidade, estado, producao_rural, tipo)
  3. Quais são os tipos destas cidades? Ignore as cidades que têm zero produção rural.

    Já incluídos nas tabelas acima.

  4. Comente os resultados.

    Muitas cidades do tipo urbano na lista de maiores produções rurais.

2.17 Produção rural per capita

  1. Quais as \(10\) cidades que têm a maior produção rural per capita?

  2. Quais as \(10\) cidades que têm a menor produção rural per capita?

  3. Quais são os tipos destas cidades? Ignore as cidades que têm zero produção rural.

  4. Comente os resultados.

2.18 Densidade demográfica

  1. Quais as \(10\) cidades que têm a maior densidade demográfica?

    Vamos usar a população residente.

    cidades_dd <- cidades %>% 
      mutate(
        dens = pop_resid / area
      )
    cidades_dd %>% 
      slice_max(dens, n = 10) %>% 
      select(cidade, estado, dens, tipo)
  2. Quais as \(10\) cidades que têm a menor densidade demográfica?

    cidades_dd %>% 
      slice_min(dens, n = 10) %>% 
      select(cidade, estado, dens, tipo)

    Problema: há cidades com zero habitantes. Vamos ignorá-las:

    cidades_dd %>% 
      filter(dens > 0) %>% 
      slice_min(dens, n = 10) %>% 
      select(cidade, estado, dens, tipo)
  3. Quais são os tipos destas cidades?

    Incluídos nas tabelas acima.

  4. Comente os resultados.

    Com exceção de Olinda e Fortaleza, as cidades de maior densidade demográfica estão no Rio de Janeiro e em São Paulo.

    As de menor densidade demográfica ficam na região Norte, com exceção de Rondolândia.

2.19 Cidades extremas

  1. Quais são as \(10\) cidades de maior e menor latitude?

    Maior latitude:

    cidades %>% 
      slice_max(latitude, n = 10) %>% 
      select(cidade, estado, latitude)    

    Menor latitude:

    cidades %>% 
      slice_min(latitude, n = 10) %>% 
      select(cidade, estado, latitude)    

    A expressão “do Oiapoque ao Chuí” não é exata. O certo parece ser “de Uiramutã ao Chuí”.

  2. Quais são as \(10\) cidades de maior e menor longitude?

    Maior longitude:

    cidades %>% 
      slice_max(longitude, n = 10) %>% 
      select(cidade, estado, longitude)    

    Temos um problema: longitude zero é em Londres!

    Os dados estão errados. Vamos ignorar cidades com zero no campo longitude:

    cidades %>% 
      filter(longitude != 0) %>% 
      slice_max(longitude, n = 10) %>% 
      select(cidade, estado, longitude)    

    Menor longitude:

    cidades %>% 
      slice_min(longitude, n = 10) %>% 
      select(cidade, estado, longitude)    
  3. Quais são as \(10\) cidades de maior e menor altitude?

    Maior altitude:

    cidades %>% 
     slice_max(altitude, n = 10) %>% 
     select(cidade, estado, altitude)    

    Menor altitude:

    cidades %>% 
     slice_min(altitude, n = 10) %>% 
     select(cidade, estado, altitude)    
  4. Responda as perguntas acima por região geográfica. Você vai precisar da resposta desta questão.

    Latitude:

    Só a região Norte pode ter cidades com latitude zero.

    cidades %>% 
      filter(latitude != 0 | regiao == 'N') %>% 
      group_by(regiao) %>% 
      slice_max(latitude, n = 10) %>% 
      select(cidade, estado, regiao, latitude)
    cidades %>% 
      group_by(regiao) %>% 
      slice_min(latitude, n = 10) %>% 
      select(cidade, estado, regiao, latitude)

    Longitude:

    cidades %>% 
      filter(longitude != 0) %>% 
      group_by(regiao) %>% 
      slice_max(longitude, n = 10) %>% 
      select(cidade, estado, regiao, longitude)
    cidades %>% 
      filter(longitude != 0) %>% 
      group_by(regiao) %>% 
      slice_min(longitude, n = 10) %>% 
      select(cidade, estado, regiao, longitude)

    Altitude:

    cidades %>% 
      group_by(regiao) %>% 
      slice_max(altitude, n = 10) %>% 
      select(cidade, estado, regiao, altitude)
    cidades %>% 
      group_by(regiao) %>% 
      slice_min(altitude, n = 10) %>% 
      select(cidade, estado, regiao, altitude)

2.20 Faixas etárias

  1. Quais as \(10\) cidades com a maior proporção de idosos (60 anos ou mais)?

  2. Quais as \(10\) cidades com a menor proporção de idosos (60 anos ou mais)?

  3. Quais são os tipos destas cidades?

  4. Comente os resultados.

3 Visualização

  • Todos os gráficos devem ser feitos com o pacote ggplot2.

  • Todos os gráficos devem incluir títulos, rótulos, legendas, e outros elementos para facilitar a compreensão. Imagine que seus gráficos serão publicados em uma revista científica.

3.1 População e McDonald’s

  1. Apenas para as cidades que têm McDonald’s, faça um scatterplot de quantidade de McDonald’s (no eixo \(y\)) por população (no eixo \(x\)).

    grafico <- cidades %>% 
      filter(mac > 0) %>% 
      ggplot(
        aes(x = pop_resid, y = mac)
      ) +
        geom_point() +
        scale_x_continuous(
          labels = scales::number_format(
            scale = 1e-6,
            suffix = 'M'
          )
        ) +
        labs(
          title = 'Quantidade de McDonald\'s por população',
          x = 'população',
          y = 'Qtde de\nMcDonald\'s'
        )
    
    grafico

    Restringindo a cidades de até \(2\) milhões de habitantes, eliminando os outliers:

    grafico2 <- grafico +
      scale_x_continuous(
        limits = c(0, 2e6),
        labels = scales::number_format(
          scale = 1e-6,
          suffix = 'M'
        )
      )
    ## Scale for 'x' is already present. Adding another scale for 'x', which will replace
    ## the existing scale.
    grafico2
    ## Warning: Removed 6 rows containing missing values (geom_point).

  2. Use geom_smooth para gerar uma reta de regressão (com method = 'lm' e se = FALSE).

    grafico +
      geom_smooth(
        method = 'lm',
        se = FALSE
      )
    ## `geom_smooth()` using formula 'y ~ x'

    Restringindo a cidades de até \(2\) milhões de habitantes, eliminando os outliers:

    grafico2 +
      geom_smooth(
        method = 'lm',
        se = FALSE
      )
    ## `geom_smooth()` using formula 'y ~ x'
    ## Warning: Removed 6 rows containing non-finite values (stat_smooth).
    ## Warning: Removed 6 rows containing missing values (geom_point).

  3. Existe alguma correlação entre as quantidades? Comente.

    Sim, mas quando retiramos os outliers, a correlação diminui:

    df <- cidades %>% 
      filter(mac > 0)
    
    cor(df$pop_resid, df$mac)
    ## [1] 0,9665813
    df <- df %>% 
      filter(pop_resid < 2e6)
    
    cor(df$pop_resid, df$mac)
    ## [1] 0,694311

3.2 População e Walmart

  1. Apenas para as cidades que têm Walmart, faça um scatterplot de quantidade de Walmarts (no eixo \(y\)) por população (no eixo \(x\)).

  2. Use geom_smooth para gerar uma reta de regressão (com method = 'lm' e se = FALSE).

  3. Existe alguma correlação entre as quantidades? Comente.

3.3 IDHM e PIB per capita

  1. Faça um scatterplot de IDHM (no eixo \(y\)) por PIB per capita (no eixo \(x\)).

  2. Use geom_smooth para gerar uma reta de regressão (com method = 'lm' e se = FALSE).

  3. Existe alguma correlação entre as quantidades? Comente.

3.4 IDHM e despesas municipais

  1. Faça um scatterplot de IDHM (no eixo \(y\)) por despesas municipais (no eixo \(x\)).

    cidades %>% 
      ggplot() +
        geom_point(
          aes(x = despesas_municipais, y = idhm)
        ) +
        scale_x_continuous(
          labels = scales::number_format(
            scale = 1e-9
          )
        ) +
        labs(
          title = 'IDHM por despesas municipais',
          x = 'despesas municipais\n(bilhões R$)',
          y = 'IDHM'
        )

    Horrível. Vamos limitar a despesas maiores que zero e menores que \(1\) bilhão, e ignorar as cidades com IDHM igual a zero:

    grafico <- 
      cidades %>% 
        filter(
          between(despesas_municipais, 1, 1e9),
          idhm > 0
        ) %>% 
        ggplot(
          aes(x = despesas_municipais, y = idhm)
        ) +
          geom_point() +
          scale_x_continuous(
            labels = scales::number_format(
              scale = 1e-6
            )
          ) +
          labs(
            title = 'IDHM por despesas municipais',
            x = 'despesas municipais\n(milhões R$)',
            y = 'IDHM'
          )
    
    grafico

  2. Use geom_smooth para gerar uma reta de regressão (com method = 'lm' e se = FALSE).

    grafico +
      geom_smooth(method = 'lm', se = FALSE)
    ## `geom_smooth()` using formula 'y ~ x'

  3. Existe alguma correlação entre as quantidades? Comente.

    É razoável pensar que despesas municipais maiores estão associadas a um IDHM maior, por causa de investimentos em saúde, educação, etc.

    A reta de regressão mostra que sim, embora a correlação não seja tão grande:

    cor(cidades$idhm, cidades$despesas_municipais)
    ## [1] 0,1104154

    Existem cidades com despesas baixas e IDHM alto.

    Acima de \(250\) milhões de despesas, nenhuma cidade tem IDHM menor que \(0{,}6\).

3.5 IDHM e carros

  1. Faça um scatterplot de IDHM (no eixo \(y\)) por quantidade de carros (no eixo \(x\)).

  2. Use geom_smooth para gerar uma reta de regressão (com method = 'lm' e se = FALSE).

  3. Existe alguma correlação entre as quantidades? Comente.

3.6 IDHM e motos

  1. Faça um scatterplot de IDHM (no eixo \(y\)) por quantidade de motos (no eixo \(x\)).

  2. Use geom_smooth para gerar uma reta de regressão (com method = 'lm' e se = FALSE).

  3. Existe alguma correlação entre as quantidades? Comente.

3.7 IDHM e tratores

  1. Faça um scatterplot de IDHM (no eixo \(y\)) por quantidade de tratores (no eixo \(x\)). Ignore as cidades que têm zero tratores.

  2. Use geom_smooth para gerar uma reta de regressão (com method = 'lm' e se = FALSE).

  3. Existe alguma correlação entre as quantidades? Comente.

3.8 Correios

  1. Faça um histograma da quantidade de agências de correios. Use o número de classes que você achar mais adequado.

  2. Comente os resultados.

3.9 Correios per capita

  1. Faça um histograma da razão (número de agências de correio) / (população). Use o número de classes que você achar mais adequado.

  2. Comente os resultados.

3.10 Agências bancárias (públicas)

  1. Faça um histograma da quantidade de agências bancárias públicas. Use o número de classes que você achar mais adequado.

    Existem muitas cidades com zero agências públicas:

    cidades %>% 
      count(agencias_publ)

    Vamos ignorá-las:

    cidades %>% 
      filter(agencias_publ > 0) %>% 
      ggplot() +
        geom_histogram(aes(x = agencias_publ))
    ## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

    Ainda assim, a grande quantidade de cidades com só uma agência faz o histograma ficar não-interessante.

    Vamos fazer um histograma do logaritmo do número de agências.

    publicas <- cidades %>% 
      filter(agencias_publ > 0) %>% 
      mutate(log_publ = log(agencias_publ, 2)) %>% 
      ggplot() +
        geom_histogram(
          aes(x = log_publ),
          breaks = 0:10
        ) +
        scale_x_continuous(
          labels = function(x) 2^x,
          breaks = 0:10
        ) +
        labs(
          title = 'Quantidade de agências públicas',
          subtitle = '(escala logarítmica)',
          x = 'agências',
          y = NULL
        ) +
        ylim(0, 2500) +
        theme(axis.text.x = element_text(angle = 45))
    
    publicas

    Perceba como os rótulos do eixo \(x\) são as quantidades de agências, não os logaritmos.

  2. Compare com a distribuição de agências privadas.

    Veja a distribuição de agências privadas aqui.

    privadas + publicas

    Vamos ver alguma tabelas.

    Totais de agências:

    cidades %>% 
      summarize(
        privadas = sum(agencias_priv),
        públicas = sum(agencias_publ)
      )

    No total, existem mais agências de bancos privados!

    Quantidade de cidades atendidas:

    cidades %>% 
      summarize(
        privadas = sum(agencias_priv > 0),
        públicas = sum(agencias_publ > 0)
      )

    Existem mais cidades com pelo menos uma agência de banco público do que cidades com pelo menos uma agência de banco privado.

    Ou, comparando a quantidade de cidades sem agências:

    cidades %>% 
      summarize(
        sem_privadas = sum(agencias_priv == 0),
        sem_públicas = sum(agencias_publ == 0),
        sem_qualquer = sum(agencias_publ == 0 & agencias_priv == 0)
      )

    Lembre-se de que o total de cidades é

    nrow(cidades)
    ## [1] 5578

    Ou seja, cerca de \(40\%\) de cidades não têm agências bancárias, nem privadas, nem públicas!

    Aliás, existe alguma cidade que tenha agência privada, mas não pública? Quantas?

    cidades %>% 
      filter(
        agencias_priv > 0 & agencias_publ == 0
      ) %>% 
      select(cidade, estado, starts_with('agencias'))

    E existe alguma cidade que tenha agência pública, mas não privada? Quantas?

    cidades %>% 
      filter(
        agencias_priv == 0 & agencias_publ > 0
      ) %>% 
      select(cidade, estado, starts_with('agencias'))
  3. Comente os resultados.

    Comentários incluídos nas respostas acima.

3.11 Agências bancárias (públicas) per capita

  1. Faça um histograma da razão (número de agências bancárias públicas) / (população). Use o número de classes que você achar mais adequado.

    Existem muitas cidades com zero agências públicas:

    cidades %>% 
      count(agencias_publ)

    Vamos ignorá-las.

    publicaspc <- cidades %>% 
      filter(agencias_publ > 0) %>% 
      mutate(
        publicas_per_capita = agencias_publ / pop_resid
      ) %>% 
      ggplot() +
        geom_histogram(
          aes(x = publicas_per_capita),
          breaks = seq(0, .0009, .00005)
        ) +
        labs(
          title = 'Agências públicas per capita',
          x = 'agências',
          y = NULL
        ) +
        theme(axis.text.x = element_text(angle = 45))
    
    publicaspc
    ## Warning: Removed 1 rows containing non-finite values (stat_bin).

  2. Compare com a distribuição de agências privadas.

    privadaspc + publicaspc
    ## Warning: Removed 1 rows containing non-finite values (stat_bin).

    Para quase todos os valores de agências per capita, existem mais cidades com agências públicas do que cidades com agências privadas.

    Isto é consequência de que, no total, existem mais cidades atendidas por bancos públicos do que por bancos privados.

    Mas eu devia ter pedido um scatterplot de agências por população para um insight interessante.

    Aqui, descartamos as cidades com mais de \(3\) milhões de habitantes.

    cidades %>% 
      filter(
        agencias_priv > 0,
        agencias_publ > 0,
        pop_resid < 3e6
      ) %>% 
      ggplot() +
        geom_point(
          aes(
            x = pop_resid, 
            y = agencias_publ, 
            color = 'publ'
          ),
          alpha = .4
        ) +
        geom_smooth(
          aes(
            x = pop_resid, 
            y = agencias_publ, 
            color = 'publ'
          ),
          method = 'lm',
          se = FALSE
        ) +
        geom_point(
          aes(
            x = pop_resid, 
            y = agencias_priv, 
            color = 'priv'
          ),
          alpha = .2
        ) +
        geom_smooth(
          aes(
            x = pop_resid, 
            y = agencias_priv, 
            color = 'priv'
          ),
          method = 'lm',
          se = FALSE
        ) +
        scale_color_discrete(
          type = c('blue', 'red')
        ) +
        scale_x_continuous(
          breaks = seq(0, 3e6, .5e6),
          labels = scales::label_number(
            scale = 1e-6,
            suffix = 'M'
          )
        ) +
        labs(
          title = 'Agências bancárias por população',
          x = 'população',
          y = 'agências',
          color = NULL
        )
    ## `geom_smooth()` using formula 'y ~ x'
    ## `geom_smooth()` using formula 'y ~ x'

    As retas mostram como o número de agências aumenta à medida que a população aumenta.

    Para os bancos privados, o aumento é mais rápido.

    Em outras palavras: para uma mesma população, existem, em média, mais agências privadas do que públicas, e, quanto maior a população, maior a diferença.

  3. Comente os resultados.

    Comentários incluídos nas respostas acima.

3.12 Agências bancárias (privadas)

  1. Faça um histograma da quantidade de agências bancárias privadas. Use o número de classes que você achar mais adequado.

    Existem muitas cidades com zero agências privadas:

    cidades %>% 
      count(agencias_priv)

    Vamos ignorá-las:

    cidades %>% 
      filter(agencias_priv > 0) %>% 
      ggplot() +
        geom_histogram(aes(x = agencias_priv))
    ## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

    Ainda assim, a grande quantidade de cidades com só uma agência faz o histograma ficar não-interessante.

    Vamos fazer um histograma do logaritmo do número de agências.

    privadas <- cidades %>% 
      filter(agencias_priv > 0) %>% 
      mutate(log_priv = log(agencias_priv, 2)) %>% 
      ggplot() +
        geom_histogram(
          aes(x = log_priv),
          breaks = 0:10
        ) +
        scale_x_continuous(
          labels = function(x) 2^x,
          breaks = 0:10
        ) +
        labs(
          title = 'Quantidade de agências privadas',
          subtitle = '(escala logarítmica)',
          x = 'agências',
          y = NULL
        ) +
        ylim(0, 2500) +
        theme(axis.text.x = element_text(angle = 45))
    
    privadas

    Perceba como os rótulos do eixo \(x\) são as quantidades de agências, não os logaritmos.

  2. Compare com a distribuição de agências públicas.

    Veja a distribuição de agências públicas aqui.

    privadas + publicas

    Vamos ver alguma tabelas.

    Totais de agências:

    cidades %>% 
      summarize(
        privadas = sum(agencias_priv),
        públicas = sum(agencias_publ)
      )

    No total, existem mais agências de bancos privados!

    Quantidade de cidades atendidas:

    cidades %>% 
      summarize(
        privadas = sum(agencias_priv > 0),
        públicas = sum(agencias_publ > 0)
      )

    Existem mais cidades com pelo menos uma agência de banco público do que cidades com pelo menos uma agência de banco privado.

    Ou, comparando a quantidade de cidades sem agências:

    cidades %>% 
      summarize(
        sem_privadas = sum(agencias_priv == 0),
        sem_públicas = sum(agencias_publ == 0),
        sem_qualquer = sum(agencias_publ == 0 & agencias_priv == 0)
      )

    Lembre-se de que o total de cidades é

    nrow(cidades)
    ## [1] 5578

    Ou seja, cerca de \(40\%\) de cidades não têm agências bancárias, nem privadas, nem públicas!

    Aliás, existe alguma cidade que tenha agência privada, mas não pública? Quantas?

    cidades %>% 
      filter(
        agencias_priv > 0 & agencias_publ == 0
      ) %>% 
      select(cidade, estado, starts_with('agencias'))

    E existe alguma cidade que tenha agência pública, mas não privada? Quantas?

    cidades %>% 
      filter(
        agencias_priv == 0 & agencias_publ > 0
      ) %>% 
      select(cidade, estado, starts_with('agencias'))
  3. Comente os resultados.

3.13 Agências bancárias (privadas) per capita

  1. Faça um histograma da razão (número de agências bancárias privadas) / (população). Use o número de classes que você achar mais adequado.

    Existem muitas cidades com zero agências privadas:

    cidades %>% 
      count(agencias_priv)

    Vamos ignorá-las.

    privadaspc <- cidades %>% 
      filter(agencias_priv > 0) %>% 
      mutate(
        privadas_per_capita = agencias_priv / pop_resid
      ) %>% 
      ggplot() +
        geom_histogram(
          aes(x = privadas_per_capita),
          breaks = seq(0, .0009, .00005)
        ) +
        labs(
          title = 'Agências privadas per capita',
          x = 'agências',
          y = NULL
        ) +
        theme(axis.text.x = element_text(angle = 45)) +
        scale_y_continuous(
          breaks = seq(0, 1250, 250),
          limits = c(0, 1250)
        )
    
    privadaspc

  2. Compare com a distribuição de agências públicas.

    privadaspc + publicaspc
    ## Warning: Removed 1 rows containing non-finite values (stat_bin).

    Para quase todos os valores de agências per capita, existem mais cidades com agências públicas do que cidades com agências privadas.

    Isto é consequência de que, no total, existem mais cidades atendidas por bancos públicos do que por bancos privados.

    Mas eu devia ter pedido um scatterplot de agências por população para um insight interessante.

    Aqui, descartamos as cidades com mais de \(3\) milhões de habitantes.

    cidades %>% 
      filter(
        agencias_priv > 0,
        agencias_publ > 0,
        pop_resid < 3e6
      ) %>% 
      ggplot() +
        geom_point(
          aes(
            x = pop_resid, 
            y = agencias_publ, 
            color = 'publ'
          ),
          alpha = .4
        ) +
        geom_smooth(
          aes(
            x = pop_resid, 
            y = agencias_publ, 
            color = 'publ'
          ),
          method = 'lm',
          se = FALSE
        ) +
        geom_point(
          aes(
            x = pop_resid, 
            y = agencias_priv, 
            color = 'priv'
          ),
          alpha = .2
        ) +
        geom_smooth(
          aes(
            x = pop_resid, 
            y = agencias_priv, 
            color = 'priv'
          ),
          method = 'lm',
          se = FALSE
        ) +
        scale_color_discrete(
          type = c('blue', 'red')
        ) +
        scale_x_continuous(
          breaks = seq(0, 3e6, .5e6),
          labels = scales::label_number(
            scale = 1e-6,
            suffix = 'M'
          )
        ) +
        labs(
          title = 'Agências bancárias por população',
          x = 'população',
          y = 'agências',
          color = NULL
        )
    ## `geom_smooth()` using formula 'y ~ x'
    ## `geom_smooth()` using formula 'y ~ x'

    As retas mostram como o número de agências aumenta à medida que a população aumenta.

    Para os bancos privados, o aumento é mais rápido.

    Em outras palavras: para uma mesma população, existem, em média, mais agências privadas do que públicas, e, quanto maior a população, maior a diferença.

  3. Comente os resultados.

    Comentários incluídos nas respostas acima.

3.14 Áreas

  1. Faça um histograma das áreas das cidades. Use o número de classes que você achar mais adequado.

    Primeira tentativa:

    cidades %>% 
      ggplot() +
        geom_histogram(
          aes(area),
          bins = 100
        ) +
        labs(
          y = NULL,
          x = 'Área (km²)'
        )

    Existem muitas cidades com área pequena, e poucos com área grande. Uma boa chance de usar uma escala logarítmica:

    cidades %>% 
      ggplot() +
        geom_histogram(
          aes(area),
          bins = 50
        ) +
        scale_x_log10() +
        labs(
          title = 'Áreas (escala logarítmica)',
          y = NULL,
          x = 'Área (km²)'
        )
    ## Warning: Transformation introduced infinite values in continuous x-axis
    ## Warning: Removed 3 rows containing non-finite values (stat_bin).

    Podemos examinar apenas as cidades com área entre \(0\) e \(1000\) km² (com escala linear):

    cidades %>% 
      filter(between(area, 0, 1000)) %>% 
      ggplot() +
        geom_histogram(
          aes(area),
          breaks = seq(0, 1000, 100)
        ) +
        scale_x_continuous(
          breaks = seq(0, 1000, 100)
        ) +
        labs(
          title = 'Área (até 1000km²)',
          y = NULL,
          x = 'Área (km²)'
        )

  2. Comente os resultados.

    Alguns comentários incluídos nas respostas acima.

    A classe modal é entre \(100\) e \(200\) km².

3.15 Áreas (com facetas)

  1. Faça histogramas das áreas das cidades, facetados por região geográfica. Use o número de classes que você achar mais adequado. Você vai precisar da resposta desta questão.

  2. Comente os resultados.

3.16 Populações

  1. Faça um histograma das populações das cidades. Use o número de classes que você achar mais adequado.

    Primeira tentativa:

    cidades %>% 
      ggplot() +
        geom_histogram(
          aes(x = pop_resid)
        )
    ## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

    Usando escala logarítmica:

    cidades %>% 
      ggplot() +
        geom_histogram(
          aes(x = pop_resid)
        ) +
        scale_x_log10(
          labels = scales::number_format(
            scale = 1e-3,
            suffix = 'k'
          )
        ) +
        labs(
          title = 'Populações',
          y = NULL,
          x = 'população'
        )
    ## Warning: Transformation introduced infinite values in continuous x-axis
    ## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
    ## Warning: Removed 10 rows containing non-finite values (stat_bin).

    Vamos limitar a cidades de no máximo \(100\) mil habitantes, com escala linear:

    cidades %>% 
      filter(pop_resid < 1e5) %>% 
      ggplot() +
        geom_histogram(
          aes(x = pop_resid),
          breaks = seq(0, 1e5, 10000)
        ) +
        scale_x_continuous(
          breaks = seq(0, 1e5, 10000),
          labels = scales::number_format(
            scale = 1e-3,
            suffix = 'k'
          )
        ) +
        labs(
          title = 'Populações (até 100 mil)',
          y = NULL,
          x = 'população'
        )

  2. Comente os resultados.

    Há muito mais cidades com poucos habitantes.

    A classe modal é a de cidades com até \(10\) mil habitantes.

    A população mediana é

    cidades$pop_resid %>% median()
    ## [1] 10926,5

    o que diz que aproximadamente metade das cidades tem menos de \(11\) mil habitantes.

    Qual a população total destas cidades pequenas?

    cidades %>% 
      mutate(
        tamanho = case_when(
          pop_resid < 11000 ~ 'Pequenas',
          TRUE ~ 'Grandes'
        )
      ) %>% 
      group_by(tamanho) %>% 
      summarize(populacao = sum(pop_resid))

    Embora metade das cidades tenha \(11\) mil habitantes ou menos, sua população total é \(10\) vezes menor que a população total da outra metade.

3.17 Populações (com facetas)

  1. Faça histogramas das populações das cidades, facetados por região geográfica. Use o número de classes que você achar mais adequado. Você vai precisar da resposta desta questão.

  2. Comente os resultados.

3.18 PIB

  1. Faça um histograma do valor do PIB. Use o número de classes que você achar mais adequado.

  2. Comente os resultados.

3.19 PIB per capita

  1. Faça um histograma do valor do PIB per capita. Use o número de classes que você achar mais adequado.

    cidades %>% 
      ggplot() +
        geom_histogram(
          aes(x = pib_capita)
        ) +
        labs(
          y = NULL,
          x = 'PIB per capita (R$)'
        ) +
        scale_x_continuous(
          labels = scales::number_format(
            scale = 1e-3,
            suffix = 'k'
          )
        )
    ## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

    Em escala logarítmica:

    cidades %>% 
      ggplot() +
        geom_histogram(
          aes(x = pib_capita)
        ) +
        labs(
          title = 'PIB per capita (escala logarítmica)',
          y = NULL,
          x = 'PIB per capita (R$)'
        ) +
        scale_x_log10(
          labels = scales::number_format(
            scale = 1e-3,
            suffix = 'k'
          )
        )
    ## Warning: Transformation introduced infinite values in continuous x-axis
    ## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
    ## Warning: Removed 5 rows containing non-finite values (stat_bin).

    Restringindo a um valor máximo:

    cidades %>% 
      filter(pib_capita < 1e5) %>% 
      ggplot() +
        geom_histogram(
          aes(x = pib_capita),
          breaks = seq(0, 1e5, 1e4)
        ) +
        labs(
          title = 'PIB per capita (até 100 mil)',
          y = NULL,
          x = 'PIB per capita (R$)'
        ) +
        scale_x_continuous(
          breaks = seq(0, 1e5, 1e4),
          labels = scales::number_format(
            scale = 1e-3,
            suffix = 'k'
          )
        )

  2. Comente os resultados.

    É uma distribuição assimétrica, com uma longa cauda à direita.

    A classe modal é entre \(10\) e \(20\) mil reais.

3.20 Telefones fixos per capita (com facetas)

  1. Faça histogramas das quantidades de telefones fixos per capita, facetados por região geográfica. Use o número de classes que você achar mais adequado. Você vai precisar da resposta desta questão.

  2. Comente os resultados.

3.21 Assinaturas de TV per capita (com facetas)

  1. Faça histogramas das quantidades de assinaturas de TV por assinatura per capita, facetados por região geográfica. Use o número de classes que você achar mais adequado. Você vai precisar da resposta desta questão.

  2. Comente os resultados.

3.22 PIB e atividade principal

  1. Faça boxplots lado a lado (no mesmo gráfico, sem facetar) do PIB, com um boxplot para cada atividade principal. Faça com que os boxplots sejam horizontais, para facilitar a leitura dos nomes das atividades.

  2. Comente os resultados.

3.23 PIB per capita e atividade principal

  1. Faça boxplots lado a lado (no mesmo gráfico, sem facetar) do PIB per capita, com um boxplot para cada atividade principal. Faça com que os boxplots sejam horizontais, para facilitar a leitura dos nomes das atividades.

    Primeira tentativa:

    cidades %>% 
      ggplot() +
        geom_boxplot(
          aes(x = atividade_principal, y = pib_capita)
        ) +
      coord_flip()

    Vamos abreviar os nomes das atividades:

    cidades %>% 
      mutate(
        atividade_principal = word(atividade_principal, end = 5)
      ) %>% 
      ggplot() +
        geom_boxplot(
          aes(x = atividade_principal, y = pib_capita)
        ) +
        labs(
          title = 'PIB per capita por atividade principal',
          y = 'PIB per capita',
          x = NULL
        ) +
        coord_flip()

    Podemos usar uma escala logarítmica:

    cidades %>% 
      mutate(
        atividade_principal = word(atividade_principal, end = 5)
      ) %>% 
      ggplot() +
        geom_boxplot(
          aes(x = atividade_principal, y = pib_capita)
        ) +
        scale_y_log10() +
        labs(
          title = 'PIB per capita por atividade principal',
          subtitle = '(escala logarítmica)',
          y = 'PIB per capita',
          x = NULL
        ) +
        coord_flip()
    ## Warning: Transformation introduced infinite values in continuous y-axis
    ## Warning: Removed 5 rows containing non-finite values (stat_boxplot).

  2. Comente os resultados.

    As atividades associadas ao maior PIB per capita mediano são (1) eletricidade, gás, água e esgoto e (2) comércio e reparação de veículos.

    As atividades associadas ao menor PIB per capita mediano são administração, defesa, educação e saúde.

3.24 Hotéis e categoria de turismo

  1. Faça boxplots lado a lado (no mesmo gráfico, sem facetar) da quantidade de hotéis, com um boxplot para cada categoria de turismo.

    cidades %>% 
      ggplot() +
        geom_boxplot(
          aes(x = fct_rev(categoria_turismo), y = hoteis)
        ) +
        labs(
          title = 'Quantidade de hotéis por categoria de turismo',
          x = 'categoria de turismo'
        )

  2. Comente os resultados.

    Como era de se esperar, a quantidade de hotéis é muito maior em cidades da categoria A.

3.25 Populações por região

  1. Faça boxplots lado a lado (no mesmo gráfico, sem facetar) das populações, com um boxplot para cada região geográfica. Você vai precisar da resposta desta questão.

  2. Comente os resultados.

3.26 Densidade demográfica por região

  1. Faça boxplots lado a lado (no mesmo gráfico, sem facetar) das densidades demográficas, com um boxplot para cada região geográfica. Você vai precisar da resposta desta questão.

  2. Comente os resultados.

3.27 Carros per capita por tipo de cidade

  1. Faça boxplots lado a lado (no mesmo gráfico, sem facetar) da quantidade de carros per capita, com um boxplot para cada tipo de cidade.

  2. Comente os resultados.

3.28 Motos per capita por tipo de cidade

  1. Faça boxplots lado a lado (no mesmo gráfico, sem facetar) da quantidade de motos per capita, com um boxplot para cada tipo de cidade.

    cidades %>% 
      filter(pop_resid > 0) %>% 
      mutate(mpc = motos / pop_resid) %>% 
      ggplot() +
        geom_boxplot(aes(x = tipo, y = mpc)) +
        scale_x_discrete(
          labels = function(x) {
            str_split(x, ' ') %>% 
              map_chr(paste, collapse = '\n')
          }
        ) +
        labs(
          title = 'Motos per capita por tipo de cidade',
          x = 'tipo de cidade',
          y = 'motos\nper capita'
        )

  2. Comente os resultados.

    Medianas semelhantes.

    Sem outliers em cidades do tipo intermediário remoto — que, ironicamente, têm a maior variabilidade (em termos do IQR).

3.29 Tratores per capita por tipo de cidade

  1. Faça boxplots lado a lado (no mesmo gráfico, sem facetar) da quantidade de tratores per capita, com um boxplot para cada tipo de cidade.

  2. Comente os resultados.

3.30 Hotéis e Uber

  1. Faça boxplots lado a lado (no mesmo gráfico, sem facetar) da quantidade de hotéis, com um boxplot para cada valor de uber.

  2. Comente os resultados.

3.31 PIB per capita e Uber

  1. Faça boxplots lado a lado (no mesmo gráfico, sem facetar) do valor do PIB per capita, com um boxplot para cada valor de uber.

  2. Comente os resultados.

3.32 Cidades por região geográfica

  1. Faça um gráfico de barras das quantidades de cidades, com uma barra por região. Você vai precisar da resposta desta questão.

    cidades %>% 
      ggplot() +
        geom_bar(
          aes(x = regiao)
        ) +
        labs(
          title = 'Quantidade de cidades por região geográfica',
          y = NULL
        )

  2. Use a função fct_reorder para dispor as barras em ordem decrescente de altura.

    cidades %>% 
      ggplot() +
        geom_bar(
          aes(
            x = fct_reorder(
              regiao, 
              cidade, 
              .fun = length, 
              .desc = TRUE
            )
          )
        ) +
        labs(
          title = 'Quantidade de cidades por região geográfica',
          y = NULL,
          x = 'região'
        )

  3. Em outro gráfico, use a função fct_reorder para dispor as barras em ordem crescente de altura.

    cidades %>% 
      ggplot() +
        geom_bar(
          aes(
            x = fct_reorder(
              regiao, 
              cidade, 
              .fun = length
            )
          )
        ) +
        labs(
          title = 'Quantidade de cidades por região geográfica',
          y = NULL,
          x = 'região'
        )

  4. Comente os resultados.

    Quais são as áreas totais das regiões?

    cidades %>% 
      group_by(regiao) %>% 
      summarize(area = sum(area)) %>% 
      arrange(area)

    A região Norte tem a maior área, mas o menor número de cidades.

    A região Centro-Oeste tem a segunda maior área, mas o segundo menor número de cidades.

    As outras regiões seguem a mesma ordem, tanto em área quanto em número de cidades.

3.33 Populações por região geográfica

  1. Faça um gráfico de barras das populações totais, com uma barra por região. Você vai precisar da resposta desta questão.

    cidades %>% 
      ggplot() +
        geom_col(
          aes(x = regiao, y = pop_resid)
        ) +
        scale_y_continuous(
          labels = scales::number_format(
            scale = 1e-6,
            suffix = 'M'
          )
        ) +
        labs(
          title = 'População total por região geográfica',
          x = 'região',
          y = 'população'
        )

  2. Use a função fct_reorder para dispor as barras em ordem decrescente de altura.

    cidades %>% 
      ggplot() +
        geom_col(
          aes(
            x = fct_reorder(
              regiao,
              pop_resid,
              sum,
              .desc = TRUE
            ), 
            y = pop_resid
          )
        ) +
        scale_y_continuous(
          labels = scales::number_format(
            scale = 1e-6,
            suffix = 'M'
          )
        ) +
        labs(
          title = 'População total por região geográfica',
          x = 'região',
          y = 'população'
        )

  3. Em outro gráfico, use a função fct_reorder para dispor as barras em ordem crescente de altura.

    cidades %>% 
      ggplot() +
        geom_col(
          aes(
            x = fct_reorder(
              regiao,
              pop_resid,
              sum
            ), 
            y = pop_resid
          )
        ) +
        scale_y_continuous(
          labels = scales::number_format(
            scale = 1e-6,
            suffix = 'M'
          )
        ) +
        labs(
          title = 'População total por região geográfica',
          x = 'região',
          y = 'população'
        )

  4. Comente os resultados.

    A região Sudeste é, de longe, a mais populosa, seguida da região Nordeste.

    A região Centro-Oeste é (um pouco) menos populosa do que a região Norte, ao contrário do que eu esperava.

    É interessante comparar com o gráfico dos PIBs totais por região e constatar que, com exceção do primeiro lugar, toda a ordenação muda.

3.34 PIB por região geográfica

  1. Faça um gráfico de barras dos PIBs totais, com uma barra por região. Você vai precisar da resposta desta questão.

    cidades %>% 
      ggplot() +
        geom_col(
          aes(x = regiao, y = pib)
        ) +
        scale_y_continuous(
          labels = scales::number_format(
            scale = 1e-9,
            suffix = 'B'
          )
        ) +
        labs(
          title = 'PIB por região geográfica',
          x = 'região',
          y = 'PIB'
        )

  2. Use a função fct_reorder para dispor as barras em ordem decrescente de altura.

    cidades %>% 
      ggplot() +
        geom_col(
          aes(
            x = fct_reorder(
              regiao,
              pib,
              sum,
              .desc = TRUE
            ), 
            y = pib
          )
        ) +
        scale_y_continuous(
          labels = scales::number_format(
            scale = 1e-9,
            suffix = 'B'
          )
        ) +
        labs(
          title = 'PIB por região geográfica',
          x = 'região',
          y = 'PIB'
        )

  3. Em outro gráfico, use a função fct_reorder para dispor as barras em ordem crescente de altura.

    cidades %>% 
      ggplot() +
        geom_col(
          aes(
            x = fct_reorder(
              regiao,
              pib,
              sum
            ), 
            y = pib
          )
        ) +
        scale_y_continuous(
          labels = scales::number_format(
            scale = 1e-9,
            suffix = 'B'
          )
        ) +
        labs(
          title = 'PIB por região geográfica',
          x = 'região',
          y = 'PIB'
        )

  4. Comente os resultados.

    A ordenação é óbvia.

    É interessante comparar com o gráfico das populações totais por região e constatar que, com exceção do primeiro lugar, toda a ordenação muda.

3.35 Produção rural por região geográfica

  1. Faça um gráfico de barras das produções rurais totais, com uma barra por região. Você vai precisar da resposta desta questão.

  2. Use a função fct_reorder para dispor as barras em ordem decrescente de altura.

  3. Em outro gráfico, use a função fct_reorder para dispor as barras em ordem crescente de altura.

  4. Comente os resultados.

3.36 Faixas etárias

  1. Faça um gráfico de barras da população brasileira, com uma barra por faixa etária.

  2. Use a função fct_reorder para dispor as barras em ordem decrescente de altura.

  3. Em outro gráfico, use a função fct_reorder para dispor as barras em ordem crescente de altura.

  4. Em qual ordem você acha que as barras devem aparecer? Por quê?

  5. Comente os resultados.

3.37 Faixas etárias por região geográfica

  1. Faça um gráfico de barras da população brasileira, com um conjunto de barras para cada região. Você vai precisar da resposta desta questão.

    Veja abaixo.

  2. Cada conjunto deve ter \(6\) barras lado a lado, uma para cada faixa etária. Use o argumento dodge na geometria adequada.

    df_faixas <- cidades %>% 
      pivot_longer(
        cols = starts_with('pop_regular_'),
        names_to = 'faixa',
        names_prefix = 'pop_regular_',
        values_to = 'pop'
      ) %>% 
      mutate(
        faixa = case_when(
          faixa == '1' ~ 'até 1',
          faixa == '1_4' ~ '1 a 4',
          faixa == '5_9' ~ '5 a 9',
          faixa == '10_14' ~ '10 a 14',
          faixa == '15_59' ~ '15 a 59',
          faixa == '60_mais' ~ '60 ou mais'
        )
      ) %>% 
      mutate(
        faixa = factor(
          faixa,
          levels = unique(faixa),
          ordered = TRUE
        )
      ) %>% 
      select(cidade, regiao, faixa, pop)
    
    df_faixas
    df_faixas %>% 
      ggplot() +
        geom_col(
          aes(x = regiao, y = pop, fill = faixa),
          position = 'dodge'
        ) +
        labs(
          title = 'População por região, por faixa etária',
          x = 'região',
          y = NULL,
          fill = NULL
        ) +
        scale_y_continuous(
          labels = scales::label_number(
            scale = 1e-6,
            suffix = 'M'
          )
        )

  3. Comente os resultados.

    Perceba que as faixas etárias têm larguras diferentes.

    As únicas comparações razoáveis são entre \(1\) a \(4\), \(5\) a \(9\), e \(10\) a \(14\), que têm larguras aproximadamente iguais.

    Em todas as regiões, há mais pessoas da faixa \(10\) a \(14\) do que das faixas mais jovens.

    As regiões Centro-Oeste e Norte são as únicas onde há menos idosos do que jovens de \(10\) a \(14\).

3.38 Faixas etárias por região geográfica, proporções

  1. Faça um gráfico de barras da população brasileira, com uma barra por região. Você vai precisar da resposta desta questão.

    Veja abaixo.

  2. Todas as barras devem ser da mesma altura, e o eixo \(y\) deve ir de \(0\) até \(1\), representando proporções.

    Veja abaixo.

  3. Cada barra deve ser subdividida em faixas horizontais de cores diferentes, uma faixa colorida para cada faixa etária, de acordo com as proporções de cada faixa etária em cada região.

    df_faixas <- cidades %>% 
      pivot_longer(
        cols = starts_with('pop_regular_'),
        names_to = 'faixa',
        names_prefix = 'pop_regular_',
        values_to = 'pop'
      ) %>% 
      mutate(
        faixa = case_when(
          faixa == '1' ~ 'até 1',
          faixa == '1_4' ~ '1 a 4',
          faixa == '5_9' ~ '5 a 9',
          faixa == '10_14' ~ '10 a 14',
          faixa == '15_59' ~ '15 a 59',
          faixa == '60_mais' ~ '60 ou mais'
        )
      ) %>% 
      mutate(
        faixa = factor(
          faixa,
          levels = unique(faixa),
          ordered = TRUE
        )
      ) %>% 
      select(cidade, regiao, faixa, pop)
    
    df_faixas
    df_faixas %>% 
      ggplot() +
        geom_col(
          aes(x = regiao, y = pop, fill = fct_rev(faixa)),
          position = 'fill'
        ) +
        labs(
          title = 'População por região, por faixa etária',
          subtitle = '(proporções)',
          x = 'região',
          y = NULL,
          fill = NULL
        )

  4. Comente os resultados.

    As proporções são semelhantes entre as regiões.

    A região Norte tem a menor proporção de idosos, e a maior proporção de pessoas até \(14\) anos.

    As regiões Sul e Sudeste têm a maior proporção de idosos.

3.39 Faixas etárias por tipo de cidade

  1. Faça um gráfico de barras da população brasileira, com um conjunto de barras para cada tipo de cidade.

    Veja abaixo.

  2. Cada conjunto deve ter \(6\) barras lado a lado, uma para cada faixa etária. Use o argumento dodge na geometria adequada.

    df_faixas <- cidades %>% 
      pivot_longer(
        cols = starts_with('pop_regular_'),
        names_to = 'faixa',
        names_prefix = 'pop_regular_',
        values_to = 'pop'
      ) %>% 
      mutate(
        faixa = case_when(
          faixa == '1' ~ 'até 1',
          faixa == '1_4' ~ '1 a 4',
          faixa == '5_9' ~ '5 a 9',
          faixa == '10_14' ~ '10 a 14',
          faixa == '15_59' ~ '15 a 59',
          faixa == '60_mais' ~ '60 ou mais'
        )
      ) %>% 
      mutate(
        faixa = factor(
          faixa,
          levels = unique(faixa),
          ordered = TRUE
        )
      ) %>% 
      select(cidade, tipo, faixa, pop)
    
    df_faixas
    df_faixas %>% 
      ggplot() +
        geom_col(
          aes(x = tipo, y = pop, fill = faixa),
          position = 'dodge'
        ) +
        labs(
          title = 'População por tipo de cidade, por faixa etária',
          x = 'tipo de cidade',
          y = NULL,
          fill = NULL
        )

    A população de cidades do tipo urbano é tão grande que os outros tipos ficam quase invisíveis.

    Veja a próxima questão, que resolve este problema mostrando as proporções das diversas faixas etárias.

    Vamos excluir o tipo urbano do gráfico:

    df_faixas %>% 
      filter(tipo != 'Urbano') %>% 
      ggplot() +
        geom_col(
          aes(x = tipo, y = pop, fill = faixa),
          position = 'dodge'
        ) +
        labs(
          title = 'População por tipo de cidade, por faixa etária',
          subtitle = 'exceto centros urbanos',
          x = 'tipo de cidade',
          y = NULL,
          fill = NULL
        )

    Vamos melhorar os rótulos do eixo \(x\) e ignorar as cidades sem classificação:

    df_faixas %>% 
      filter(tipo != 'Urbano') %>% 
      filter(tipo != 'Sem classificação') %>% 
      ggplot() +
        geom_col(
          aes(x = tipo, y = pop, fill = faixa),
          position = 'dodge'
        ) +
        labs(
          title = 'População por tipo de cidade, por faixa etária',
          subtitle = 'exceto centros urbanos',
          x = 'tipo de cidade',
          y = NULL,
          fill = NULL
        ) +
        scale_x_discrete(
          labels = function(x) {
            str_split(x, ' ') %>% 
              map_chr(paste, collapse = '\n')
          }
        )

  3. Comente os resultados.

    Os centros urbanos têm uma população muito maior do que os outros tipos de cidade.

    Cidades do tipo urbano e intermediário adjacente parecem ter uma proporção significativamente maior de pessoas entre \(15\) a \(59\) anos.

3.40 Faixas etárias por tipo de cidade, proporções

  1. Faça um gráfico de barras da população brasileira, com uma barra por tipo de cidade.

    Veja abaixo.

  2. Todas as barras devem ser da mesma altura, e o eixo \(y\) deve ir de \(0\) até \(1\), representando proporções.

    Veja abaixo.

  3. Cada barra deve ser subdividida em faixas horizontais de cores diferentes, uma faixa colorida para cada faixa etária, de acordo com as proporções de cada faixa etária em cada tipo de cidade.

    df_faixas <- cidades %>% 
      pivot_longer(
        cols = starts_with('pop_regular_'),
        names_to = 'faixa',
        names_prefix = 'pop_regular_',
        values_to = 'pop'
      ) %>% 
      mutate(
        faixa = case_when(
          faixa == '1' ~ 'até 1',
          faixa == '1_4' ~ '1 a 4',
          faixa == '5_9' ~ '5 a 9',
          faixa == '10_14' ~ '10 a 14',
          faixa == '15_59' ~ '15 a 59',
          faixa == '60_mais' ~ '60 ou mais'
        )
      ) %>% 
      mutate(
        faixa = factor(
          faixa,
          levels = unique(faixa),
          ordered = TRUE
        )
      ) %>% 
      select(cidade, tipo, faixa, pop)
    
    df_faixas
    df_faixas %>% 
      ggplot() +
        geom_col(
          aes(x = tipo, y = pop, fill = fct_rev(faixa)),
          position = 'fill'
        ) +
        labs(
          title = 'População por tipo de cidade, por faixa etária',
          subtitle = '(proporções)',
          x = 'tipo de cidade',
          y = NULL,
          fill = NULL
        )
    ## Warning: Removed 60 rows containing missing values (geom_col).

    Vamos melhorar os rótulos do eixo \(x\) e ignorar as cidades sem classificação:

    df_faixas %>% 
      filter(tipo != 'Sem classificação') %>% 
      ggplot() +
        geom_col(
          aes(x = tipo, y = pop, fill = fct_rev(faixa)),
          position = 'fill'
        ) +
        labs(
          title = 'População por tipo de cidade, por faixa etária',
          subtitle = '(proporções)',
          x = 'tipo de cidade',
          y = NULL,
          fill = NULL
        ) +
        scale_x_discrete(
          labels = function(x) {
            str_split(x, ' ') %>% 
              map_chr(paste, collapse = '\n')
          }
        )

  4. Comente os resultados.

    Proporcionalmente. há mais idosos em cidades de tipos urbano, intermediário adjacente e rural adjacente.

    Proporcionalmente. há mais jovens em cidades de tipos intermediário remoto e rural remoto.

4 Mapa interativo

4.1 Marcadores

  1. Leia algum tutorial sobre o pacote leaflet:

  2. Escolha qualquer uma das questões do tipo “Quais as \(10\) cidades…”, na seção de análise exploratória.

  3. Resolva a questão e modifique o código abaixo para criar marcadores mostrando as cidades da resposta, rotulados com os nomes das cidades (use o argumento label).

  4. Quando o usuário clicar o mouse sobre a cidade, deve aparecer a informação relevante pedida pela questão (use o argumento popup).

  5. Acrescente outras informações que você achar importantes — por exemplo, a classificação da cidade na ordenação que a questão pede.

    library(leaflet)
    
    # Um exemplo, apenas. Substitua com a tibble da sua resposta:
    df <- cidades %>% 
      filter(
        cidade %in% c('Manaus', 'Brasília', 'Porto Alegre')
      )
    
    # O mapa:
    leaflet(df) %>% 
      setView(
        lng = mean(df$longitude), 
        lat = mean(df$latitude),
        zoom = 4
      ) %>% 
      addTiles() %>% 
      addMarkers()
    ## Assuming "longitude" and "latitude" are longitude and latitude, respectively
  6. Faça um segundo mapa interativo com marcadores para as cidades que satisfazem algum critério que você ache interessante. Use a imaginação.

