Analisando os Dados do Airbnb para Suas Próximas Férias

Aprenda como analisar o destino da sua próxima viagem usando Python

Leon Bueno by Data Pack
Data Pack

--

Não podemos começar essa artigo sem uma breve introdução sobre o que é o Airbnb, apesar de que essa empresa atingiu um patamar que é difícil encontrar alguém que ainda não tenha escutado nada sobre essa empresa, de qualquer forma é bom para contextualizarmos o leitor.

O Airbnb é a maior empresa hoteleira da atualidade e o detalhe é que eles não possuem um hotel sequer. Mas como isso funciona? Simples, se você possui um imóvel que esta vazio é só você se tornar um host no site, anuncia-lo e esperar seus hospedes novos. De acordo com o site Iproperty, a empresa possui mais de 150 milhões de usuários ao redor do mundo.

Legal né! Outro fato interessante sobre essa tecnológica rede de hotel é que eles disponibilizam os dados deles em um site chamado Inside Airbnb, para os amantes dos dados o dedo já começou a coçar para dar uma explorada lá né? Calma! Foi pensando nisso que resolvi criar esse tutorial para para que você possa replicar isso para qualquer viagem futura, aqui não vou colar todos os passos, apenas partes, isso para não tornar a leitura muito técnica, para os ratos de código, encontrem o notebook nesse link.

Fiquem comigo pois no final do artigo tem um plus na analise que separei para vocês

A cidade que escolhi para o nosso artigo foi Chicago. Essa cidade americana é a mais populosa do estado de Illinois. Sua área metropolitana possui o 4º maior Produto Interno Bruto do país, além de uma excelente qualidade de vida, esta localizada as margens do lago de Michigan o que traz um certo charme irresistivel para o lugar.

Photo by Max Bender on Unsplash

Agora chega de papo e vamos começar, após importarmos as bibliotecas necessarias, acessei o inside Airbnb e peguei o dataset listings.csv para Chicago, esse set de dados é um pouco mais resumido, ideal para a nossa analise, se vizualizarmos essse dataset encontraremos algo assim:

Temos algumas informações interessantes aqui como, longitude e latitude, bairro, tipo de imovel, preço, minimo de noites entre outros. Chequei os valores nulos e não temos nada que possa prejudicar nosso trabalho aqui, sendo assim, temos um ótimo data set em mãos, obrigado Airbnb!!!

Agora vou me concentrar em algo que pode sim ser um problema, mas isso em qualquer dataset, os Outliers, para isso vou pedir ajuda da minha função .describe:

Destaquei os principais pontos que achamos aqui, vou me concentrar na primeira coluna, que refere-se ao preço por noite. Convenhamos quem vai ser o louco que vai pagar 9.999 doletas em uma noite de Airbnb, alem do mais a grafia dos numeros nos faz suspeitar de um erro, outro fator interessante a ser observado aqui é o desvio padrão (sd), 346 é muito alto, o que indica que nossos dados estão dispersando à média, o que tambem é confirmado pelo fato de 75% dos nossos preços figurarem até US$ 199,00. vamos ver se isso se confirma no boxplot:

Exatamente o que esperavamos! Temos muitos outliers nesse dataset, vou me concentrar no preço, e um dos metodos de lidar com esses dados que enviesam nossas analises é elimina-los, para isso cirei uma dataset auxliar contendo informações de residencias com preço de até US$ 199, ou seja, 75% dos nosso dados. Rodando o box-plot novamente chegamos a esse resultado:

ADICIONAR TITULO

Legal, diminuimos o efeitos dos outliers no nosso set de dados. Agora vou partir para uma análise por bairros, creio que dessa variável conseguimos extrair boas informações. Vamos la!

Temos 77 bairros com pelo menos 1 airbnb disponivel, considerando que a cidade tem 77 bairros podemos supor que hoje o airbnb atende 100% do territorio da cidade. E os top bairros com mais imoveis são esses listados

Bom… baseado nessa tabela dos top bairros creio que seria interessante escolhermos algum lugar para ficar em um desses três primeiros bairros, mas onde sera que eles ficam? Notei que no nosso data set disponibilizado pelo Airbnb temos latitude e longitude, com isso vou pedir para o Pyrhon nos ajudar com esse trabalho.

Pronto! esse é o mapa, se tivessemos que escolher um lugar realmente seria no lado norte da cidade proximo a costa, mais movimentado, me parece um ótimo lugar para turismo, afinal, mais pessoas, mais atrações.

É isso, com uma pequena analise de dados usando python e dados publicos disponibilizados pelo Airbnb escolhemos creio que podemos ter uma boa noção de onde ficar e onde não ficar. Obvio que só isso não basta, temos que ler muitos blogs ainda e comprar alguns tickets para aproveitar as férias, porem, creio que esse é um bom começo!

BONUS

Pensei em seguir em frente e buscar algo a mais sobre a cidade, e que tal tentar saber o que esta rolando na cidade puxando uns dadoso do Twitter?

Resolvi gerar uma nuvem de palavras com os ultimos tweets que possuiam a palavra Chicago. Bem, confesso que não consegui extrair muita coisa a mais, exxeto que um cantor K-pop chamado Huenigkai estava fazendo um show por la e que Star é uma empresa de mídia local hahaha, maas, valeu o exercício, veja abaixo a nuvem de palavras gerada com o formato do famoso feijão de Chicago!

É isso pessoal, para quem quer ver um pouquinho mais do código deixo o link para o notebook nesse artigo.

Gostou do artigo? Me siga no Instagram Data Pack

--

--