Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Oh my Python! Data Science e o Titanic Pt.1

Oh my Python! Data Science e o Titanic Pt.1

Izabela Borges

December 13, 2017
Tweet

More Decks by Izabela Borges

Other Decks in Programming

Transcript

  1. Who Am I [email protected] Izabela Borges - 7!º período da

    Ciência da Computação - Estagiária de QA na Base2 - Pessoa que faz milhões de cursos - Todos eles de Data Science e Machine Learning - Python
  2. Kaggle O Kaggle é um site que disponibiliza datasets de

    saúde, ciência e governos e facilita competições de análises de dados e predições.
  3. Data Harvesting Data Wrangling Data Analisys Visualiza -tion Machine Learning

    Crawling Web Scraping APIs Jupyter Notebooks Pandas Numpy Seaborn Matplotlib Bokeh Scikit- Learn PyBrain Scipy NLTK Statsmodels
  4. Harvesting Dentro da ciência de dados, o Harvesting é o

    ato de buscar os seus dados, que podem estar disponíveis em formatos diferentes. Os formatos mais bem aceitos atualmente são .csv, e JSON; pois facilitam muito a manipulação posterior dos dados. Porém nem sempre os seus dados estarão disponíveis em um formato que facilite o seu trabalho. Na maioria das vezes eles estarão em um .pdf ou em uma página .html e por isso você vai precisar de técnicas de crawling e scraping para obter seus dados.
  5. Harvesting Para a obtenção dos dados a partir de páginas

    web você geralmente utiliza técnicas de crawling e scraping com ajuda das bibliotecas scrapy e beautifulsoup4. Para a obtenção dos dados a partir de um documento não convencional você acaba fazendo um parser utilizando padrões e regex, mas isso é bem chato e demorado. E é para resolver esse problema que vem um pacote chamado rows. Ele serve para a conversão da maioria dos formatos não convencionais para um .csv
  6. The Titanic O R M S T i t a

    n i c f o i u m n a v i o d e passageiros britânico operado pela White Star Line e foi pensado para ser o navio mais luxuoso e mais seguro de sua época, gerando lendas que era supostamente “inafundável". Em 15 de Abril de 1912 , o Titanic afundou depois de colidir com um iceberg, matando 1502 dos seus 2224 passageiros e equipe.
  7. Titanic Dataset Os dados estão divididos entre: - conjunto de

    treino (train.csv) - conjunto de teste (test.csv) Em um problema de análise e ciência dos dados você sempre divide o seu conjunto total em conjunto de treino e conjunto de teste. Isso é feito para que o seu modelo não seja enviesado e não acabe decorando dados.
  8. Titanic Dataset Os dados estão disponíveis em: - conjunto inteiro

    (whole.csv) - conjunto de treino (train.csv) - conjunto de teste (test.csv)
  9. HARD Coding Para isso nós vamos primeiramente utilizar apenas condicionais.

    Utilizando só if’s e else’s vocês vão aprender a entender os dados e a manipulá- los diante a sua necessidade, antes que possamos passar para o data science de fato.
  10. Packages P a r a i s s o v

    o c ê i r á u t i l i z a r essencialmente apenas os pacotes Numpy, Pandas e Matplotlib.
  11. Packages - Pandas cheat sheet: pdf html - Pandas series

    playground: py - Pandas dataframes playground: py - Pandas indexes playground: py - Numpy cheat sheet: pdf html - Pandas playground: py - Matplotlib cheat sheet: pdf html
  12. Analyzing Nesse momento é preciso entender nossos dados. Não é

    preciso ler os dados um a um para entendê-los, mas você precisa de um contexto para a sua predição. Como era aquela época? Qual o método de evasão de acidentes desse porte? Quais c a r a c t e r í s t i c a s d o s s e u s d a d o s s ã o relevantes para o problema?