Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Sterrenstelsels klasseren

Sterrenstelsels klasseren

Presentatie voor Vendelinus, Genk, 12 april 2014. Trefwoorden: sterrenkunde, astronomie, classificatie, SDSS, Galaxy Zoo, Kaggle.

Bart Buelens

April 12, 2014
Tweet

More Decks by Bart Buelens

Other Decks in Science

Transcript

  1. • Door zwaartekracht samengehouden systeem van sterren, planeten, gas, stof,

    donkere materie, … • Melkweg: ong. 200 miljard sterren • Ong. 100 miljard sterrenstelsels in zichtbaar heelal Sterrenstelsels
  2. Vorming & evolutie • Spiraalstelsels: veel interstellair stof, actieve stervorming

    > < elliptische stelsels • Ong. 40% zijn elliptisch • Spiraalstelsels jong, elliptische oud? • Elliptische ontstaan door botsingen van spiraalstelsels? (bijv. Melkweg – Andromeda botsing over 5 mld. jaar) • Veel sterrenstelsels bestuderen kan nieuwe inzichten opleveren
  3. Sloan Digital Sky Survey • Met 2,5m telescoop, Apache Pt

    Observatory, New Mexico (VS) • Waarnemingen sinds 2000 • Ong. 35% van hemel • 500 miljoen objecten • Fotometrisch en spectroscopisch • Veel sterrenstelsels waargenomen • Morfologie te bepalen…. hoe?
  4. Galaxy Zoo • Citizen Science project • Klasseren van tienduizenden

    sterrenstelsels waargenomen via SDSS • Elke foto door tientallen mensen beoordeeld • “Wijsheid van het volk” • Volgens experten zeer goede resultaten • Voor elke foto aantal vragen beantwoorden
  5. Kaggle wedstrijd • Kaggle.com organiseert wedstrijden rond data analyse, o.a.

    deze, over sterrenstelsels: • Klasseer sterrenstelsels automatisch zoals een groep mensen dat zou doen • Of: schrijf een computerprogramma dat de Galaxy Zoo antwoorden nabootst • Waarom? Mensen dit werk laten doen is op termijn onhoudbaar; menselijke classificaties zijn te gebruiken om een automatisch systeem te trainen
  6. Wedstrijd details • Eerste prijs 10.000$ (2de en 3de 4.000$

    en 2.000$) • Van 20 december 2013 tot 4 April 2014 • Gegeven: 1/ 61.578 JPG afbeeldingen van sterrenstelsels, met daarbij de antwoorden op de 11 vragen van Galaxy Zoo (% mensen dat elk antwoord koos) 2/ 79.975 JPG afbeeldingen waarvoor deelnemers zelf die percentages moeten voorspellen
  7. Opzet • Gebruik de training set om een algoritme te

    zoeken dat de percentages bepaalt • Pas dit algoritme toe op de onbekende afbeeldingen, de test set • Score = gemiddelde kwadratische fout van de voorspelde percentages t.o.v. de bij de organisatie bekende echte percentages • Een inzending = bestand met 79.975 lijnen met op elke lijn 37 getallen: de percentages
  8. Praktisch • Intel Quad Core i5 2,3 GHz; 4 GB

    RAM; Win7 • Open Source software “R” • Alleen bestaande routines gebruiken, via zogenaamde packages
  9. Stap 1: kenmerken afleiden • Van afbeelding naar kenmerken (features)

    • Elke afbeelding 424 x 424 pixels, drie kleurkanalen RGB: 539.328 getallen • Zowel voor training als test afbeeldingen, samen 140 duizend afbeeldingen • Eerst sterrenstelsel afbakenen, dan bepalen van omtrek, oppervlakte, intensiteit, textuur, etc. • Van alle kenmerken ook kwadraat en logaritme • Uiteindelijk 150 kenmerken per afbeelding
  10. Stap 2: groeperen • Clusteren, m.b.v. nearest neighbour methode •

    Onderscheid 30 clusters van sterrenstelsels die op elkaar lijken op basis van de 150 kenmerken • Doe dit voor training en test afbeeldingen samen
  11. Stap 3: verbanden schatten • Tussen kenmerken (K) en percentages

    (P) • Per cluster, P = K ∗ B • P : n x 37 matrix (bekende percentages) K : n x 150 matrix (afgeleide kenmerken) B : 150 x 37 matrix (te bepalen coëfficiënten) • Partial Least Squares (PLS) – geen details hier • Resultaat is optimale schatting van B, noem deze B �
  12. Stap 4: voorspellen • Voorspel percentages voor de test afbeeldingen,

    met behulp van kenmerken, en PLS schatting: • P � = K ∗ B � • Nabewerking: maak voorspelde percentages consistent met mogelijkheden vragenlijst (bijv. antwoorden per vraag tellen op tot 100%) • Bestand uploaden op kaggle website
  13. De winnaar • Geen kenmerken maar pixels (69 x 69

    x 3) • Rotatie, translatie, schalen van afbeeldingen • Niet-lineaire methode (neuraal netwerk) • Betere PC + berekeningen op GPU http://benanne.github.io/2014/04/05/galaxy-zoo.html
  14. Links • Sloan Digital Sky Survey http://www.sdss.org • Galaxy Zoo

    http://www.galaxyzoo.org • Kaggle Competitions http://www.kaggle.com • R software http://www.r-project.org/