Sterrenstelsels klasseren

Sterrenstelsels klasseren

Presentatie voor Vendelinus, Genk, 12 april 2014. Trefwoorden: sterrenkunde, astronomie, classificatie, SDSS, Galaxy Zoo, Kaggle.

3ddb2e1134323e66442d7bdc2c9717fa?s=128

Bart Buelens

April 12, 2014
Tweet

Transcript

  1. 2.

    • Door zwaartekracht samengehouden systeem van sterren, planeten, gas, stof,

    donkere materie, … • Melkweg: ong. 200 miljard sterren • Ong. 100 miljard sterrenstelsels in zichtbaar heelal Sterrenstelsels
  2. 3.
  3. 4.

    Vorming & evolutie • Spiraalstelsels: veel interstellair stof, actieve stervorming

    > < elliptische stelsels • Ong. 40% zijn elliptisch • Spiraalstelsels jong, elliptische oud? • Elliptische ontstaan door botsingen van spiraalstelsels? (bijv. Melkweg – Andromeda botsing over 5 mld. jaar) • Veel sterrenstelsels bestuderen kan nieuwe inzichten opleveren
  4. 5.

    Sloan Digital Sky Survey • Met 2,5m telescoop, Apache Pt

    Observatory, New Mexico (VS) • Waarnemingen sinds 2000 • Ong. 35% van hemel • 500 miljoen objecten • Fotometrisch en spectroscopisch • Veel sterrenstelsels waargenomen • Morfologie te bepalen…. hoe?
  5. 6.

    Galaxy Zoo • Citizen Science project • Klasseren van tienduizenden

    sterrenstelsels waargenomen via SDSS • Elke foto door tientallen mensen beoordeeld • “Wijsheid van het volk” • Volgens experten zeer goede resultaten • Voor elke foto aantal vragen beantwoorden
  6. 7.
  7. 8.

    Kaggle wedstrijd • Kaggle.com organiseert wedstrijden rond data analyse, o.a.

    deze, over sterrenstelsels: • Klasseer sterrenstelsels automatisch zoals een groep mensen dat zou doen • Of: schrijf een computerprogramma dat de Galaxy Zoo antwoorden nabootst • Waarom? Mensen dit werk laten doen is op termijn onhoudbaar; menselijke classificaties zijn te gebruiken om een automatisch systeem te trainen
  8. 9.

    Wedstrijd details • Eerste prijs 10.000$ (2de en 3de 4.000$

    en 2.000$) • Van 20 december 2013 tot 4 April 2014 • Gegeven: 1/ 61.578 JPG afbeeldingen van sterrenstelsels, met daarbij de antwoorden op de 11 vragen van Galaxy Zoo (% mensen dat elk antwoord koos) 2/ 79.975 JPG afbeeldingen waarvoor deelnemers zelf die percentages moeten voorspellen
  9. 10.
  10. 11.
  11. 12.

    Opzet • Gebruik de training set om een algoritme te

    zoeken dat de percentages bepaalt • Pas dit algoritme toe op de onbekende afbeeldingen, de test set • Score = gemiddelde kwadratische fout van de voorspelde percentages t.o.v. de bij de organisatie bekende echte percentages • Een inzending = bestand met 79.975 lijnen met op elke lijn 37 getallen: de percentages
  12. 14.

    Praktisch • Intel Quad Core i5 2,3 GHz; 4 GB

    RAM; Win7 • Open Source software “R” • Alleen bestaande routines gebruiken, via zogenaamde packages
  13. 15.

    Stap 1: kenmerken afleiden • Van afbeelding naar kenmerken (features)

    • Elke afbeelding 424 x 424 pixels, drie kleurkanalen RGB: 539.328 getallen • Zowel voor training als test afbeeldingen, samen 140 duizend afbeeldingen • Eerst sterrenstelsel afbakenen, dan bepalen van omtrek, oppervlakte, intensiteit, textuur, etc. • Van alle kenmerken ook kwadraat en logaritme • Uiteindelijk 150 kenmerken per afbeelding
  14. 16.
  15. 17.

    Stap 2: groeperen • Clusteren, m.b.v. nearest neighbour methode •

    Onderscheid 30 clusters van sterrenstelsels die op elkaar lijken op basis van de 150 kenmerken • Doe dit voor training en test afbeeldingen samen
  16. 18.

    Stap 3: verbanden schatten • Tussen kenmerken (K) en percentages

    (P) • Per cluster, P = K ∗ B • P : n x 37 matrix (bekende percentages) K : n x 150 matrix (afgeleide kenmerken) B : 150 x 37 matrix (te bepalen coëfficiënten) • Partial Least Squares (PLS) – geen details hier • Resultaat is optimale schatting van B, noem deze B �
  17. 19.

    Stap 4: voorspellen • Voorspel percentages voor de test afbeeldingen,

    met behulp van kenmerken, en PLS schatting: • P � = K ∗ B � • Nabewerking: maak voorspelde percentages consistent met mogelijkheden vragenlijst (bijv. antwoorden per vraag tellen op tot 100%) • Bestand uploaden op kaggle website
  18. 21.

    De winnaar • Geen kenmerken maar pixels (69 x 69

    x 3) • Rotatie, translatie, schalen van afbeeldingen • Niet-lineaire methode (neuraal netwerk) • Betere PC + berekeningen op GPU http://benanne.github.io/2014/04/05/galaxy-zoo.html
  19. 22.

    Links • Sloan Digital Sky Survey http://www.sdss.org • Galaxy Zoo

    http://www.galaxyzoo.org • Kaggle Competitions http://www.kaggle.com • R software http://www.r-project.org/