Observatory, New Mexico (VS) • Waarnemingen sinds 2000 • Ong. 35% van hemel • 500 miljoen objecten • Fotometrisch en spectroscopisch • Veel sterrenstelsels waargenomen • Morfologie te bepalen…. hoe?
sterrenstelsels waargenomen via SDSS • Elke foto door tientallen mensen beoordeeld • “Wijsheid van het volk” • Volgens experten zeer goede resultaten • Voor elke foto aantal vragen beantwoorden
deze, over sterrenstelsels: • Klasseer sterrenstelsels automatisch zoals een groep mensen dat zou doen • Of: schrijf een computerprogramma dat de Galaxy Zoo antwoorden nabootst • Waarom? Mensen dit werk laten doen is op termijn onhoudbaar; menselijke classificaties zijn te gebruiken om een automatisch systeem te trainen
en 2.000$) • Van 20 december 2013 tot 4 April 2014 • Gegeven: 1/ 61.578 JPG afbeeldingen van sterrenstelsels, met daarbij de antwoorden op de 11 vragen van Galaxy Zoo (% mensen dat elk antwoord koos) 2/ 79.975 JPG afbeeldingen waarvoor deelnemers zelf die percentages moeten voorspellen
zoeken dat de percentages bepaalt • Pas dit algoritme toe op de onbekende afbeeldingen, de test set • Score = gemiddelde kwadratische fout van de voorspelde percentages t.o.v. de bij de organisatie bekende echte percentages • Een inzending = bestand met 79.975 lijnen met op elke lijn 37 getallen: de percentages
• Elke afbeelding 424 x 424 pixels, drie kleurkanalen RGB: 539.328 getallen • Zowel voor training als test afbeeldingen, samen 140 duizend afbeeldingen • Eerst sterrenstelsel afbakenen, dan bepalen van omtrek, oppervlakte, intensiteit, textuur, etc. • Van alle kenmerken ook kwadraat en logaritme • Uiteindelijk 150 kenmerken per afbeelding
(P) • Per cluster, P = K ∗ B • P : n x 37 matrix (bekende percentages) K : n x 150 matrix (afgeleide kenmerken) B : 150 x 37 matrix (te bepalen coëfficiënten) • Partial Least Squares (PLS) – geen details hier • Resultaat is optimale schatting van B, noem deze B �
met behulp van kenmerken, en PLS schatting: • P � = K ∗ B � • Nabewerking: maak voorspelde percentages consistent met mogelijkheden vragenlijst (bijv. antwoorden per vraag tellen op tot 100%) • Bestand uploaden op kaggle website