Slide 1

Slide 1 text

Αναγνώριση χειρόγραφων χαρακτήρων στο MNIST dataset & φυτών στο IRIS dataset με μεθόδους μηχανικής μάθησης Δημήτρης Σπαθής Εξαμηνιαία εργασία – Ιαν 2016 Υπολογιστική Νοημοσύνη – Στατιστική Μάθηση Καθ.: Αναστάσιος Τέφας

Slide 2

Slide 2 text

MNIST dataset 70.000 εικόνες 28 x 28 pixel 784 διαστάσεις 60.000 train 10.000 test {0,1,2,..9} multi-class

Slide 3

Slide 3 text

Εργαλεία Python python.org Scikit – learn scikit-learn.org Matplotlib matplotlib.org Numpy numpy.org

Slide 4

Slide 4 text

Προεπεξεργασία δεδομένων Ανακάτεμα δειγμάτων X, y = shuffle(mnist.data, mnist.target) Κανονικοποίηση pixels [0,1] X_train, y_train = np.float32(X[:60000])/ 255., np.float32(y[:60000])

Slide 5

Slide 5 text

Κρατάμε 90 components 90,3% της αρχικής πληροφορίας PCA – Μείωση Διάστασης (784 → 90)

Slide 6

Slide 6 text

Εκπαίδευση SVM fitting classifier = svm.SVC(gamma=0.01, C=3, kernel='rbf') 5 Cross validation cross_validation.cross_val_score(classifier, X_train, y_train, cv=5)

Slide 7

Slide 7 text

Αποτελέσματα εκπαίδευσης

Slide 8

Slide 8 text

Παραδείγματα ταξινόμησης

Slide 9

Slide 9 text

Μείωση Διάστασης Kernel PCA (784 → 300) kpca = KernelPCA(kernel="rbf",n_components=300 , gamma=1) LDA (300 → 9) lda = LDA() #should keep [classes – 1] components

Slide 10

Slide 10 text

Nearest Classifier K Nearest Neighbor clf = neighbors.KNeighborsClassifier(n_neighbors=5) Nearest Centroid classifier = NearestCentroid(metric='euclidean', shrink_threshold=None)

Slide 11

Slide 11 text

Αποτελέσματα εκπαίδευσης

Slide 12

Slide 12 text

Embedding για Μείωση Διάστασης (784 → 2) Spectral Embedding manifold.SpectralEmbedding (n_components=2, affinity='nearest_neighbors', gamma=None, random_state=None, eigen_solver=None, n_neighbors=5) Isomap Embedding manifold.Isomap(n_neighbors=5, n_components=2)

Slide 13

Slide 13 text

Spectral Clustering Kρατάμε 5000 δείγματα για οπτικοποίηση Spectral Clustering cluster.SpectralClustering(n_clusters=10, eigen_solver='arpack', affinity="nearest_neighbors")

Slide 14

Slide 14 text

No content

Slide 15

Slide 15 text

No content

Slide 16

Slide 16 text

Αποτελέσματα clustering

Slide 17

Slide 17 text

IRIS dataset 150 λουλούδια 4 διαστάσεις sepal length sepal width petal length petal width 3 κλάσεις Iris Setosa Iris Versicolour Iris Virginica

Slide 18

Slide 18 text

Αποτελέσματα SVM εκπαίδευσης

Slide 19

Slide 19 text

SVM fine-tuning C

Slide 20

Slide 20 text

SVM fine-tuning Degree

Slide 21

Slide 21 text

SVM fine-tuning Gamma

Slide 22

Slide 22 text

Μείωση Διάστασης

Slide 23

Slide 23 text

No content

Slide 24

Slide 24 text

Αποτελέσματα clustering & embedding

Slide 25

Slide 25 text

No content

Slide 26

Slide 26 text

No content

Slide 27

Slide 27 text

Further work Kernel PCA – Memory Errors Incremental PCA Grid Search Deep Architectures Distributed / Parallel MapReduce / Spark Κώδικας σύντομα στο github.com/sdimi