Slide 1

Slide 1 text

Big Data, Ciencia y Sociedad: ¿moda pasajera o transformación de la ciencia misma? Fernando Pérez @fperez_org Lawrence Berkeley National Laboratory Universidad de California, Berkeley 30 años Maestría en Física UdeA Parque Explora, Nov. 13, 2014.

Slide 2

Slide 2 text

Mi recorrido, algo extraño... ● Física de partículas, Matemática Aplicada, Neurociencia... – Con un elemento constante: la computación científica ● Construyendo herramientas que nos permitan usar el computador como un recurso para pensar y comunicar ● Construyendo proyectos para cambiar el papel de los computadores en el mundo científico – Herramientas abiertas para computación científica – La fundación Numfocus – BIDS: el “Berkeley Institute for Data Science.”

Slide 3

Slide 3 text

La ciencia y los datos

Slide 4

Slide 4 text

Tycho Brahe (1546-1601) Un observatorio astronómico para obtener datos de alta precisión

Slide 5

Slide 5 text

Johannes Kepler (1571-1630) Tres leyes del movimiento planetario 1)Los planetas se mueven en órbitas elípticas con el sol en un foco. 2)Los planetas barren áreas iguales en tiempos iguales. 3)El cuadrado del período de la órbita es proporcional al cubo de su distancia media al sol.

Slide 6

Slide 6 text

Isaac Newton (1643-1727) La ley de la gravitación universal F 1 =F 2 =G m 1 m 2 r 12 2

Slide 7

Slide 7 text

La ley de la gravitación universal ● Un modelo dinámico causal ● Incluye las leyes de Kepler – Explica su forma básica – Expone sus limitaciones – Predice más allá de Kepler

Slide 8

Slide 8 text

Modelos "tradicionales” en ciencia ● Kepler – un modelo fenomenológico, puramente descriptivo. – Basado en datos adquiridos manualmente. ● Newton – Construye un modelo dinámico, predictivo, causal.

Slide 9

Slide 9 text

Un ejemplo contemporáneo El problema: ¿cómo identificar rápidamente eventos astronómicos interesantes en medio de millones de eventos “normales” (que no ofrecen novedad científica)? La solución: Un modelo estadístico que permite a una máquina clasificar los datos en tiempo real, y señalar eventos novedosos. Josh Bloom, Astronomía, UC Berkeley

Slide 10

Slide 10 text

La Supernova PTF 11kly: El “evento de una generación”, Agosto 2011 La Supernova Tipo Ia más cercana en > 25 años http://bit.ly/ptf11kly

Slide 11

Slide 11 text

No content

Slide 12

Slide 12 text

La Internet Un espacio colectivo para crear software y ciencia abierta

Slide 13

Slide 13 text

Mi propia historia... fractales en 1991 Prof. Manuel J. Páez

Slide 14

Slide 14 text

Luego caos clásico y cuántico... Prof. Jorge Mahecha

Slide 15

Slide 15 text

Pasando al 2001... ● Un estudiante tratando de terminar un doctorado en física de partículas... ● Y buscando una distracción más interesante...

Slide 16

Slide 16 text

Nace el proyecto IPython

Slide 17

Slide 17 text

Entretanto en Chicago... John Hunter (1968-2012) Postdoc en neurociencia computacional, Dpto de neurología pediátrica, U. Chicago. Pacientes de epliepsia infantil que no responden a tratamiento farmacológico

Slide 18

Slide 18 text

No content

Slide 19

Slide 19 text

No content

Slide 20

Slide 20 text

matplotlib: de neurociencia a finanzas

Slide 21

Slide 21 text

Spyder: software para programación científica Carlos Córdoba, Físico de la U. Nal de Bogotá

Slide 22

Slide 22 text

Todo un ecosistema abierto, creado por científicos en colaboración IPython NetworkX

Slide 23

Slide 23 text

LSST: Python es el lenguaje oficial ● 30,000 GB/noche ● Todo el cielo sur cada ~4 noches ● Catálogo final (~2030): 100s de PetaBytes

Slide 24

Slide 24 text

Fundado en 2013, luego de una competencia nacional US $37.8M a 5 años, con U. Washington y NYU ● Un espacio para la colaboración interdisciplinaria. ● Un agente de cambio en la universidad moderna a medida que el “Data Science” permea la academia. ● Un incubador para la próxima generación de tecnologías y prácticas en Data Science.

Slide 25

Slide 25 text

Equipo fundador interdisciplinario

Slide 26

Slide 26 text

Localizado en el corazón de Berkeley En el centro de la Universidad Cerca de múltiples institutos que trabajan con Big Data En Doe, la biblioteca principal de la Universidad:

Slide 27

Slide 27 text

© Emil Ems, from book Fiat Lux! emsvision.com

Slide 28

Slide 28 text

Internet, colaboración y ciencia abierta: La batalla por cambiar cómo se comunica la ciencia

Slide 29

Slide 29 text

“Publicar o perecer” ● El artículo científico: – De forma de comunicación a moneda. ● Las editoriales científicas (e.g. Elsevier) estrangulan las bibliotecas universitarias. ● La física introdujo modelos abiertos de comunicación: arXiv.org. ● Las herramientas de colaboración abierta en computación pueden cambiar los modos de publicación.

Slide 30

Slide 30 text

El libro abierto y ejecutable ● Un libro creado 100% con software abierto – IPython, matplotlib, numpy, etc... ● Cada capítulo publicado en el blog del autor ● Cada capítulo es un “Notebook” de IPython que el lector puede ejecutar.

Slide 31

Slide 31 text

Artículos científicos ejecutables

Slide 32

Slide 32 text

No content

Slide 33

Slide 33 text

El artículo científico del futuro

Slide 34

Slide 34 text

Big Data y Sociedad

Slide 35

Slide 35 text

Un ejemplo: la política electoral en USA ● El presidente es elegido por el colegio electoral ● 538 representantes de todos los estados ● Los votos se asignan por estado, los 538 electores hacen la elección final.

Slide 36

Slide 36 text

FiveThirtyEight (538): Blog del NY Times (2010-2013) La predicción del 2012 ● Un modelo estadístico muy bien diseñado. ● Múltiples fuentes regulares de datos (encuestas) alimentándolo. ● Cuidadosa calibración de cada fuente de datos. ● Exito total: – una predicción perfecta.

Slide 37

Slide 37 text

No content

Slide 38

Slide 38 text

FiveThirtyEight y el periodismo de datos

Slide 39

Slide 39 text

Brian Keegan: les llama la atención con herramientas abiertas

Slide 40

Slide 40 text

No content

Slide 41

Slide 41 text

La respuesta de FiveThirtyEight http://fivethirtyeight.com/datalab/the-bechdel-test-checking-our-work [...] Keegan presentó una idea importante: FiveThirtyEight y otros sitios similares deberían exponer sus datos al público. No podríamos estar más de acuerdo. Estamos explorando cómo hacer nuestro código y datos accesible a nuestros lectores, incluyendo a través de nuestra cuenta en GitHub.

Slide 42

Slide 42 text

No content

Slide 43

Slide 43 text

Datos, correlaciones y causalidad

Slide 44

Slide 44 text

Correlaciones (Simplificando) Cuánto varía una cantidad (Y), a medida que otra varía (X) X, Y? ● Dosis de una droga, esperanza de vida ● Temperatura media, incidencia de crímenes violentos ● Etc...

Slide 45

Slide 45 text

Modelos puramente estadísticos ● Las correlaciones son un qué sin un porqué ● Un análisis de correlaciones sin embargo puede ser muy efectivo: – Entender algo de un sistema cuando no hay más información ● e.g. no entendemos el mecanismo de acción de una droga – Tomar decisiones donde sólo importa el efecto ● e.g. cambiar el color de una página web aumenta las ventas

Slide 46

Slide 46 text

Detección y reconocimiento de rostros

Slide 47

Slide 47 text

Clasificación automática de estrellas Crédito: Josh Bloom et al., UC Berkeley

Slide 48

Slide 48 text

Correlación vs. causación... © Bloomberg Correlaciones accidentales

Slide 49

Slide 49 text

Correlación vs. causación... © Wikipedia Causas terceras

Slide 50

Slide 50 text

Modelos muy difíciles de interpretar Intriguing properties of neural networks C. Szegedy et al. http://cs.nyu.edu/~zaremba/docs/understanding.pdf

Slide 51

Slide 51 text

Big Data y sociedad (II)

Slide 52

Slide 52 text

El juego de concurso “Jeopardy”

Slide 53

Slide 53 text

IBM Watson vs humanos

Slide 54

Slide 54 text

IBM Watson vs humanos

Slide 55

Slide 55 text

Los automóviles autónomos de Google

Slide 56

Slide 56 text

Armas autónomas Misiles con selección autónoma de objetivos ¿Mañana... ? Hoy Jueves 13 de Noviembre, 2014: reunión de la ONU en Ginebra para definir protocolos sobre armas autónomas. Robots con movilidad humanoide

Slide 57

Slide 57 text

Los algoritmos aprenden todos los días ● Reconocimiento facial ● Transcripción de texto en condiciones difíciles (ruido de la calle, etc) ● Control de voz (Siri, Google Now, etc) ● Traducción automática. ● Muchísimo más... ¿Qué hacemos cuando todas estas herramientas sean usadas por agentes hostiles (NSA, etc)?

Slide 58

Slide 58 text

¿A dónde nos van a llevar estos cambios?

Slide 59

Slide 59 text

Preguntas abiertas en la ciencia... ● Los Big Data están transformando tanto la ciencia como la vida diaria. – Y estableciendo un nexo directo de impacto entre investigación académica, industria y sociedad. ● Los modelos estadísticos vs los modelos dinámicos de “primeros principios”... – La efectividad de los modelos estadísticos es indudable. – Pueden ser, en ciertos contextos, suficientes. ¿Cómo mantener la misión de la ciencia de producir una comprensión causal del universo?

Slide 60

Slide 60 text

… y para toda la sociedad ● ¿Cuál es el lugar de derechos individuales como la privacidad, el anonimato, el derecho a cometer errores, en la era de sistemas que “todo lo ven, nada lo olvidan”? ● ¿Cuál va a ser el lugar del trabajo en una sociedad donde las máquinas hayan reemplazado tantas actividades “humanas”?

Slide 61

Slide 61 text

Espacios de unificación y colaboración ● Colaboración en Internet – Un cambio de perspectiva: de consumidores a participantes. ● La "Ciencia de Datos" – ¿más que una oportunidad para colaboración interdisciplinaria, un nuevo modo de pensar la ciencia que nos permita trascender las barreras disciplinarias?

Slide 62

Slide 62 text

No content