Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Big Data, Ciencia y Sociedad: ¿moda pasajera o transformación de la ciencia misma?

95198572b00e5fbcd97fb5315215bf7a?s=47 Fernando Perez
November 13, 2014

Big Data, Ciencia y Sociedad: ¿moda pasajera o transformación de la ciencia misma?

Transparencias de mi charla en la conmemoración de los 30 años de la maestría en física de la Universidad de Antioquia, como parte del programa "Ciencia en Bicicleta" del parque Explora.

Video de la presentación:
http://new.livestream.com/ParqueExploraTV/Fisica/videos/68022541

Breve comentario "Ciencia por minuto" en el mismo evento:
http://new.livestream.com/ParqueExploraTV/Fisica/videos/68021254

95198572b00e5fbcd97fb5315215bf7a?s=128

Fernando Perez

November 13, 2014
Tweet

Transcript

  1. Big Data, Ciencia y Sociedad: ¿moda pasajera o transformación de

    la ciencia misma? Fernando Pérez @fperez_org Lawrence Berkeley National Laboratory Universidad de California, Berkeley 30 años Maestría en Física UdeA Parque Explora, Nov. 13, 2014.
  2. Mi recorrido, algo extraño... • Física de partículas, Matemática Aplicada,

    Neurociencia... – Con un elemento constante: la computación científica • Construyendo herramientas que nos permitan usar el computador como un recurso para pensar y comunicar • Construyendo proyectos para cambiar el papel de los computadores en el mundo científico – Herramientas abiertas para computación científica – La fundación Numfocus – BIDS: el “Berkeley Institute for Data Science.”
  3. La ciencia y los datos

  4. Tycho Brahe (1546-1601) Un observatorio astronómico para obtener datos de

    alta precisión
  5. Johannes Kepler (1571-1630) Tres leyes del movimiento planetario 1)Los planetas

    se mueven en órbitas elípticas con el sol en un foco. 2)Los planetas barren áreas iguales en tiempos iguales. 3)El cuadrado del período de la órbita es proporcional al cubo de su distancia media al sol.
  6. Isaac Newton (1643-1727) La ley de la gravitación universal F

    1 =F 2 =G m 1 m 2 r 12 2
  7. La ley de la gravitación universal • Un modelo dinámico

    causal • Incluye las leyes de Kepler – Explica su forma básica – Expone sus limitaciones – Predice más allá de Kepler
  8. Modelos "tradicionales” en ciencia • Kepler – un modelo fenomenológico,

    puramente descriptivo. – Basado en datos adquiridos manualmente. • Newton – Construye un modelo dinámico, predictivo, causal.
  9. Un ejemplo contemporáneo El problema: ¿cómo identificar rápidamente eventos astronómicos

    interesantes en medio de millones de eventos “normales” (que no ofrecen novedad científica)? La solución: Un modelo estadístico que permite a una máquina clasificar los datos en tiempo real, y señalar eventos novedosos. Josh Bloom, Astronomía, UC Berkeley
  10. La Supernova PTF 11kly: El “evento de una generación”, Agosto

    2011 La Supernova Tipo Ia más cercana en > 25 años http://bit.ly/ptf11kly
  11. None
  12. La Internet Un espacio colectivo para crear software y ciencia

    abierta
  13. Mi propia historia... fractales en 1991 Prof. Manuel J. Páez

  14. Luego caos clásico y cuántico... Prof. Jorge Mahecha

  15. Pasando al 2001... • Un estudiante tratando de terminar un

    doctorado en física de partículas... • Y buscando una distracción más interesante...
  16. Nace el proyecto IPython

  17. Entretanto en Chicago... John Hunter (1968-2012) Postdoc en neurociencia computacional,

    Dpto de neurología pediátrica, U. Chicago. Pacientes de epliepsia infantil que no responden a tratamiento farmacológico
  18. None
  19. None
  20. matplotlib: de neurociencia a finanzas

  21. Spyder: software para programación científica Carlos Córdoba, Físico de la

    U. Nal de Bogotá
  22. Todo un ecosistema abierto, creado por científicos en colaboración IPython

    NetworkX
  23. LSST: Python es el lenguaje oficial • 30,000 GB/noche •

    Todo el cielo sur cada ~4 noches • Catálogo final (~2030): 100s de PetaBytes
  24. Fundado en 2013, luego de una competencia nacional US $37.8M

    a 5 años, con U. Washington y NYU • Un espacio para la colaboración interdisciplinaria. • Un agente de cambio en la universidad moderna a medida que el “Data Science” permea la academia. • Un incubador para la próxima generación de tecnologías y prácticas en Data Science.
  25. Equipo fundador interdisciplinario

  26. Localizado en el corazón de Berkeley En el centro de

    la Universidad Cerca de múltiples institutos que trabajan con Big Data En Doe, la biblioteca principal de la Universidad:
  27. © Emil Ems, from book Fiat Lux! emsvision.com

  28. Internet, colaboración y ciencia abierta: La batalla por cambiar cómo

    se comunica la ciencia
  29. “Publicar o perecer” • El artículo científico: – De forma

    de comunicación a moneda. • Las editoriales científicas (e.g. Elsevier) estrangulan las bibliotecas universitarias. • La física introdujo modelos abiertos de comunicación: arXiv.org. • Las herramientas de colaboración abierta en computación pueden cambiar los modos de publicación.
  30. El libro abierto y ejecutable • Un libro creado 100%

    con software abierto – IPython, matplotlib, numpy, etc... • Cada capítulo publicado en el blog del autor • Cada capítulo es un “Notebook” de IPython que el lector puede ejecutar.
  31. Artículos científicos ejecutables

  32. None
  33. El artículo científico del futuro

  34. Big Data y Sociedad

  35. Un ejemplo: la política electoral en USA • El presidente

    es elegido por el colegio electoral • 538 representantes de todos los estados • Los votos se asignan por estado, los 538 electores hacen la elección final.
  36. FiveThirtyEight (538): Blog del NY Times (2010-2013) La predicción del

    2012 • Un modelo estadístico muy bien diseñado. • Múltiples fuentes regulares de datos (encuestas) alimentándolo. • Cuidadosa calibración de cada fuente de datos. • Exito total: – una predicción perfecta.
  37. None
  38. FiveThirtyEight y el periodismo de datos

  39. Brian Keegan: les llama la atención con herramientas abiertas

  40. None
  41. La respuesta de FiveThirtyEight http://fivethirtyeight.com/datalab/the-bechdel-test-checking-our-work [...] Keegan presentó una idea

    importante: FiveThirtyEight y otros sitios similares deberían exponer sus datos al público. No podríamos estar más de acuerdo. Estamos explorando cómo hacer nuestro código y datos accesible a nuestros lectores, incluyendo a través de nuestra cuenta en GitHub.
  42. None
  43. Datos, correlaciones y causalidad

  44. Correlaciones (Simplificando) Cuánto varía una cantidad (Y), a medida que

    otra varía (X) X, Y? • Dosis de una droga, esperanza de vida • Temperatura media, incidencia de crímenes violentos • Etc...
  45. Modelos puramente estadísticos • Las correlaciones son un qué sin

    un porqué • Un análisis de correlaciones sin embargo puede ser muy efectivo: – Entender algo de un sistema cuando no hay más información • e.g. no entendemos el mecanismo de acción de una droga – Tomar decisiones donde sólo importa el efecto • e.g. cambiar el color de una página web aumenta las ventas
  46. Detección y reconocimiento de rostros

  47. Clasificación automática de estrellas Crédito: Josh Bloom et al., UC

    Berkeley
  48. Correlación vs. causación... © Bloomberg Correlaciones accidentales

  49. Correlación vs. causación... © Wikipedia Causas terceras

  50. Modelos muy difíciles de interpretar Intriguing properties of neural networks

    C. Szegedy et al. http://cs.nyu.edu/~zaremba/docs/understanding.pdf
  51. Big Data y sociedad (II)

  52. El juego de concurso “Jeopardy”

  53. IBM Watson vs humanos

  54. IBM Watson vs humanos

  55. Los automóviles autónomos de Google

  56. Armas autónomas Misiles con selección autónoma de objetivos ¿Mañana... ?

    Hoy Jueves 13 de Noviembre, 2014: reunión de la ONU en Ginebra para definir protocolos sobre armas autónomas. Robots con movilidad humanoide
  57. Los algoritmos aprenden todos los días • Reconocimiento facial •

    Transcripción de texto en condiciones difíciles (ruido de la calle, etc) • Control de voz (Siri, Google Now, etc) • Traducción automática. • Muchísimo más... ¿Qué hacemos cuando todas estas herramientas sean usadas por agentes hostiles (NSA, etc)?
  58. ¿A dónde nos van a llevar estos cambios?

  59. Preguntas abiertas en la ciencia... • Los Big Data están

    transformando tanto la ciencia como la vida diaria. – Y estableciendo un nexo directo de impacto entre investigación académica, industria y sociedad. • Los modelos estadísticos vs los modelos dinámicos de “primeros principios”... – La efectividad de los modelos estadísticos es indudable. – Pueden ser, en ciertos contextos, suficientes. ¿Cómo mantener la misión de la ciencia de producir una comprensión causal del universo?
  60. … y para toda la sociedad • ¿Cuál es el

    lugar de derechos individuales como la privacidad, el anonimato, el derecho a cometer errores, en la era de sistemas que “todo lo ven, nada lo olvidan”? • ¿Cuál va a ser el lugar del trabajo en una sociedad donde las máquinas hayan reemplazado tantas actividades “humanas”?
  61. Espacios de unificación y colaboración • Colaboración en Internet –

    Un cambio de perspectiva: de consumidores a participantes. • La "Ciencia de Datos" – ¿más que una oportunidad para colaboración interdisciplinaria, un nuevo modo de pensar la ciencia que nos permita trascender las barreras disciplinarias?
  62. None