Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Big Data, Ciencia y Sociedad: ¿moda pasajera o transformación de la ciencia misma?

Fernando Perez
November 13, 2014

Big Data, Ciencia y Sociedad: ¿moda pasajera o transformación de la ciencia misma?

Transparencias de mi charla en la conmemoración de los 30 años de la maestría en física de la Universidad de Antioquia, como parte del programa "Ciencia en Bicicleta" del parque Explora.

Video de la presentación:
http://new.livestream.com/ParqueExploraTV/Fisica/videos/68022541

Breve comentario "Ciencia por minuto" en el mismo evento:
http://new.livestream.com/ParqueExploraTV/Fisica/videos/68021254

Fernando Perez

November 13, 2014
Tweet

More Decks by Fernando Perez

Other Decks in Science

Transcript

  1. Big Data, Ciencia y Sociedad:
    ¿moda pasajera o
    transformación de la ciencia misma?
    Fernando Pérez
    @fperez_org
    Lawrence Berkeley National Laboratory
    Universidad de California, Berkeley
    30 años Maestría en Física UdeA
    Parque Explora, Nov. 13, 2014.

    View Slide

  2. Mi recorrido, algo extraño...

    Física de partículas, Matemática Aplicada, Neurociencia...

    Con un elemento constante: la computación científica

    Construyendo herramientas que nos permitan usar el
    computador como un recurso para pensar y comunicar

    Construyendo proyectos para cambiar el papel de los
    computadores en el mundo científico

    Herramientas abiertas para computación científica

    La fundación Numfocus

    BIDS: el “Berkeley Institute for Data Science.”

    View Slide

  3. La ciencia y los datos

    View Slide

  4. Tycho Brahe (1546-1601)
    Un observatorio astronómico para obtener datos de alta precisión

    View Slide

  5. Johannes Kepler (1571-1630)
    Tres leyes del movimiento planetario
    1)Los planetas se mueven en órbitas elípticas
    con el sol en un foco.
    2)Los planetas barren áreas iguales en tiempos
    iguales.
    3)El cuadrado del período de la órbita es
    proporcional al cubo de su distancia media al
    sol.

    View Slide

  6. Isaac Newton (1643-1727)
    La ley de la gravitación universal
    F
    1
    =F
    2
    =G
    m
    1
    m
    2
    r
    12
    2

    View Slide

  7. La ley de la gravitación universal

    Un modelo dinámico causal

    Incluye las leyes de Kepler

    Explica su forma básica

    Expone sus limitaciones

    Predice más allá de Kepler

    View Slide

  8. Modelos "tradicionales” en ciencia

    Kepler

    un modelo fenomenológico, puramente descriptivo.

    Basado en datos adquiridos manualmente.

    Newton

    Construye un modelo dinámico, predictivo, causal.

    View Slide

  9. Un ejemplo contemporáneo
    El problema:
    ¿cómo identificar rápidamente eventos
    astronómicos interesantes en medio de
    millones de eventos “normales” (que no
    ofrecen novedad científica)?
    La solución:
    Un modelo estadístico que permite a una
    máquina clasificar los datos en tiempo
    real, y señalar eventos novedosos.
    Josh Bloom, Astronomía,
    UC Berkeley

    View Slide

  10. La Supernova PTF 11kly:
    El “evento de una generación”, Agosto 2011
    La Supernova Tipo Ia más cercana en > 25 años
    http://bit.ly/ptf11kly

    View Slide

  11. View Slide

  12. La Internet
    Un espacio colectivo para crear software y ciencia
    abierta

    View Slide

  13. Mi propia historia... fractales en 1991
    Prof. Manuel J. Páez

    View Slide

  14. Luego caos clásico y cuántico...
    Prof. Jorge Mahecha

    View Slide

  15. Pasando al 2001...

    Un estudiante tratando de
    terminar un doctorado en
    física de partículas...

    Y buscando una distracción
    más interesante...

    View Slide

  16. Nace el proyecto IPython

    View Slide

  17. Entretanto en Chicago...
    John Hunter (1968-2012)
    Postdoc en neurociencia
    computacional,
    Dpto de neurología
    pediátrica, U. Chicago.
    Pacientes de epliepsia infantil que no
    responden a tratamiento farmacológico

    View Slide

  18. View Slide

  19. View Slide

  20. matplotlib: de neurociencia a finanzas

    View Slide

  21. Spyder: software para programación
    científica
    Carlos Córdoba, Físico de la U. Nal de Bogotá

    View Slide

  22. Todo un ecosistema abierto,
    creado por científicos en colaboración
    IPython
    NetworkX

    View Slide

  23. LSST: Python es el lenguaje oficial

    30,000 GB/noche

    Todo el cielo sur cada
    ~4 noches

    Catálogo final (~2030):
    100s de PetaBytes

    View Slide

  24. Fundado en 2013, luego de una competencia nacional
    US $37.8M a 5 años, con U. Washington y NYU

    Un espacio para la colaboración interdisciplinaria.

    Un agente de cambio en la universidad moderna a medida que el “Data
    Science” permea la academia.

    Un incubador para la próxima generación de tecnologías y prácticas en
    Data Science.

    View Slide

  25. Equipo fundador interdisciplinario

    View Slide

  26. Localizado en el corazón de Berkeley
    En el centro de la Universidad
    Cerca de múltiples institutos que
    trabajan con Big Data
    En Doe, la biblioteca principal de
    la Universidad:

    View Slide

  27. © Emil Ems, from book Fiat Lux! emsvision.com

    View Slide

  28. Internet, colaboración y ciencia
    abierta:
    La batalla por cambiar cómo se
    comunica la ciencia

    View Slide

  29. “Publicar o perecer”

    El artículo científico:

    De forma de comunicación a moneda.

    Las editoriales científicas (e.g. Elsevier) estrangulan las
    bibliotecas universitarias.

    La física introdujo modelos abiertos de comunicación:
    arXiv.org.

    Las herramientas de colaboración abierta en
    computación pueden cambiar los modos de publicación.

    View Slide

  30. El libro abierto y ejecutable

    Un libro creado 100%
    con software abierto

    IPython, matplotlib,
    numpy, etc...

    Cada capítulo
    publicado en el blog del
    autor

    Cada capítulo es un
    “Notebook” de IPython
    que el lector puede
    ejecutar.

    View Slide

  31. Artículos científicos ejecutables

    View Slide

  32. View Slide

  33. El artículo científico del futuro

    View Slide

  34. Big Data y Sociedad

    View Slide

  35. Un ejemplo: la política electoral en USA

    El presidente es elegido por el colegio electoral

    538 representantes de todos los estados

    Los votos se asignan por estado, los 538 electores
    hacen la elección final.

    View Slide

  36. FiveThirtyEight (538):
    Blog del NY Times (2010-2013)
    La predicción del 2012

    Un modelo estadístico muy bien
    diseñado.

    Múltiples fuentes regulares de
    datos (encuestas) alimentándolo.

    Cuidadosa calibración de cada
    fuente de datos.

    Exito total:
    – una predicción perfecta.

    View Slide

  37. View Slide

  38. FiveThirtyEight y el periodismo de datos

    View Slide

  39. Brian Keegan:
    les llama la atención con herramientas
    abiertas

    View Slide

  40. View Slide

  41. La respuesta de FiveThirtyEight
    http://fivethirtyeight.com/datalab/the-bechdel-test-checking-our-work
    [...]
    Keegan presentó una idea importante:
    FiveThirtyEight y otros sitios similares deberían
    exponer sus datos al público. No podríamos
    estar más de acuerdo. Estamos explorando
    cómo hacer nuestro código y datos accesible a
    nuestros lectores, incluyendo a través de
    nuestra cuenta en GitHub.

    View Slide

  42. View Slide

  43. Datos, correlaciones y causalidad

    View Slide

  44. Correlaciones
    (Simplificando)
    Cuánto varía una cantidad (Y), a medida que otra varía (X)
    X, Y?

    Dosis de una droga, esperanza de vida

    Temperatura media, incidencia de crímenes violentos

    Etc...

    View Slide

  45. Modelos puramente estadísticos

    Las correlaciones son un qué sin un porqué

    Un análisis de correlaciones sin embargo puede ser
    muy efectivo:

    Entender algo de un sistema cuando no hay más
    información

    e.g. no entendemos el mecanismo de acción de una droga

    Tomar decisiones donde sólo importa el efecto

    e.g. cambiar el color de una página web aumenta las ventas

    View Slide

  46. Detección y reconocimiento de rostros

    View Slide

  47. Clasificación automática de estrellas
    Crédito: Josh Bloom et al., UC Berkeley

    View Slide

  48. Correlación vs. causación...
    © Bloomberg
    Correlaciones accidentales

    View Slide

  49. Correlación vs. causación...
    © Wikipedia
    Causas terceras

    View Slide

  50. Modelos muy difíciles de interpretar
    Intriguing properties of neural networks
    C. Szegedy et al.
    http://cs.nyu.edu/~zaremba/docs/understanding.pdf

    View Slide

  51. Big Data y sociedad (II)

    View Slide

  52. El juego de concurso “Jeopardy”

    View Slide

  53. IBM Watson vs humanos

    View Slide

  54. IBM Watson vs humanos

    View Slide

  55. Los automóviles autónomos de Google

    View Slide

  56. Armas autónomas
    Misiles con selección
    autónoma de objetivos
    ¿Mañana... ?
    Hoy Jueves 13 de Noviembre, 2014:
    reunión de la ONU en Ginebra
    para definir protocolos sobre armas
    autónomas.
    Robots con movilidad humanoide

    View Slide

  57. Los algoritmos aprenden todos los días

    Reconocimiento facial

    Transcripción de texto en condiciones difíciles (ruido de
    la calle, etc)

    Control de voz (Siri, Google Now, etc)

    Traducción automática.

    Muchísimo más...
    ¿Qué hacemos cuando todas estas herramientas sean
    usadas por agentes hostiles (NSA, etc)?

    View Slide

  58. ¿A dónde nos van a llevar estos cambios?

    View Slide

  59. Preguntas abiertas en la ciencia...

    Los Big Data están transformando tanto la ciencia como
    la vida diaria.

    Y estableciendo un nexo directo de impacto entre
    investigación académica, industria y sociedad.

    Los modelos estadísticos vs los modelos dinámicos de
    “primeros principios”...

    La efectividad de los modelos estadísticos es indudable.

    Pueden ser, en ciertos contextos, suficientes.
    ¿Cómo mantener la misión de la ciencia de producir
    una comprensión causal del universo?

    View Slide

  60. … y para toda la sociedad

    ¿Cuál es el lugar de derechos individuales como la
    privacidad, el anonimato, el derecho a cometer
    errores, en la era de sistemas que “todo lo ven, nada
    lo olvidan”?

    ¿Cuál va a ser el lugar del trabajo en una sociedad
    donde las máquinas hayan reemplazado tantas
    actividades “humanas”?

    View Slide

  61. Espacios de unificación y colaboración

    Colaboración en Internet

    Un cambio de perspectiva: de consumidores a participantes.

    La "Ciencia de Datos"

    ¿más que una oportunidad para colaboración
    interdisciplinaria, un nuevo modo de pensar la ciencia que nos
    permita trascender las barreras disciplinarias?

    View Slide

  62. View Slide