$30 off During Our Annual Pro Sale. View Details »

Impacto de Google SGE sobre la búsqueda: ¿el fin de Google como canal de tráfico orgánico?

Impacto de Google SGE sobre la búsqueda: ¿el fin de Google como canal de tráfico orgánico?

Nada volverá a ser lo mismo después de ChatGPT y la búsqueda de información tampoco. Google se prepara para incorporar la inteligencia artificial al buscador en lo que ha llamado Google SGE (Search Generative Experience). Esto afectará a la forma en que los usuarios buscan información en Internet. Con Google recopilando y presentando directamente la información solicitada, su papel como tradicional generador de tráfico orgánico de calidad queda en entredicho. En la presentación, veremos cómo Google está probando la integración de Google SGE en su buscador y cómo ello podría afectar a los distintos sectores e intenciones de búsqueda.

Fernando Maciá

November 09, 2023
Tweet

More Decks by Fernando Maciá

Other Decks in Marketing & SEO

Transcript

  1. Impacto de
    Google SGE

    View Slide

  2. Índice
    01 02 03
    04 05 06
    04
    07
    Qué es Google
    SGE
    Qué son y cómo
    aprenden los LLMs
    como chatGPT
    Anatomía de
    resultados SGE
    Cómo podría
    impactar
    Cómo podemos
    prepararnos
    Qué es un
    Knowledge graph y
    en qué se diferencia
    de los LLMs
    Qué hace
    diferente a Google
    SGE de chatGPT
    En qué cambia
    SGE los
    resultados de
    Google

    View Slide

  3. Qué es Google SGE

    View Slide

  4. ¿Qué es Google Search Generative Experience
    (
    SGE
    )
    ?
    Es una nueva forma de dar
    respuesta a las búsquedas de
    los usuarios combinando la
    potencia de los grandes
    modelos de lenguaje
    (
    LLM
    )
    como chatGPT con la capacidad
    de rastreo en tiempo real de un
    buscador como Google, para así
    mejorar la fiabilidad de las
    respuestas y citar los
    documentos que la avalan.
    Google Keynote
    (
    Google I/O ‘23
    )

    View Slide

  5. ¿Qué es Google Search Generative Experience
    (
    SGE
    )
    ?
    Actualmente solo está
    disponible desde Estados
    Unidos, India y Japón.
    Es necesario contar con un
    perfil de Google autenticado
    desde un teléfono local.
    Para acceder desde fuera,
    debemos contar con un VPN
    que nos permita cambiar la IP.

    View Slide

  6. Google SGE involucra dos conceptos clave
    LLMs
    +
    RAG
    SGE
    Grandes modelos de lenguaje
    (
    Large Language Models)
    Generación aumentada por recuperación
    (
    Retrieval-Augmented Generation)
    Experiencia de búsqueda generativa
    (
    Search Generative Experience)

    View Slide

  7. Qué son y cómo aprenden los LLMs
    como chatGPT

    View Slide

  8. ¿Qué son los LLMs?
    Un LLM
    (
    Large Language Model -
    gran modelo de lenguaje) es un tipo
    de modelo de inteligencia artificial
    diseñado para entender y generar
    lenguaje humano de forma
    automática.
    Básicamente, funciona como un
    cerebro artificial que procesa
    grandes cantidades de texto para
    aprender patrones y estructuras
    del lenguaje, y luego puede usar
    ese conocimiento para predecir y
    generar texto nuevo.
    Generative AI exists because of the transformer

    View Slide

  9. ¿Qué tienen que ver los LLMs con chatGPT?
    ChatGPT es un tipo específico de LLM
    (
    Large
    Language Model) llamado GPT
    (
    Generative Pre-
    trained Transformer) que fue desarrollado por
    OpenAI.
    GPT es un modelo de lenguaje basado en la
    arquitectura Transformer, creada originalmente
    por Google, que utiliza redes neuronales para
    procesar grandes cantidades de texto y
    aprender a generar texto nuevo.
    ChatGPT aprende a partir del análisis e
    identificación de patrones en grandes
    conjuntos de datos (dataset) facilitados por
    terceras partes o disponibles públicamente
    online.
    Generative AI exists because of the transformer

    View Slide

  10. ¿Cómo aprenden y se entrenan los LLM como chatGPT?
    Los conjuntos de datos utilizados para entrenar GPT
    3.5 son:
    ‣ Common Crawl
    ‣ WebText2
    ‣ Books1
    ‣ Books2
    ‣ Wikipedia
    De ellos, solo Common Crawl y Wikipedia tienen su
    origen directo en el rastreo de datos online.
    GPTBot es el User-agent de ChatGPT y se puede
    bloquear desde robots.txt.

    View Slide

  11. Así aprenden
    Los LLMs fragmentan el texto en unidades básicas
    de información o tokens, que puede ser codificada.
    A continuación observan cuándo esas unidades se
    encuentran más o menos cerca de otras
    analizando grandes volúmenes de texto.
    El proceso genera un vector que almacena las
    probabilidades de encontrar esa palabra más o
    menos cerca de otras.
    Por último, los Transformers procesan no palabras
    aisladas, sino frases, párrafos o artículos enteros
    analizando las relaciones entre todas sus partes,
    por lo que al tener en cuenta el contexto, pueden
    comprender mejor el significado de cada palabra.
    Generative AI exists because of the transformer

    View Slide

  12. ¿De dónde extraen la información?
    :
    WebText 2
    WebText2 es un conjunto de datos propiedad de OpenAI obtenidos a partir del rastreo de sitios
    Web con más de 3 votos en Reddit, en el supuesto que el contenido de estos sitios es confiable y de
    calidad.
    La versión original de WebText contenía alrededor de 15 billones de tokens (unidad mínima de
    información) mientras que WebText2 es una versión extendida con 19 billones de tokens y es la que
    OpenAI ha utilizado para entrenar GPT 3 y GPT 3.5.
    El conjunto de datos WebText2 es privado y no está públicamente accesible. No obstante, existe una
    versión OpenWebText2 públicamente accesible donde se pueden consultar las URLs de origen de los
    datos.
    No se conoce qué user-agent utilliza WebText, de forma que no se puede bloquear su acceso via
    robots.txt o a nivel de servidor.

    View Slide

  13. ¿De dónde extraen la información?
    :
    Common Crawl
    Common Crawl es un cojunto de datos creado por una entidad sin ánimo de lucro homónima.
    Common Crawl emplea un bot cuyo user-agent es CCbot/2.0 para rastrear contenido públicamente
    accesible online.
    CCbot respeta las directrices establecidas en el archivo robots.txt, así como en la meta CCbot,
    ofreciendo una vía para bloquear el rastreo o que pueda seguir los enlaces de una página.
    No obstante, bloquear CCbot ahora no significa que los contenidos rastreados anteriormente y que ya
    forman parte de su conjunto de datos vayan a ser eliminados. Solo estaríamos impidiendo el rastreo
    de nuevo contenido.
    Es importante notar que conjuntos de datos como Common Crawl son empleados por empresas
    publicitarias para categorizar contenidos y segmentar la publicidad que aparece en ellos. Bloquear el
    acceso de CCBot podría tener un impacto sobre algunas redes publicitarias.

    View Slide

  14. ChatGPT y el rastreo en tiempo real
    Actualmente, ChatGPT no puede rastrear los
    contenidos online. Sus respuestas se basan en el
    entrenamiento a partir de conjuntos de datos
    recopilados hasta 2022.
    Sin embargo, ya existen plug-in para navegadores
    que permiten a sus modelos leer información
    directamente de sitios online, así como otras
    aplicaciones lanzadas recientemente.
    El modelo de ChatGPT implementado por Bing
    utiliza la información obtenida a partir de una
    búsqueda “tradicional” para resumir, sintetizar y
    extraer la información más valiosa a partir del
    contenido encontrado en esos resultados.

    View Slide

  15. Qué es un Knowledge Graph y en qué
    se diferencia de los LLMs

    View Slide

  16. ¿Que es un knowledge graph?
    Los grafos de conocimiento son un tipo de grafo. Los
    grafos son estructuras simples que utilizan nodos (o
    vértices) conectados por relaciones (o aristas) para
    crear modelos de alta fidelidad de un dominio.
    Building Knowledge Graphs

    View Slide

  17. Knowledge graph: información en triples
    Torre
    Eiffel
    París
    Emmanuelle
    Macron
    France
    European
    Union
    es miembro de
    vive en
    capital de
    está en
    es un político de

    View Slide

  18. Ventajas e incovenientes de los LLMs vs. los Knowledge Graphs
    Unifying Large Language Models and Knowledge Graphs: A Roadmap

    View Slide

  19. Ventajas e incovenientes de los LLMs vs. los Knowledge graphs

    View Slide

  20. Ventajas e incovenientes de los LLMs vs. los Knowledge graphs
    Qué es el IPC
    -
    Resultados de Google SGE Qué es el IPC
    -
    Resultado destacado
    (
    Featured Snippet)

    View Slide

  21. Qué hace diferente a Google SGE de
    chatGPT
    :
    RAG

    View Slide

  22. ¿Qué es el Retrieval-Augmented Generation?
    La generación aumentada por recuperación
    (
    RAG
    )
    es un paradigma en
    el que se recopilan documentos y/o datos relevantes procedentes de
    un grafo del conocimiento a partir de la consulta de un usuario. Estos
    datos se añaden como pistas o datos fiables para crear
    automáticamente un prompt más preciso. De esa forma, mejora la
    fiabilidad de la respuesta del modelo de lenguaje
    (
    LLM
    )
    .
    Google ha aplicado a SGE este paradigma probablemente combinando
    distintos modelos propios: REALM, RETRO, RARR, y, más
    recientemente, FreshLLMs.

    View Slide

  23. ¿Qué es el Retrieval Augmented Generation?
    Leveraging LLMs on your domain-specific knowledge base

    View Slide

  24. ¿Qué es el Retrieval Augmented Generation?
    Using a Knowledge Graph to implement a DevOps RAG application

    View Slide

  25. RAG
    :
    ventajas
    Mejora la
    precisión de la
    respuesta y
    evita en gran
    medida las
    “alucinaciones”.

    View Slide

  26. RAG
    :
    ventajas
    Permite la
    atribución de la
    información a sus
    fuentes
    originales, así
    como enlazarlas
    para permitir al
    usuario indagar
    en mayor
    profundidad.

    View Slide

  27. RAG
    :
    ventajas
    Evita la limitación
    de los LLMs a la
    fecha última de
    actualización de
    sus datos de
    entrenamiento.

    View Slide

  28. RAG en Google Bard

    View Slide

  29. Anatomía de resultados SGE

    View Slide

  30. Anatomía de los resultados SGE

    View Slide

  31. Anatomía de los resultados SGE
    Instantánea potenciada por IA
    (
    AI-powered snapshot)

    View Slide

  32. Anatomía de los resultados SGE
    Enlaces a resultados de referencia

    View Slide

  33. Anatomía de los resultados SGE
    Carrusel de resultados

    View Slide

  34. Anatomía de los resultados SGE
    Resultado creado a partir del contenido enlazado

    View Slide

  35. Anatomía de los resultados SGE
    Preguntas de seguimiento (follow-up questions)

    View Slide

  36. Anatomía de los resultados SGE
    Sobre este resultado

    View Slide

  37. Anatomía de los
    resultados SGE

    View Slide

  38. En qué cambia SGE los resultados de
    Google

    View Slide

  39. ¿Cómo afecta?
    :
    SGE no disponible
    En algunos casos, no
    cambia nada en
    absoluto.
    Ni siquiera clicando
    en la opción
    Converse logramos
    un resultado SGE.

    View Slide

  40. ¿Cómo afecta?
    :
    Mismos resultados
    En otros casos, al
    clicar en la opción
    Converse, nos
    presenta una página
    de resultados muy
    similar, aunque el
    orden de clasificación
    puede ser
    ligeramente distinto.

    View Slide

  41. ¿Cómo afecta?
    :
    SGE no disponible
    A pesar de presentar
    la sugerencia de
    obtener resultados AI,
    la página resultante
    es la misma y el
    cuadro SGE no se
    muestra.

    View Slide

  42. ¿Cómo afecta?
    :
    SGE generado
    Aunque inicialmente
    no se muestra el
    cuadro SGE en los
    resultados, podemos
    forzar su generación
    con el botón
    Generate.
    Los resultados
    orgánicos por debajo
    de SGE se mantienen
    idénticos respecto a
    la presentación inicial.

    View Slide

  43. ¿Cómo afecta?
    :
    SGE parcialmente desplegado
    El panel SGE de
    presenta
    parcialmente
    desplegado.
    El usuario debe hacer
    click para terminar de
    desplegarlo.
    Los resultados
    orgánicos por debajo
    de SGE se mantienen
    idénticos respecto a
    la presentación inicial.

    View Slide

  44. ¿Cómo afecta?
    :
    SGE desplegado de inicio
    En las últimas semanas
    no hemos podido
    identificar ninguna
    búsqueda donde los
    resultados de SGE se
    hayan mostrado
    desplegados de inicio
    en la página.
    Otros cambios
    apreciables en los
    últimos días es que la
    coloración de fondo de
    los resultados SGE se
    muestra mucho más
    suave y con un
    degradado que la hace
    casi imperceptible.

    View Slide

  45. ¿Cómo afecta?
    :
    SGE puede hacer “pupa” a Google
    En las últimas semanas
    también se constata
    que Google no muestra
    el cuadro SGE en
    búsquedas de alta
    monetización, como
    “calcular coste del
    seguro del coche”.
    Esto a pesar de que
    Google ya ha
    anunciado que
    mostrará anuncios
    intercalados con los
    resultados orgánicos
    tras implementar el
    scroll infinito.

    View Slide

  46. ¿A cuántas búsquedas afectará Google SGE?
    En un muestreo sobre 91.000
    keywords con mezcla de
    búsquedas informacionales,
    transaccionales y locales, Michael
    King registró que Google
    presentaba el panel SGE en casi el
    40% de las búsquedas.
    How Search Generative Experience works and why
    retrieval-augmented generation is our future

    View Slide

  47. Qué tipo de consultas no resuelve
    Google SGE

    View Slide

  48. Google SGE y temas YMYL
    Google SGE no muestra resultados para búsquedas relacionadas con “tu dinero o tu salud”
    (
    Your
    Money, Your Life), ya que en este caso los resultados podrían tener un impacto sobre la salud física o
    financiera de los usuarios.
    Dado que el contenido generado por Google SGE no es una copia literal de ningún resultado externo,
    Google mismo sería el responsable legal de la exactitud o fiabilidad de la información mostrada, lo que
    en estos temas implica un gran riesgo.
    Las temáticas directamente afectadas son:
    Salud o seguridad física del usuario
    Seguridad financiera
    Sociedad en su conjunto: es decir, temas conflictivos o polémicos que pueden afectar a la estabilidad de la
    sociedad, la confianza en las instituciones públicas, etc.

    View Slide

  49. YMYL
    Si la búsqueda implica
    un consejo financiero
    directo, Google SGE no
    muestra ningún
    resultado.
    Incluso cuando la
    búsqueda es más
    genérica, Google
    muestra un mensaje de
    exención de
    responsabilidad.

    View Slide

  50. YMYL
    Para búsquedas
    financieras genéricas,
    Google SGE sí muestra
    resultados, aunque
    incluye el mensaje de
    exención de
    responsabilidad.
    Cuando la búsqueda se
    hace más concreta,
    Google SGE ya no
    muestra resultados.

    View Slide

  51. YMYL
    En temas relacionados
    con criptomonedas,
    Google SGE no muestra
    resultados ni siquiera
    para búsquedas muy
    genéricas.

    View Slide

  52. YMYL
    Ante búsquedas de
    consejo médico directo
    sobre tratamiento de
    adicciones, Google SGE
    tampoco muestra
    resultados, ni siquiera
    forzando con el botón
    Converse.

    View Slide

  53. YMYL
    Ante búsquedas de
    consejo médico para
    adelgazamiento,
    Google SGE tampoco
    muestra resultados, ni
    siquiera forzando con el
    botón Converse.
    En este caso, la
    atribución del resultado
    entraña
    responsabilidades
    legales que Google
    prefiere evitar.

    View Slide

  54. YMYL
    Google SGE tampoco
    muestra resultados
    cuando se pide consejo
    para decisiones
    políticas o al elegir un
    seguro médico para
    autónomos, por
    ejemplo.

    View Slide

  55. YMYL
    Google SGE tampoco
    muestra resultados
    cuando se pide consejo
    para decisiones
    políticas o al elegir un
    seguro médico para
    autónomos, por
    ejemplo.

    View Slide

  56. YMYL
    Ejemplos de búsquedas
    que mostraron o no el
    panel de Google SGE
    recopiladas por Rebeca
    Krause
    (
    Seer Interactive)
    Google's Search Generative
    Experience
    (
    SGE
    ) :
    A Marketer's
    Guide

    View Slide

  57. Problemas

    View Slide

  58. Problemas:
    Incluso con RAG,
    Google SGE algunas
    veces malinterpreta las
    intenciones de
    búsqueda ;)

    View Slide

  59. Cómo podría impactar

    View Slide

  60. Impacto de los resultados SGE
    -
    teorías
    No todas las búsquedas generan resultados SGE
    :
    para las búsquedas donde no se generan
    resultados SGE o donde el usuario debe “forzar” la aparición del panel, el impacto sobre el tráfico
    orgánico será cercano a 0.
    En búsquedas informacionales de respuesta directa: podemos esperar una caída en el CTR similar a
    la que obtenemos cuando Google presenta un Resultado destacado (featured snippet).
    En búsquedas transaccionales: el viaje del cliente ser verá acortado. Podemos esperar menos clics
    en páginas de categoría de producto (esa parte del proceso de decisión se traslada a las páginas del
    buscador) y más clics en las páginas de detalle de producto y con un ratio de conversión superior, ya
    que el usuario habrá tenido la oportunidad de comparar y contrastar ventajas e inconvenientes antes.
    En cualquier caso, el CTR (incluso para la posición 1
    )
    disminuirá, ya que los resultados orgánicos son
    “empujados” más abajo por anuncios y el panel SGE.

    View Slide

  61. Impacto: redistribución de las búsquedas
    Conformen los
    usuarios se
    acostumbren a la
    interfaz
    conversacional de
    Google SGE, sus
    búsquedas podrían
    ser cada vez más
    largas y específicas,
    favoreciendo el
    posicionamiento del
    contenido “long-tail”.
    How Search Generative Experience works and why
    retrieval-augmented generation is our future

    View Slide

  62. Impacto: menor CTR
    Incluso cuando
    aparece plegado, el
    panel de Google SGE
    “empuja” los
    resultados orgánicos
    hacia abajo, por lo
    que es de esperar
    que el CTR disminuya
    incluso para las
    primeras posiciones.
    How Search Generative Experience works and why
    retrieval-augmented generation is our future

    View Slide

  63. Impacto: menor CTR
    Gilad David Maayan
    maneja dos
    escenarios respecto a
    cómo podría impactar
    el panel SGE sobre el
    CTR de los resultados
    orgánicos
    tradicionales, a partir
    de los datos
    promedio registrados
    por Advanced Web
    Ranking.
    How Google SGE will impact your traffic – and 3 SGE recovery case studies

    View Slide

  64. Uso de los resultados orgánicos en el panel SGE
    Frecuencia de uso de
    los diez primeros
    resultados orgánicos
    tradicionales en los
    carruseles
    desplegables de
    Google SGE.
    Las posiciones 1, 2 y
    9 fueron las más
    frecuentes en el
    estudio de Michael
    King.
    How Search Generative Experience works and why retrieval-augmented generation is our future

    View Slide

  65. Total de resultados orgánicos usados en SGE
    En el estudio de
    Michael King, se
    comprobó cómo
    Google utiliza hasta 6
    resultados de entre
    los diez primeros
    orgánicos para
    completar sus
    carruseles SGE.
    En algunos casos,
    pueden aparecer
    resultados SGE que
    no se incluyen en la
    primera página
    (primer scroll).
    How Search Generative Experience works and why retrieval-augmented generation is our future

    View Slide

  66. Más tráfico directo a las páginas de detalle de producto
    (
    PDP
    )
    Google se apropia de
    más parte del
    customer journey. El
    panel SGE permite
    responder a muchas
    de las dudas del
    usuario y afinar su
    elección.
    El panel lateral ofrece
    la posibilidad de
    comparar precio para
    el mismo producto en
    distintas tiendas
    online.

    View Slide

  67. Las herramientas SEO tendrán que adaptarse
    El ranking de las diez
    posiciones orgánicas
    deja de tener sentido.
    Es una incógnita
    cómo impactará
    Google SGE sobre el
    CTR previsto para
    cada posición y, por
    tanto, la estimación
    de clics para cada
    palabra clave.

    View Slide

  68. Cómo podemos prepararnos

    View Slide

  69. Cómo podemos prepararnos: EEAT
    Experiencia directa
    Expertise
    Autoridad
    Confianza

    View Slide

  70. Cómo podemos prepararnos: featured snippets
    En cierta forma, el panel de SGE
    se nutre de resultados bajo
    criterios similares a los
    resultados destacados.
    Identifica las búsquedas
    informacionales y crea el mejor
    contenido posible.

    View Slide

  71. Genera contenido de calidad con tu usuario en el foco
    Analiza las búsquedas a lo
    largo de todas las fases
    del customer journey y
    crea contenido de calidad
    para responderlas.
    Así podrás optar a ser una
    de las opciones incluidas
    en Google SGE, además
    de posicionar en los
    resultados orgánicos.
    How Search Generative Experience works and why retrieval-augmented generation is our future

    View Slide

  72. Controla el CTR en tus resultados
    Comprueba discrepancias
    entre la posición promedio y
    el CTR logrado en Google
    Search Console.
    Una buena posición con un
    CTR inusualmente bajo
    podría indicar un alto
    impacto de un resultado
    destacado o bien de un
    panel de Google SGE.

    View Slide

  73. Analiza para qué búsquedas relevantes aparece SGE
    Monitoriza las
    páginas de
    resultados para cada
    una de tus keywords
    y revisa cuándo
    aparece el panel de
    Google SGE y cuándo
    no.
    El mayor impacto
    vendrá de búsquedas
    donde sí aparece
    Google SGE.

    View Slide

  74. Estudia quién aparece en el panel de SGE y por qué

    View Slide

  75. ¿Debemos bloquear las AIs?

    View Slide

  76. ¿Debemos bloquear los LLMs?
    Estamos en los primeros compases en el uso de estos modelos de AI, y no se ha definido todavía (y
    mucho menos regulado) cuál debería ser un uso adecuado y justo en relación a la propiedad
    intelectual de los datos de entrenamiento.
    En función de cómo se regule esto, ChatGPT y similares podrían incluir mecanismos de atribución y
    ofrecer enlaces a la fuente original de los contenidos, actuando como fuente adicional de tráfico
    web.
    Aún es pronto para predecir para qué categorías de búsquedas los LLMs se pueden convertir en
    una primera opción para los usuarios. Hasta ahora, la falta de actualización de los conjuntos de datos
    y la “imaginación” de muchas de sus respuestas están despertando el escepticismo y haciéndolos
    aparecer como una fuente de información poco confiable.
    Posibles problemas legales derivados de la exactitud y fiabilidad de la información dada podría
    convertir la atribución a terceros en la mejor opción para esquivar posibles querellas.

    View Slide

  77. Quién está bloqueando ya

    View Slide

  78. ¿Quién está bloqueando ya los LLMs?
    (
    2022
    )
    Solo el New York Times
    incluye una directiva
    específica en su robots.txt
    donde está bloqueando el
    user-agent de CCBot.
    Con esta directiva, se impide
    que el bot de Common Crawl
    utilice información del NY
    Times para seguir
    enriqueciendo su conjunto de
    datos.
    Tabla 1
    CCBot Disallow ChatGPT Disallow CCBot Nofollow
    elpais.com NO NO NO
    elmundo.es NO NO NO
    abc.es NO NO NO
    bbc.com NO NO NO
    theguardian.com NO NO NO
    dailymail.co.uk NO NO NO
    lemonde.fr NO NO NO
    lexpress.fr NO NO NO
    le
    fi
    garo.fr NO NO NO
    repubblica.it NO NO NO
    corriere.it NO NO NO
    lastampa.it NO NO NO
    bild.de NO NO NO
    spiegel.de NO NO NO
    welt.de NO NO NO
    cnn.com NO NO NO
    nytimes.com SI NO NO
    foxnews.com NO NO NO
    washingtonpost.com NO NO NO

    View Slide

  79. ¿Quién está bloqueando ya los LLMs?
    (
    2023
    )
    Según Originality.ai, 20% de
    los 1.000 sitios web más
    importantes del mundo ya
    están bloqueando GPTbot a
    septiembre de 2023.
    Entre ellos, muchos sitios de
    medios online y algunos de
    los portales de comercio
    electrónico más importantes.

    View Slide

  80. ¿Quién está bloqueando ya los LLMs?
    Entre ellos, muchos
    sitios de medios online
    y algunos de los
    portales de comercio
    electrónico más
    importantes, como
    NYTimes.com
    (izquierda) o
    amazon.com
    (derecha).

    View Slide

  81. User-agents y directivas de bloqueo

    View Slide

  82. User-agent de ChatGPT
    User agent token: ChatGPT
    -
    User
    Full user-agent string: Mozilla/5.0 AppleWebKit/537.36
    (
    KHTML, like Gecko); compatible; ChatGPT
    -
    User/1.0; +https://openai.com/bot
    IP de origen: 23.98.142.176/28
    Para bloquear el acceso a ChatGPT se debe incluir en robots.txt:
    User-agent: ChatGPT
    -
    User
    Disallow: /
    https://platform.openai.com/docs/plugins/bot

    View Slide

  83. User-agent de GPT Bot
    User agent token: GPTBot
    Full user-agent string: Mozilla/5.0 AppleWebKit/537.36
    (
    KHTML, like Gecko; compatible; GPTBot/1.0;
    +https://openai.com/gptbot)
    IP de origen: IP address block documented on the OpenAI website.
    Para bloquear el acceso a ChatGPT se debe incluir en robots.txt:
    User-agent: GPTBot
    Disallow: /
    https://platform.openai.com/docs/gptbot

    View Slide

  84. User-agent de Common Crawl
    User agent token: CCBot
    Full user-agent string: CCBot/2.0
    IP de origen: Amazon AWS
    Para bloquear el acceso a CCBot se debe incluir en robots.txt:
    User-agent: CCBot
    Disallow: /
    https://commoncrawl.org/big-picture/frequently-asked-questions/

    View Slide

  85. User-agent de Google Extended
    OJO
    :
    no impide que el sitio aparezca en Google SGE, pero sí que use para entrenar a Bard.
    User agent token: Google-Extended
    Full user-agent string: Mozilla/5.0
    (
    Linux; Android 6.0.1; Nexus 5X Build/MMB29P
    )
    AppleWebKit/
    537.36
    (
    KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Googlebot/2.1;
    +http://www.google.com/bot.html)
    IP de origen: https://developers.google.com/search/docs/crawling-indexing/verifying-googlebot?
    hl=es
    Para bloquear el acceso a Google Extended se debe incluir en robots.txt:
    User-agent: google-extended
    Disallow: /
    https://developers.google.com/search/docs/crawling-indexing/overview-google-crawlers

    View Slide

  86. Bibliografía

    View Slide

  87. Bibliografía
    • (1) New Messages!
    • [2210.08726] RARR: Researching and Revising What Language
    Models Say, Using Language Models
    • A Marketer's Guide to Google's SGE | Seer Interactive
    • A tale of two snippets: What link attribution in SGE tells us about
    search
    • An SEO's guide to understanding large language models (LLMs)
    • Breaking Down Google’s Search Generative Experience : SOCi
    • ChatGPT rolls out voice and image prompts
    • FreshLLMs: Refreshing Large Language Models with Search
    Engine Augmentation – arXiv Vanity
    • Generative AI exists because of the transformer
    • Glenn Gabe en X: "Just checking for the latest SGE update, and
    saw this new treatment for the
    fi
    rst time. There are underlined
    parts of the answer that reveal an SGE card that links to the
    source, but also lets you enter conversational mode. Interesting
    test. :) https://t.co/4pVtTxSE6J" / X
    • Google allowed teens access to generative AI in search |
    Fortune
    • Google Calendar - Semana del 13 de noviembre de 2023
    • Google CEO on SGE and Search evolution: 'We'll get it right'
    • Google DeepMind
    • Google Invites More Users To Try Search Generative
    Experience
    • Google SGE snapshot carousel: 4 winning SEO strategies in
    B2C, B2B
    • Google SGE: Early Local Search Data - Moz
    • How Google is improving Search with Generative AI
    • How Google SGE will impact your traf
    fi
    c – and 3 SGE recovery
    case studies
    • How Search Generative Experience works and why retrieval-
    augmented generation is our future
    • How to Future-Proof Your Marketing for an AI-Centric Search
    World? | 5-Minute Whiteboard - SparkToro
    • How to prepare for Google SGE: Actionable tips for SEO
    success
    • https://arxiv.org/pdf/2112.04426.pdf
    • https://arxiv.org/pdf/2306.08302.pdf
    • https://static.googleusercontent.com/media/www.google.com/
    es//search/howsearchworks/google-about-SGE.pdf
    • Large Language Models and Knowledge Graphs: Merging
    Flexibility and Structure - YouTube
    • Marie Haynes (@Marie_Haynes) / X
    • Mic King (@iPullRank) / X
    • number of people using google sge - Google Search
    • Raggle: A Retrieval Augmented Generation Fueled Search
    Engine
    • REALM: Integrating Retrieval into Language Representation
    Models – Google Research Blog
    • Retrieval-Augmented Generation for Knowledge-Intensive NLP
    Tasks - Meta Research
    • Search Generative Experience while browsing - Android -
    Google Search Help
    • Search Generative Experience while browsing - Computer -
    Google Search Help
    • Snow
    fl
    ake acquires Neeva to accelerate search in the Data
    Cloud through generative AI - Blog
    • The new Google search generative experience: Here's what it
    looks like
    • Transformer: A Novel Neural Network Architecture for Language
    Understanding – Google Research Blog
    • Transformers: the Google scientists who pioneered an AI
    revolution
    • Unifying Large Language Models and Knowledge Graphs: A
    Roadmap – arXiv Vanity
    • We're Using The Google Search Generative Experience Less
    • What is generative AI and how does it work?
    • Using a Knowledge Graph to implement a DevOps RAG
    application | by Tomaz Bratanic | Oct, 2023 | Medium
    • https://scontent-ord5-2.xx.fbcdn.net/v/
    t39.8562-6/240719311_875939356369019_7102201991376999
    051_n.pdf?
    _nc_cat=104&ccb=1-7&_nc_sid=e280be&_nc_ohc=lLRMxnhYJ
    GUAX-7g9Ve&_nc_ht=scontent-
    ord5-2.xx&oh=00_AfDq7fLX2XHBYOu3jnGhBrOsGrimXzdRC_k
    01brjnH2dcw&oe=654E90C3
    • https://arxiv.org/pdf/2210.08726.pdf
    • SGE’s Potential SEO Impact | 7 Hypotheses Seer Interactive is
    Testing
    • Few-Shot Prompting | Prompt Engineering Guide
    • An update on web publisher controls
    • Google introduces Google-Extended to let you block Bard,
    Vertex AI via robots.txt
    • Google-Extended does not stop Google Search Generative
    Experience from using your site's content
    • Robots.txt is not the answer: Proposing a new meta tag for LLM/
    AI
    • GPTBot - OpenAI API
    • https://www.ml6.eu/blogpost/leveraging-llms-on-your-domain-
    speci
    fi
    c-knowledge-base
    • Google Organic CTR History - Advanced Web Ranking
    • Google expands access to generative AI in Search
    • Google AI search could hurt web traf
    fi
    c, publishers worry
    • Google is ready to
    fi
    ll its AI searches with ads - The Verge

    View Slide

  88. Gracias ;)

    View Slide