Slide 11
Slide 11 text
Contextos como medidas de distância de similaridade
Distância Euclidiana Produto Escalar
Similaridade por Cosseno
Clusterização: no algoritmo K-means, a
distância euclidiana ajuda a medir quão
próximos os pontos de dados estão dos
centróides dos clusters. Os dados são
agrupados pelo centróide mais próximo, o
que reduz a variação dentro de cada cluster
e facilita a identificação de agrupamentos
naturais em conjuntos de dados
numéricos.
Correspondência de Imagens: Imagens
com conteúdo visual semelhante terão
vetores alinhados, resultando em valores
mais altos de produto escalar. Isso faz do
produto escalar uma boa escolha quando
se busca imagens semelhantes a uma
imagem de consulta específica.
Modelagem de Tópicos: Nos embeddings
de documentos, cada dimensão pode
representar a frequência de uma palavra. No
entanto, dois documentos de tamanhos
diferentes podem ter frequências de
palavras diferentes, mas a mesma
distribuição de palavras. Isso os colocam em
direções semelhantes no espaço vetorial,
mas não em distâncias semelhantes, a
similaridade por cosseno é uma ótima
escolha.
https://medium.com/kx-systems/how-vector-databases-search-by-similarity-a-comprehensive-primer-c4b80d13ce63