Slide 15
Slide 15 text
R1.Ao, R2.Ao, R1.Ai, R2.Aj
R1, R1AiQ, R2, R2AjQ
R1.Ao = R1AiQ.Ao AND
R2.Ao = R2AjQ.Ao AND
R1AiQ.Qgram = R2AjQ.Qgram AND
|R1AiQ.Pos - R2AjQ.Pos| ≤ k AND
|strlen(R1.Ai) – strlen(R2.Aj)| ≤ k
R1.Ao, R2.Ao, R1.Ai, R2.Aj
COUNT(*) ≥ strlen(R1.Ai) – 1 – (k – 1) * q AND
COUNT(*) ≥ strlen(R2.Aj) – 1 – (k – 1) * q AND
edit_distance(R1.Ai, R2.Aj, k)
SELECT
FROM
WHERE
GROUP BY
HAVING
O filtro de contagem é implementado,
os pares de strings que compartilham
somente alguns q-grams são
eliminados.
Por fim, o conjunto candidato pode
ainda conter falsos positivos. por isso
o uso de edit_distance(R1.Ai, R2.Aj, k).