Compare dois documentos e identifique a similaridade usando o Índice de Jaccard.
Sobre o Índice de Jaccard
É uma medida estatística de similaridade entre conjuntos. Calculamos a razão entre a intersecção
(palavras em comum) e a união (todas as palavras únicas) dos dois documentos.
Esta ferramenta é indicativa. Para análises profissionais de plágio, considere ferramentas
especializadas.
Possíveis Limitações
Não considera a ordem: "O gato persegue o rato" e "O rato persegue o gato" teriam
100% de similaridade.
Não entende semântica: "Carro" e "Automóvel" são tratados como palavras 100%
diferentes.
Não detecta paráfrase: Se o texto for reescrito com outras palavras, o índice de
Jaccard será baixo.
Sensível a palavras comuns: Palavras como "o", "a", "de", "que" (stop words) podem
inflar artificialmente a similaridade se não forem removidas.