crc32 bazı durumlarda hızı yüzünden avantajlı olsa da eğer karşılaştırmak istediğiniz şeyler nispeten büyük veriler ise hash kullanmak daha yerinde olur.
data deduplication algoritmaları genellikle locality-sensitive hashing kullanırlar. resim, video ve ses gibi benzerliği farklı codec'ler ile zayıflatılabilen formatların karşılaştırılması üzerinde durulmuş projeler de mevcut.
neticede md5 performans / kullanışlılık oranı olarak bu konuda güzel bir fonksiyondur.
Eğer ihtiyacınız olan şey biraz daha ciddi ise şu projeye bir göz atmanızı öneririm;
opendedup.org