Normalización de URLs es un proceso mediante el cual se modifican y estandarizan URLs de forma consistente. El objetivo es transformar múltiples URLs sintácticamente diferentes y determinar si son equivalentes. Crawlers deberían utilizar normalización de URLs para evitar listar o recorrer múltiples veces un mismo recurso al cual de hacen referencias con URLs sintácticamente diferentes.
Hay varias reglas generales que permiten reducir URLs a una sintáxis más "estandar", encontrando así rápidamente duplicados.
Pasar partes case-insensitive a minúscula.
Escapar cualquier carácter escapable ("escapable").
Pasar a mayúscula todos las secuencias de escape.
Concatenar la "/" al final de la URL cuando corresponda.
Eliminar el puerto por defecto (:80 para HTTP, :443 para HTTPS).
Eliminar secuencias de "../".
NOTA: Existen implementaciones de librerías de normalización de URLs en gran cantidad de lenguajes. No es aconsejable implementar esto por uno mismo.