IKASA captura sus datos en base a la navegación de los usuarios. No es un crawler y no tiene las limitaciones de un bot para acceder al contenido.
Es por eso captura muchas páginas que no verás con otros sistemas. Si es positivo o negativo que las capture depende de cada caso. Por un lado vas a obtener información que no tenías de esas páginas pero por otro para muchos análisis estas páginas serán totalmente irrelevantes.
Lo que es importante es que conozcas estos detalles para que no te encuentres con páginas que no esperabas. En Ikasa encontrarás páginas protegidas por login, páginas de landings de campaña no indexables y páginas bloqueadas por robots.txt y debes aprender a lidiar con ellas para realizar tus análisis.
En la versión actual de IKASA, este no consulta el robots.txt. Esto es por un tema de rendimiento de las webs, si tuviesemos que hacer que cada visita que llega a tu site mirase siempre el contenido de este archivo afectaríamos al rendimiento de tu web con la herramienta y esto es algo que deseamos evitar a toda costa.
Estamos viendo vías para solucionar este problema pero de momento no existe lectura de este archivo y por lo tanto IKASA desconoce si una página ha sido bloqueada por robots.txt
1. Por un lado puedes, si te interesa, no capturar estas páginas con IKASA una vez las detectes. Tienes un artículo completo explicando como puedes hacer estos filtrados.
2. Por otro puedes adaptar los dashboards para que te permitan filtrar por ese tipo de páginas. Creando dimensiones calculadas (donde con fórmulas CASE se detecten estas URLs cuando se capturen.
Ejemplo fómula que detecte bloqueadas como un tipo de indexabilidad más:
CASE
WHEN REGEXP_CONTAINS(Página, '(quienes-somos|aviso-legal)' THEN 'blocked by robots.txt'
ELSE Indexability
END
3. Puedes adaptar GTM para que las detecte editando la variable "js process indexability". Esta variable es una función con lógica javascript así que este no es un sistema apto para todos los públicos pero para usuarios más experimentados si será posible conseguir aquí el aviso de urls bloqueadas por robots.
4. O simplemente puedes tenerlo en cuenta y no entender como positivos los errores que se detecten si se corresponden con páginas bloqueadas por robots.txt
¿Cual es el plan a futuro?
Queremos incorporar un interprete del archivo robots.txt en ikasa y permitirte que lo incorpores a la configuración de GTM, pero es un desarrollo que no tiene aun fecha y no podemos garantizar en cuantos meses estará listo.