Como rastrear um grande site e extrair dados usando o Screaming Frog's SEO Spider

Gritando Sapo SEO Aranha
Tempo de leitura: 3 minutos

Estamos ajudando vários clientes agora com Migrações de Marketo. Conforme as grandes empresas utilizam soluções corporativas como esta, é como uma teia de aranha que se entrelaça em processos e plataformas ao longo dos anos ... até o ponto em que as empresas nem mesmo estão cientes de todos os pontos de contato.

Com uma plataforma de automação de marketing empresarial como o Marketo, os formulários são o ponto de entrada de dados em sites e páginas de destino. As empresas costumam ter milhares de páginas e centenas de formulários em seus sites que precisam ser identificados para atualização.

Uma ótima ferramenta para isso é Aranha de SEO do sapo gritando… Talvez a plataforma mais popular do mercado para rastreamento, auditoria e extração de dados de um site. A plataforma é rica em recursos e oferece centenas de opções para praticamente todas as tarefas de que você precisa.

Screaming Frog SEO Spider: rastreamento e extração

Uma característica fundamental do Screaming Frog SEO Spider é que você pode realizar extrações personalizadas com base em Regex, XPathou CSSPath especificidades. Isso é extremamente útil, pois desejamos rastrear os sites do cliente e auditar e capturar os valores MunchkinID e FormId das páginas.

Com a ferramenta, abra Configuração> Personalizado> Extração para identificar os elementos que deseja extrair.

extração personalizada screamingfrog

A tela de extração permite a coleta de dados virtualmente ilimitada:

Regras de extração do Screaming Frog SEO Spider

Extração Regex, XPath e CSSPath

Para o MunchkinID, o identificador está localizado no script do formulário que está na página:

<script type='text/javascript' id='marketo-fat-js-extra'>
    /* <![CDATA[ */
    var marketoFat = {
        "id": "123-ABC-456",
        "prepopulate": "",
        "ajaxurl": "https:\/\/yoursite.com\/wp-admin\/admin-ajax.php",
        "popout": {
            "enabled": false
        }
    };
    /* ]]> */

Em seguida, aplicamos um Regra Regex para capturar o id de dentro da tag de script inserida na página:

Regex: ["']id["']: *["'](.*?)["']

Para o ID do formulário, os dados estão em uma tag de entrada dentro do formulário Marketo:

<input type="hidden" name="formid" class="mktoField mktoFieldDescriptor" value="1234">

Nós aplicamos um Regra XPath para capturar o id de dentro do formulário inserido na página. A consulta XPath procura um formulário com uma entrada com um nome de formidável, então a extração salva o valor:

XPath: //form/input[@name="formid"]/@value

Screaming Frog SEO Spider Renderização de Javascript

Outra ótima opção do Screaming Frog é que você não está limitado ao HTML na página, você pode renderizar qualquer JavaScript que vai inserir formulários em seu site. Dentro Configuração> Spider, você pode ir para a guia Renderização e habilitar isso.

Screaming Frog SEO Spider Renderização de Javascript

Isso leva um pouco mais de tempo para rastrear o site, é claro, mas você obterá formulários que são renderizados do lado do cliente por JavaScript, bem como formulários que são inseridos do lado do servidor.

Embora seja um aplicativo muito específico, é incrivelmente útil quando você trabalha com grandes sites. Você com certeza vai querer auditar onde seus formulários estão incorporados em todo o site.

Baixar Screaming Frog SEO Spider

O que você acha?

Este site usa o Akismet para reduzir o spam. Saiba como seus dados de comentário são processados.