ir para conteúdo

Leia-me API de Busca por Proximidade (GAPS)

 

Este script em Perl usa uma API do Google para comparar dois termos em uma Pesquisa, dentro de uma certa distância um do outro numa página. Realiza esta operação por usar uma característica raramente-discutida no Google: dentro da frase citada, * pode ser usada como um wildcard querendo dizer "qualquer palavra." Então, para procurar coppola dentro de 2 palavras com nepotismo, em qualquer ordem, você necessita 6 pesquisas:

"coppola nepotismo"
"coppola * nepotismo"
"coppola * * nepotismo"
"nepotismo coppola"
"nepotismo * coppola"
"nepotismo * * coppola"

Os scripts GAPS simplesmente constroe a base de informações, recebe a primeira página de resultados do Google para cada solicitação, compila todos os resultados e os apresenta num tipo determinado de ordenação especificada.

Devido ao fato de que cada Pesquisa realiza várias solicitações em cada pesquisa limitamos a distância entre 3 termos. Esto é um limite arbitrário, e caso seja de seu interesse você poderá fazer download dos script e rodar em seu próprio servidor (veja abaixo), podendo usar um limite muito mais alto.

A proximidade de pesquisa neste nível pode parecer básica e talvez não satisfaça alguns objetivos ou critérios de pesquisa (especialmente porque parece que o Google já leva em conta o fator "proximidade" até certo ponto quando classifica resultados para múltiplos termos numa página). Caso ache este aplicativo útil como ferramenta ou venha a implementar novos módulos para exibição de maior variedade de resultados, nos informe por favor.

Campos de Formulários

Campos: O primeiro e segundo são desiginados para denomina-o querer achar em proximidade um ao outro. Ambos campos devem ser substituidos para o GAPS funcionar. Pode ser digitada uma única palavra ou uma frase de multi-palavra em cada campo do formulario. Desde que cada termo será tratado como uma frase exata, você não necessita citação nem hífens.

Proximidade (dentro de __ palavras): A distância máxima entre os dois termos de procura. Todas pesquisas incluem distância-zero nas solicitações, onde os termos estão imediatamente juntos, um ao outro.

Ordem: Se escolher ordenar, apenas a página onde o primeiro termo precede o segundo termo será encontrada; caso escolha em qualquer ordem, você também receberá páginas onde o segundo termo precede o primeiro termo.

Tipo: A ordem do tipo em que a lista final de resultados será exibida:

O título e tipos de URL são claros.

A Classificação por classes e categorias ainda está incompleta e provavelmente não funcionará de acordo com algumas solicitações que venha a realizar na pesquisa. A "classificação" em questão está simplesmente ordenando uma posição do resultado dentro da primeira página de resultados para a pesquisa. Então, se uma solicitação de pesquisa produz um único resultado, esta classificação do resultado será 1, ainda que a página tenha relevância muito pequena a qualquer dos termos da Pesquisa. Não há realmente nenhum meio de classificar os resultados de diferente pesquisa parente a si. Quando classifica por classificar, os resultados são submarino-classificados por proximidade.

A classificação por proximidade exibirá o resulta em ascender ordem de acordo com a distância entre os termos, então pagina onde os termos estão imediatamente junto um ao estará no topo. Quando classifica por proximidade, os resultados são submarino-classificados por classificar.

Termos adicionais: O que você entra aqui estará incluído em cada inquire. Use isto especificar palavras extras ou frases que podem aparecer em qualquer lugar numa página, não necessariamente perto dos dois termos principais. Você também pode usar - (menos) excluir termos, ou usa outro keywords de Google como local:, allintext:, etc. (Usando OU aqui provavelmente produzirá resultados estranhos.)

Limite total (exposição __ resultados) : Desde que uma procura pode fazer até 8 inquire, é possível para o script retornar até 80 resultados (embora isso é improvável). Use este cardápio se quer restringir o número total de resultados que será exibido. Anote que ainda que limita o total—diz, a 10—o script ainda compilará e classificará o pleno jogo de resultados para todo inquire, e então retornará os superiores 10.

O limite de por-página (até __ de cada inquire) : Por padrão, GAPS reune as informações em uma página com até 10 resultados para cada solicitação. Caso queira modificar as configurações para menos de 10 resultados utilize as opções deste menu .

Filtro: Este checkbox ativa ou desativa o filtro do  Google, que causa só um ou dois resultados de qualquer local dado ser exibidos numa página dada de resultados. Em geral, desativando um filtro resultará em um número maior de locais diferentes; invertendo o filtro obteremos mais resultados de cada um dos locais que são diretamente relevante a seus termos de procura.

Chave de Licença:
O Google exige que uma "Chave de Licença" seja passada para cada solicitação realizada. Estas Chave de Licença são designadas quando um desenvolvedor/empresário inscreve-se para usar o API do Google, e cada Chave de Licença atualmente permite 1000 "inquire" por dia. Por padrão, estes scripts usam tecla do brasilmedia.com; desde que os scripts fazem múltiplas solicitações (uma procura para termos "dentro de palavras de N em qualquer ordem" fará ((N+1) * 2) inquire), nós talvez atingimos esse limite rapidamente. Para esta razão, se você ja se inscreveu-se para o programa de API de Google e não faz uso do total de solicitações diárias (aproximam-se os 1000-inquire limite por chave de licença, nós apreciaríamos se você utilizar aqui, especialmente se planejar usar estes scripts extensamente. A Brasilmedia com não armazenará sua Chave de Licença nem faz outros usos, apenas neste momento, com o Google, para quaisquer pesquisas que você venha a fazer com estes scripts.

Código fonte

AS GAPS tem os seguintes componentes:

* gaps.cgi: o script de CGI de Perl
* ga_lib. pl: uma biblioteca de código de Perl com algumas rotinas compartilhado pelos
scripts de API de Google

Por favor sinta-se livre para baixar, para ler com atenção, e melhorar o script.
Os scripts foram codificados apressadamente, provavelmente, existe abundância nas possibilidade de melhoramento.

Se gostaria de hospedar uma versão espelhada de qualquer destes scripts no próprio local,
isso seria grande.
Uma instalação normal do Perl : Lite e URI: : Escapam (e uma chave de licença da API de Google)
deve ser tudo o que você vai necessitar.

Histórico das Versões

o 8/6/02 - versão 1,1 liberado

* Apoio Adicional para diacritically carácteres * Limpeza, declarações de variáveis.

o 4/24/02 - versão 1,0 liberado

Para fazer:

Possíveis realces futuros, algum iminente, algum mas um sonho distante:

* Resumo de página de ODP de Exposição e categoria se presente
* Google de Exposição "campo dos comentários de procura se retornado
* Permite distância maior entre palavras se operador fornece própria tecla de licença
* Capacita procurar adicional além de 10 resultados por inquirir. Meio mais simples provavelmente seria um "Mais elo
dos Resultados que justo receberia resultados 11-20, etc., para cada inquirem.

Contato

Envie um email googlescripts [EM] staggernation [PONTO] com com perguntas, comentários, relatórios de bug´s, solicitações de revisão, ou qualquer assunto relacionado.

  All content by Kevin Shay (contact), and licensed like so except where otherwise specified. Powered by Movable Type.

 

Trabalho baseado em uma idéia de Dave Winer, este Script em Perl usa uma API do Google para realizar Buscas no Google, utilizando uma URL para pesquisar páginas relacionadas com a palavra-chave, adicionando algumas características próprias à idéia básica para Pesquisas.

API de Busca por Domínio no Google (GAWSH)

Script em Perl, utilizando API do Google para realizar Buscas à partir de uma palavra-chave para Pesquisa (query string). Retorna uma lista de domínios na web como resultado.