No mundo rico em dados de hoje, empresas, governos e indivíduos querem analisar tudo o que está ao seu alcance – e se há uma coisa que a “velha” World Wide Web tem a oferecer, é bastante informação. Atualmente, o material mais facilmente indexado na web é o texto. Mas cerca de 96% do conteúdo na internet é realmente outra coisa – imagens, vídeos, áudios e todos os milhares tipos diferentes de dados não-textuais.
Além disso, a grande maioria do conteúdo online não está disponível de uma forma que é facilmente indexada por sistemas de arquivamento eletrônico como o Google. Em vez disso, requer que um usuário faça login ou que esse conteúdo seja fornecido dinamicamente por um programa em execução quando um usuário visita a página.
Se quisermos catalogar o conhecimento humano online, precisamos ter a certeza de que podemos obter e reconhecer todos ele, e que isso seja feito automaticamente. É o que diz Christian Mattmann, Especialista em Recuperação de Informação, Principal Cientista de Dados da NASA e um dos criadores do sistema Apache Tika.
Como podemos programar os computadores a reconhecer, indexar e pesquisar todos os diferentes tipos de material disponíveis online? Graças aos esforços federais na luta global contra o tráfico de seres humanos e o tráfico de armas, uma recente pesquisa formou a base para uma nova ferramenta que pode ajudar com esse esforço.
Compreendendo o que é profundo
A Deep Web e a Dark Web vem sendo, freqüentemente, discutidas no contexto de notícias assustadoras ou obras como o filme Deep Web, no qual criminosos jovens e inteligentes estão deixando suas atividades ilícitas como tráfico de drogas e tráfico de seres humanos ou coisa pior. Mas o que significam esses termos?
A “deep web” já existe desde que empresas e organizações, incluindo universidades, colocaram grandes bancos de dados online de uma maneira que as pessoas não conseguiam visualizar estes dados diretamente. Para impedir que alguém obtenha os números de telefone e os endereços de e-mail dos alunos, por exemplo, muitas universidades exigem que as pessoas iniciem sessão como membros da comunidade do campus, antes de procurarem diretórios online para obter informações de contato.
Serviços online como o Dropbox e o Gmail são acessíveis ao público e fazem parte da World Wide Web – mas a indexação dos arquivos e e-mails de um usuário nestes lugares exige um login individual, com o qual este projeto não se envolve.
A “surface web” é o mundo online que podemos ver – sites de compras, páginas de informações de empresas, organizações de notícias e assim por diante. A “deep web” está intimamente relacionada, mas menos visível, aos usuários comuns e aos motores de busca que exploram a web para catalogá-la.
O que tem no escuro?
A Dark Web, por outro lado, são páginas (algumas das quais também podem ter elementos da “deep web”) hospedadas por servidores web usando o protocolo anônimo chamado Tor. Originalmente desenvolvida por pesquisadores do Departamento de Defesa dos Estados Unidos para proteger informações sensíveis, a ferramenta Tor foi liberada ao domínio público em 2004.
Como muitos sistemas seguros, como o aplicativo de mensagens WhatsApp, seu propósito original era bom, mas também passou a ser usada por criminosos que se escondem atrás do anonimato do sistema para cometer crimes como tráfico de drogas, armas e tráfico de pessoas.
O governo norte americano tem se interessado em tentar encontrar formas de usar as modernas tecnologias da informação e informática para combater essas atividades criminosas. Em 2014, a Agência de Projetos de Pesquisa Avançada de Defesa (mais conhecida como DARPA), uma parte do Departamento de Defesa do governo, lançou um programa chamado Memex para combater o tráfico humano com essas ferramentas.
Especificamente, a função do “Memex” é criar um índice de pesquisa que ajudaria a identificar operações de tráfico humano online – em particular, pela mineração da deep e dark web. Um dos principais sistemas utilizados por equipes de estudantes, funcionários do governo e especialistas da indústria é o sistema conhecido como Apache Tika.
O “Peixe Digital de Babel”
Muitos se referem ao Tika como “Digital Babel Fish”, um jogo sobre uma criatura da série de livros O Guia do Mochileiro das Galáxias, conhecida como “Peixe Babel”. Segundo a história, uma vez que o Peixe Babel fosse inserido no ouvido de uma pessoa, ele a permitia entender qualquer língua falada. E é basicamente isso que o Tika faz, permite aos usuários entenderem qualquer arquivo e informação contida nele.
Quando o Tika examina um arquivo, ele identifica automaticamente que tipo de arquivo é. Para isso ele usa um processo chamado Taxonomy (que classifica palavras-chave com metodologia hierárquica) para obter o nome e a extensão do arquivo. Quando ele encontra um arquivo cujo nome termina em “.mp4”, por exemplo, ele assume que é um arquivo de vídeo armazenado em formato “MPEG-4”. Ao analisar diretamente os dados no arquivo, o Tika é capaz de confirmar ou refutar essa suposição. Todos os arquivos de vídeo, áudio, imagem e outros, começam com códigos específicos dizendo em que formato seus dados estão armazenados.
Assim que o tipo de do arquivo é identificado, o Tika usa ferramentas específicas para extrair seu conteúdo, como o Apache PDFBox para arquivos PDF, ou Tesseract para capturar texto de imagens. Além do conteúdo, outras informações forenses ou “metadados” são capturados, incluindo a data de criação do arquivo, quem o editou por último e a linguagem em que o arquivo foi programado.
A partir daí, o Tika usa técnicas avançadas como Named Entity Recognition (NER) para analisar o texto. O NER identifica substantivos próprios e estrutura de oração e, em seguida, compara essa informação a bancos de dados de pessoas, lugares e coisas, identificando não apenas sobre quem o texto está falando, mas onde e por que está fazendo isso.
Identificando atividades ilegais
Aprimorar o Tika durante o projeto Memex, o tornou ainda melhor no manuseio de arquivos multimídia e outros conteúdos encontrados na deep e dark web. Agora o Tika é capaz de processar e identificar imagens com temas comuns de tráfico humano. Por exemplo, ele pode automaticamente processar e analisar textos em imagens e identificar pessoas, lugares e coisas que aparecem nestas imagens.
Além disso, software adicionais pode ajudar o Tika a encontrar armas automáticas e identificar o número de série de uma arma. Isso pode ajudar a rastrear se a arma é roubada ou não. Usar o Tika para monitorar continuamente a deep e dark web, poderia ajudar a identificar situações de tráfico humano e de armas logo após as fotos serem postadas online.
Apesar do Memex ser bastante avançado, ele ainda não é poderoso o suficiente para lidar com todo o massivo conteúdo que está na web. Ainda deve levar algum tempo e mais desenvolvimento para ele alcançar seus objetivos. O Tika e seus pacotes de software adicionais fazem parte de uma biblioteca de software de código aberto que está disponível no catálogo da DARPA para qualquer pessoa que queira usar.