Google: open source para limpeza de data set

A Google lança o software Refine 2.0 para fornecer limpeza de base de dados gratuitamente. A empresa adquiriu a tecnologia em 2009, que anteriormente pertencia a Meraweb e se chamava Freebase Gridworks.

A ferramenta trabalha com variações de digitação em data set, análise e transformação de conjuntos, além de utilizar filtros de isolamento e vincular registros a outros bancos de dados.

12 de novembro de 2010 - 14:07

A Google lança o software Refine 2.0 para fornecer limpeza de base de dados gratuitamente. A empresa adquiriu a tecnologia em 2009, que anteriormente pertencia a Meraweb e se chamava Freebase Gridworks.

A ferramenta trabalha com variações de digitação em data set, análise e transformação de conjuntos, além de utilizar filtros de isolamento e vincular registros a outros bancos de dados.

O Refine aceita arquivos de texto puro e exporta em formato JavaScript Object Notation, que podem ser convertidos em tabelas HTML.

Segundo a empresa, o software pode funcionar com até 100 mil linhas por data set, dependendo da memória do computador do usuário. E pode ainda transformar, de forma interativa, os subconjuntos de dados.