INEWS
n
º 28
JUNHO’ 2016
-14-
voltarO INE desenvolveu internamente um modelo que permite
controlar todo o processo do ciclo
Web Scraping
. A infraestrutura
- extração, armazenamento e análise - utiliza o
Python
como
linguagem base de programação, sendo integralmente apoiada
em ferramentas “free” e “open source”.
Pretende-se, assim, fomentar uma cultura de inovação que
estimule a investigação por parte dos técnicos, incentive o
debate sobre os processos tecnológicos e metodológicos em
uso e abra caminho à exploração e utilização de técnicas de
Big
Data
, como fonte alternativa ou complementar aos inquéritos
do INE, permitindo futuramente reduzir o custo da informação
produzida.
Este projeto de I&D está em linha com práticas semelhantes
seguidas à escala internacional, sendo cofinanciado pelo
Eurostat (no âmbito da modernização das estatísticas de preços
no consumidor).
Um “ciclo”
Web Scraping
é composto por várias fases:
i) estudo da página web da qual se quer extrair informação;
ii) desenvolvimento e teste do código de extração e limpeza da informação;
iii) e, finalmente, armazenamento em base de dados.