PythonClub - A Brazilian collaborative blog about Python: Raspando a Web com Python: Introdução

Todo projeto que deseja raspar dados da web se resume ao seguinte loop:

Fazer uma requisição para uma URL;
Processar a resposta (HTML, XML ou JSON);
Extrair os dados;
Deduzir as próximas URLs a visitar;
Repetir o loop.

A parte mais difícil aqui é processar o HTML. É um processo todo delicado, o HTML é cheio de detalhes para tolerar tags que não fecham, símbolos largados nos lugares errados e por aí vai. Por isso é difícil ter um parser (processador) de HTML nas bibliotecas-padrão de qualquer linguagem, seja Python, Ruby, Javascript ou PHP. Já XML e JSON são formatos muito mais estritos e tem parsers nativos em qualquer linguagem.

Vamos ver como pegar os gastos da Copa do Mundo 2014, expostos em XML. Alguns browsers vão exibir o XML como uma árvore, facilitando a visualização da estrutura -- meu browser favorito, o Firefox, faz isso.

Nesse XML você pode ver um elemento maior, o collection, com muitos elementos copa:empreendimento dentro. Esse prefixo copa: corresponde a um namespace, um recurso do XML para poder misturar elementos de vocabulários distintos. É importante prestar atenção nisso para podermos informar o nosso parser de XML.

Para começar o loop, vamos carregar a URL e popular uma árvore de elementos -- uma abstração do Python para podermos manipular mais facilmente esses dados:

fromxml.etreeimportElementTreefromurllib.requestimporturlopendata_url="http://www.portaltransparencia.gov.br/copa2014/api/rest/empreendimento"withurlopen(data_url)asdatafile:data=ElementTree.parse(datafile)

Repare como carregar uma URL no Python 3 tem uma sintaxe confortável, idêntica à sintaxe de abrir arquivos. Agora pra seguir o loop, vamos extrair o que nos interessa: o gasto (valorTotalPrevisto) de cada empreendimento iniciado ou concluído (cujo andamento não esteja no estado 1, Não iniciado).

spending=[float(element.find('./valorTotalPrevisto').text)forelementindata.iterfind('.//copa:empreendimento',namespaces={'copa':data_url[:46]})ifelement.find('./andamento/id').text!='1']

Pegar elementos de um ElementTreeé fácil usando o método iterfind (retorna um iterável, pra usar com for) ou findall (retorna uma lista propriamente dita). Já pegar o conteúdo de um elemento exige apenas chamar o atributo .text. Fácil, não?

Isso daria certo se os dados fossem consistentes, mas... outro porém! O XML é estrito -- as tags fecham, os símbolos estão no lugar certo, está tudo certo, mas os dados em si não são consistentes. Nem todo elemento copa:empreendimento tem um elemento valorTotalPrevisto dentro. E agora?

É simples: vamos encapsular o processamento desse valor em um método simples, que retorna zero quando não existe valor total previsto (pra facilitar a soma, depois).

defget_cost(element):cost=element.find('./valorTotalPrevisto')return0if(costisNone)elsefloat(cost.text)

Agora basta chamar o get_cost na nossa compreensão de lista:

spending=[get_cost(element)forelementindata.iterfind('.//copa:empreendimento',namespaces={'copa':data_url[:46]})ifelement.find('./andamento/id').text!='1']

E aí podemos finalmente somar todos os valores encontrados e imprimir usando o poderoso método format do Python (estude!).

print('Foram gastos {total:.2f} dinheiros do governo brasileiro'.format(total=sum(spending)))

Bônus: Uma versão mais idiomática (PYTHONICA) do código está disponível no meu Gist. Fique à vontade para contribuir, comentar, melhorar, etc :)

Agradecimentos ao Fernando Masanori que começou a brincadeira com esses dados!

PythonClub - A Brazilian collaborative blog about Python: Raspando a Web com Python: Introdução

Trending Articles

Practice Sheet of Right form of verbs for HSC Students

Download: FK ft Shenky – Nakuyewa ”Prod by: Shenky”

How to win at Markstrat (Markstrat Tips and Tricks) – Vodites

Ominde Commission Report and Recommendations – Ominde Report of 1964

Bureau of Internal Revenue: Regional Offices (Directory)

GO 53 on Enhancement of Ex-gratia upto 5 Lakhs Toddy Tappers in Telangana

Cakewalk CA-2A Leveling Amplifier v2.0.1.97 WiN, v2.0.1.96 OSX Incl Keygen

Mp3 Download: Mdu - Kunjenjenjena

How the kill the job , when DTP request running for long hours.

Microsoft Intune から展開しているアプリのアップデートについて

18-year-old girl was beaten for half an hour by two Northampton men in 'an...

Car crash in Dunton Bassett leaves driver in critical condition

Macky 2, Two Others In Road Accident

Application log 00000000000000089514: Could not convert queue DLVST90CLNT

Detroit mafia: D’Anna Brothers agree to plea deal

Delivery block field greyed out using VA02

Muloraki Au

【個人撮影】スマホのプライベート映像♪「中に出さないで///」カラオケ屋での生ハメ撮りが流出ｗ【リベンジポルノ】＠PornHub

BREAKING NEWS: Diamond Platnumz Is Reported Dead After Ghastly Car Accident

FIAT 500 B0111 B0112