Humanidades digitais e a análise de textos usando as novas tecnologias

Estando empenhado num curso de Humanidades Digitais da UNED, Universidad Nacional de Educación a Distancia de Espanha, acho que é chegado o tempo de sugerir aos criadores institucionais e não só de conteúdos Históricos Portugueses, como é o caso por exemplo da Hemeroteca Digital da Câmara de Lisboa ou o RIC - Revista da Ideias e Cultura e a própria Biblioteca Nacional Digital de Portugal, que comecem a colocar os seus conteúdos, para além do "Scan" de imagens, também no formato de texto editável, para se conseguir, de maneira mais simples, fazer análises estilo-métricas dos textos ai disponibilizados em formato digital. Consideramos que será um bom passo para ajudar na investigação relacionada com as humanidades digitais.

Vejamos o que quero dizer. Se quisermos, por exemplo, fazer uma análise de texto usando a linguagem de programação R, de todos os fascículos da revista, O Panorama, jornal litterário e instructivo da Sociedade Propagadora dos Conhecimentos Úteis, um jornal do século XIX que chegou a ser dirigido por Alexandre Herculano e onde colaboraram entre outros, Camilo Castelo Branco e João de Deus. Vamos ao site da Hemeroteca Digital e ai encontramos todos os fascículos em formato PDF e HTML cujo conteúdo está em imagens, um formato que obriga a posteriormente usar um programa de OCR para passar a texto editável, por exemplo em formato ASCII, que poderá ter a extensão .txt, um tipo de ficheiro que podemos encontrar muito frequentemente em computadores pessoais.

http://hemerotecadigital.cm-lisboa.pt/OBRAS/OPanorama/OPanorama.htm

Indo por exemplo ao site dos Internet Archives, que é uma instituição que funciona à base de donativos, de tempos a tempos fazem uma campanha para recolher donativos de todo o mundo, tendo já em tempos ajudado com $5, conseguimos chegar a alguns dos fascículos deste jornal em todos estes formatos abaixo indicados,
 

 
sendo que o Full Text é o que permite colocar todo o texto em ficheiro, por exemplo do tipo ASCII, que permitirá, após uma limpeza inicial, que a linguagem R fornece em algumas das suas bibliotecas disponíveis, fazer uma análise estilo-métrica do seu conteúdo. E atenção, que a julgar pela ficha técnica da passagem do documento para digital, o trabalho nem foi feito com equipamentos muito caros. Uma Canon 5D e o programa de OCR Abbyy Finereader 8.0 que atualmente já vai na sua versão 15.
 
 Obrigado pela leitura e até breve.








Comentários

Mensagens populares