Humanidades digitais e a análise de textos usando as novas tecnologias
Estando empenhado num curso de Humanidades Digitais da UNED, Universidad Nacional de Educación a Distancia de Espanha, acho que é chegado o tempo de sugerir aos criadores institucionais e não só de conteúdos Históricos Portugueses, como é o caso por exemplo da Hemeroteca Digital da Câmara de Lisboa ou o RIC - Revista da Ideias e Cultura e a própria Biblioteca Nacional Digital de Portugal, que comecem a colocar os seus conteúdos, para além do "Scan" de imagens, também no formato de texto editável, para se conseguir, de maneira mais simples, fazer análises estilo-métricas dos textos ai disponibilizados em formato digital. Consideramos que será um bom passo para ajudar na investigação relacionada com as humanidades digitais.
Vejamos o que quero dizer. Se quisermos, por exemplo, fazer uma análise de texto usando a linguagem de programação R, de todos os fascículos da revista, O Panorama, jornal litterário e instructivo da Sociedade Propagadora dos Conhecimentos Úteis, um jornal do século XIX que chegou a ser dirigido por Alexandre Herculano e onde colaboraram entre outros, Camilo Castelo Branco e João de Deus. Vamos ao site da Hemeroteca Digital e ai encontramos todos os fascículos em formato PDF e HTML cujo conteúdo está em imagens, um formato que obriga a posteriormente usar um programa de OCR para passar a texto editável, por exemplo em formato ASCII, que poderá ter a extensão .txt, um tipo de ficheiro que podemos encontrar muito frequentemente em computadores pessoais.
http://hemerotecadigital.cm-lisboa.pt/OBRAS/OPanorama/OPanorama.htm |
Comentários
Enviar um comentário