AGENDA  ANUNCIE  ENQUETES  BLOGS  REVISTA ON-LINE  WHITE PAPERS  WEBCASTS  CADASTRE-SE   RSS
São Paulo,  Busca:
 
CANAIS: ÚLTIMAS NOTÍCIAS  ARTIGOS  NEGÓCIOS  INVESTIMENTOS  TECNOLOGIA  CARREIRA  SEGURANÇA
       
Destaques
Tecnologia de OCR
19/12/2007
 
Imprimir Enviar por E-mail   Tamanho da
letra
 

Longe de ser novidade no mercado de TI, as tecnologias de captura de dados ICR (Inteligent Character Recognition) e OCR (Optical Character Recognition) finalmente chegaram a um estágio de maturidade e excelente relação custo benefício. Este mercado, com suas necessidades e tendências, cada vez mais voltadas ao uso de GED (Gerenciamento Eletrônico de Documentos), Content Management e eliminação/redução na utilização de documentos em papel e captura de dados com rapidez, eficiência, confiabilidade, além de custos atraentes, passou a ser um requerimento bastante popular e constante em grande número de RFP´s no Brasil e no mundo. Optical Character Recognition, normalmente abreviado como OCR, é a tradução mecânica ou eletrônica de imagens de textos manuscritos ou impressos (usualmente capturados por um scanner) em texto eletrônico editável.

Outras nomenclaturas são utilizadas para variações desta tecnologia. Alguns exemplos são: ICR (Intelligent Character Recognition) que se aplica normalmente a reconhecimento de caracteres manuscritos. OMR (Optical Mark Recogntion) para reconhecimento de marcas tipicamente usadas em formulários com múltiplas opções de escolha.   Documentos e Aplicações Podemos classificar as aplicações de captura de documentos sob três grandes categorias no que se refere à tecnologia de OCR. Esta classificação está diretamente conectada aos tipos de documentos candidatos à captura de seus dados ou conteúdo de forma manual ou automática, ou seja, com o uso de OCR.   Documento Estruturado É o tipo de documento mais comumente chamado de formulário.

Para um documento ser considerado estruturado, seu formato deve ser fixo, incluindo seus campos e a localização de toda informação a ser capturada. Exemplos típicos deste tipo de documento são: formulários de imposto de renda, formulários de coleta de dados para o censo, formulários de aplicação para abertura de conta corrente e cadastramentos em geral, boletos de pagamento, DARFs, GAREs e etc. Mesmo que não sejam formulários típicos, se o documento tiver um padrão constante que possibilite a localização dos campos a serem capturados, ele pode ser considerado estruturado. Em outras palavras, nas aplicações consideradas estruturadas, sabemos que dados devemos capturar e onde estão localizados estes dados em cada documento.

Documento Semi-estruturado É o tipo de documento que contém campos conhecidos porém dispostos de maneira completamente variável de documento para documento, tipicamente pela diversificação de origem dos mesmos. Exemplos clássicos destes documentos são notas fiscais e relatórios de formato variável. Mais recentemente difundidas no mercado, as aplicações de captura de dados em documentos semi-estruturados chegaram para facilitar, reduzir custos e agilizar as aplicações de Contas a Pagar e Receber, integradas ou não aos sistemas ERP das empresas. Simplificando, a exemplo do que fizemos para as aplicações consideradas estruturadas, as semi estruturadas são aquelas em que sabemos o que devemos capturar, porém não sabemos onde estão localizados estes dados em cada documento. Neste caso, a solução é acrescentar uma etapa ao processo, onde todo o documento é “lido” (full text OCR) e, por intermédio de scripts, algoritmos sofisticados, palavras chave, topografia, mecanismos de aprendizado e etc, primeiramente localizamos os dados candidatos à captura para depois reconhecê-los campo a campo.

Documento não-estruturado São todos os tipos de documento que não se encaixam nas definições acima. São várias aplicações candidatas a uso de OCR para este tipo de documento. As mais popularizadas e utilizadas no mundo são as de “Classificação de Documentos”. Documentos não-estruturados podem ser processos administrativos, emails, correspondência ou qualquer informação que necessite ser capturada ou armazenada baseada em seu conteúdo e forma. Aplicações também chamadas de “full-text OCR” são tipicamente associadas a documentos não estruturados. Jornais, revistas, Diários Oficiais, pastas de RH e etc, serão “lidos” pelos motores de OCR e seu conteúdo será capturado e/ou classificado de acordo com a definição e necessidade da aplicação.

Tendências e Plataforma única Uma das tendências importantes que o mercado já reconhece e que a evolução da tecnologia já permite é a “mistura” de documentos de diversos tipos e formas dentro da mesma aplicação. Desta forma, a necessidade de preparação, separação ou classificação dos documentos de forma manual é eliminada. Portanto, um requisito bastante importante quando analisando uma solução de OCR para as necessidades de sua empresa é o conceito de Plataforma Única. Ou seja, a mesma solução tecnológica resolvendo seus problemas de captura em documentos estruturados, semi-estruturados e não-estruturados.   Ricardo Campelo é “Sales Director Américas” da Top Image Systems (TIS) –EUA Consultor CDIA com mais de 20 anos de experiências em TI e Gestão Documental. ricardo@topimagesystems.com

 
Ricardo Campelo*
 
News DOC NEWS: Quer saber mais informações sobre o mundo do ECM (Enterprise Content Management)?
Clique aqui para assinar a nossa news letter e receber diariamente as últimas notícias do setor.

 
Comentar | Comentários [ 0 ]
 
 MATÉRIAS RELACIONADAS
 
 ÚLTIMAS NOTÍCIAS
 
CA IT Client Manager dá recursos de automação completa
Publicado em 02/09/2010 às 14:30:00
Estressado pela Tecnologia? Você não está sozinho
Publicado em 02/09/2010 às 14:25:00
Capgemini adquire ações da CPM Braxis
Publicado em 02/09/2010 às 14:20:00
Pesquisa mostra insegurança do usuário de internet
Publicado em 02/09/2010 às 14:15:00
Sonda Procwork e IBM fazem oferta integrada
Publicado em 02/09/2010 às 14:10:00
Web 2.0 versus Segurança de Redes
Publicado em 02/09/2010 às 14:05:00
Autodesk anuncia crescimento de 14% em receita
Publicado em 02/09/2010 às 14:00:00
Empresas aumentam presença nas redes sociais
Publicado em 01/09/2010 às 14:40:00
Intel comprará os negócios Wireless da Infineon
Publicado em 01/09/2010 às 14:35:00
Citrix amplia liderança em computação aberta na nuvem
Publicado em 01/09/2010 às 14:30:00
 
 
 
 
 
   
   
 
 


PUBLICIDADE  
 
   
     
  Revista Digital  
 
  REVISTA DM - EDIÇÃO JUNHO 2010 - 6 Sigma
Six Sigma na gestão de documentos
 
  Revista Digital  
 
  Prevenir é melhor que remediar
Como prevenir vulnerabilidade e a perda de informações corporativas.
 
veja mais+
 
       
   
 
 
 
 
 
 
NOSSOS
PATROCINADORES:
  CONTEÚDO: Agenda | Enquetes | Revista On-line | Artigos | Notícias | RSS  
  INSTITUCIONAL: Expediente | Assinatura | Newsletter | Anuncie | Mapa site | Fale Conosco | Política de privacidade