OCR

La automatización de los procesos de captura de información y gestión documental mediante tecnologías ICR / OCR D. Sergio Navarro Responsable desarrol

4 downloads 270 Views 2MB Size

Recommend Stories


RECONOCIMIENTO DE TEXTOS: OCR
RECONOCIMIENTO DE TEXTOS: OCR Luis Martin-Cobos Blanco Ingenieria de Telecomunicaciones Universidad Carlos III de Madrid Av. De la Universidad, 30 289

INTELI8 ECUADOR OCR, ICR, OMR Y BCR
INTELI8 ECUADOR S O LU C I O N E S D E OCR, ICR, OMR Y BCR P A R A P R OY EC TO S D E D I G I TA L I Z AC I Ó N INSIGNIAS REPRESENTADAS WWW.INTELI8

SOBRE SENTIDO Y SIGNIFICADO GOTTLOB FREGE. Editorial Tecnos Estructura y Función Scan y OCR::Dulmorth
SOBRE SENTIDO Y SIGNIFICADO GOTTLOB FREGE © Editorial Tecnos Estructura y Función Scan y OCR::Dulmorth SOBRE SENTIDO Y SIGNIFICADO SOBRE SENTIDO

Story Transcript

La automatización de los procesos de captura de información y gestión documental mediante tecnologías ICR / OCR D. Sergio Navarro Responsable desarrollo negocio Área de Visión.

Indice 1 – Formato papel y formato electrónico 2 – Necesidad de la digitalización de documentos 3 – Tecnologías de digitalización del ITI 4 – Automatización y optimización de procesos de Gestión Documental

Formato papel y formato electrónico • Llevamos muchos años diciendo que el papel se va a dejar de usar, algún día, pero es evidente que ese día no termina de llegar. • Las razones son variadas, entre otras están: • Usabilidad • Manejabilidad • Bajo coste • La inercia de usuarios y procesos • etc… • Esto hace que aún resista frente a algunos inconvenientes: • Espacio de almacenamiento • Consulta de contenidos • Búsqueda de documentos

Formato papel y formato electrónico • Como sustituto del papel tenemos el documento electrónico, existen ya (o están a punto de hacerlo) todas las regulaciones necesarias para darle validez completa a nivel jurídico en todos los ámbitos. • Los documentos electrónicos tienen muchas ventajas frente al papel, pero tienen dos inconvenientes: • Perdurabilidad en el tiempo (soporte físico de almacenamiento, estandarización de formatos y validez de firmas) • Soporte físico de visualización y tratamiento más dependiente y costoso, la pérdida del soporte puede ser desastrosa (por ejemplo un simple pendrive con capacidad de almacenar miles de documentos potencialmente confidenciales)

Necesidad de la digitalización de documentos • Pese a las ventajas e inconvenientes de uno y otro formato la realidad impone la necesidad de compatibilizar ambos. • Algunas de las ventajas del documento en formato electrónico (optimización del espacio, consulta y búsqueda de documentos…) hacen que la Gestión Documental se haya decantado por usar el soporte electrónico como base para el almacenamiento de todos los documentos. • Para eliminar la distancia que separa a ambos formatos tenemos las herramientas de Digitalización, generalmente con capacidad de extracción de información: • OCR  Optical Character Recognition • ICR  Intelligent Character Recognition • OMR  Optical Mark Recognition • BCR  Barcode recognition • Otros…

Tecnologías de digitalización del ITI • El ITI dispone aproximadamente desde el año 1997 de tecnología propia de extracción de información de documentos digitalizados. • La tecnología desarrollada se ubica en el área de ICR • Diferencias entre OCR e ICR: •OCR: extrae información de documentos digitalizados cuyo contenido es texto impreso (por cualquier medio mecánico, ya sea imprenta, impresora u otros) • ICR: extrae información de documentos digitalizados cuyo contenido es texto manuscrito, continuo (escritura libre) o encasillado (formularios)

Tecnologías de digitalización del ITI • La tecnología de ICR del ITI permite combinar extracción de información de documentos mixtos que incluyan texto manuscrito continuo (con algunas restricciones) y encasillado. • Integra capacidad de OCR sobre texto impreso “flotante” • Integra capacidad de reconocimiento de marcas (OMR) para formularios tipo encuesta. • Esto posibilita el tratamiento de documentos variados (facturas, albaranes, liquidaciones, acuses de recibo postales, partes de trabajo, etc…) de forma unificada en una sola herramienta.

Tecnologías de digitalización del ITI. Algunos ejemplos • Ejemplo: Parte de trabajo

Tecnologías de digitalización del ITI. Algunos ejemplos • Ejemplo: Acuse de recibo

Tecnologías de digitalización del ITI. Algunos ejemplos • Ejemplo: Formulario encasillado

Tecnologías de digitalización del ITI. Corrección por ML’s • El ITI ha desarrollado una tecnología única para incrementar la calidad de la información extraída de los documentos. • Se denomina corrección por Modelo de Lenguaje o ML y es una mejora respecto a las tecnologías habituales de verificación basadas en diccionarios. • Con esta tecnología el software del ITI es capaz no sólo de detectar cadenas de texto erróneas (mediante diccionarios) sino que además es capaz de corregirlas automáticamente en base a una probabilidad estadística (frecuencia de aparición asociada a cada cadena en el Modelo) y devolver la cadena bien escrita. • Esta técnica permite que la fase de validación que habitualmente requieren estos sistemas se reduzca y permite alcanzar tasas de acierto en el reconocimiento equiparables a las del OCR, optimizando así el proceso y los costes del mismo.

Automatización y optimización de procesos de Gestión Documental • Habitualmente creemos que la Gestión Documental consiste en tener instalado en nuestra organización un sistema informático que permita gestionar la documentación  ERROR • La Gestión Documental empieza por tener definido un proceso de gestión de la documentación (física y electrónica) que garantice el control en todo momento sobre el ciclo de vida de los documentos, desde su creación hasta su archivado definitivo (probatorio e histórico) • El ejemplo más claro es el típico archivador de oficina, el no tener un proceso definido lleva a un archivo caótico (cajón de sastre), a veces se piensa que la solución es la implantación de un Gestor Documental pero ello lleva a trasladar el cajón de sastre al sistema informático no dando solución al problema real e incluso agravándolo.

Automatización y optimización de procesos de Gestión Documental • Para optimizar el proceso de gestión de la documentación en una organización hay que empezar por definir un procedimiento que abarque todos los aspectos del ciclo de vida de nuestros documentos. Esto nos llevará a obtener una lista de requisitos que serán los que exigiremos a la herramienta de Gestión Documental. •El ciclo de vida típico de un documento es el siguiente: • Creación  Fase activa del documento (se crea, edita, revisa) • Cierre  Se firma (si procede) y se almacena para consulta. • Archivado  Archivo del documento que garantice perdurabilidad temporal (con fines probatorios, como una factura, o por valor intrínseco del documento, como una escritura de propiedad, por ejemplo).

Automatización y optimización de procesos de Gestión Documental • Una vez definido el proceso de Gestión Documental, ¿Cómo se automatiza y optimiza?  Implantando una herramienta de Gestión Documental que incorpore capacidades de: OCR/ICR, almacenamiento, indexación, clasificación, etc…

Captura del Contenido (OCR/ICR e indexación) Entrada del documento (o creación)

Entrega (puesta a disposición de los usuarios)

Gestión del contenido (aplicación de políticas, clasificación)

Almacenamiento

Automatización y optimización de procesos de Gestión Documental • ¿Qué debe poder hacer el Gestor Documental para optimizar el proceso? • Capturar los documentos tanto físicos (papel) como electrónicos • Automatizar la extracción Inteligente de la información para su indexación y clasificación por palabras clave (OCR/ICR) • Almacenar los documentos en un repositorio central • Proporcionar medios para recuperar la información con métodos de búsqueda sencillos e intuitivos para los usuarios • Gestionar los ciclos de retención y eliminación de la documentación

MUCHAS GRACIAS POR SU ATENCIÓN

Get in touch

Social

© Copyright 2013 - 2024 MYDOKUMENT.COM - All rights reserved.