Historias
Slashboxes
Comentarios
 

Google impulsa un OCR de código abierto

editada por Yonderboy el 11 de Abril 2007, 12:49h   Printer-friendly   Email story
desde el dept. reconocimiento-óptico-de-caracteres
xomoxo nos cuenta: «Google va a patrocinar el desarrollo de un OCR Open Source (traducción). El proyecto tiene como objetivos avanzar en el reconocimiento óptico de caracteres y tecnologías relacionadas para ofrecer un sistema OCR de alta calidad que permita usarlo para la conversión de documentos, para crear librerías electrónicas, ofrecer un mejor soporte para disminuidos ópticos, en análisis de documentos históricos y para el uso de escritorio en general.»

Historias relacionadas

[+] Google publica un OCR de código abierto 25 comentarios
Sergiodf nos cuenta: «A través de OSNews me entero de que Google hace unos meses lanzó como código abierto Tesseract, un software de OCR que ahora re-lanza. En la noticia en su blog, Google dice que es el mejor de los OCR open source.» Al parecer, fue desarrollado originalmente por los laboratorios de HP entre 1985 y 1995.
Este hilo ha sido archivado. No pueden publicarse nuevos comentarios.
Mostrar opciones Umbral:
Y recuerda: Los comentarios que siguen pertenecen a las personas que los han enviado. No somos responsables de los mismos.
  • Excelente

    (Puntos:2)
    por Mu (11278) el Miércoles, 11 Abril de 2007, 12:59h (#898273)
    ( http://www-etsi2.ugr.es/alumnos/mu01/guerraSoftware.html | Última bitácora: Viernes, 03 Diciembre de 2010, 10:41h )
    Imagino que tiene que ver con el proceso de digitalización de libros que está realizando Google, aunque seguramente les hubiese salido más barato adquirir la licencia de uno comercial. Aplaudo la iniciativa porque Google sacará beneficio, pero haciendo las cosas así algo queda para todos.
    --
    Gdado dice roller [sourceforge.net]
  • por ant30 (24544) <{ant30tx} {at} {gmail.com}> el Miércoles, 11 Abril de 2007, 13:01h (#898274)
    ( http://ant30.es/ | Última bitácora: Martes, 04 Marzo de 2008, 21:40h )
    --

    ant30 dice: No rendirse nunca salvo cuando sea justo y necesario es la respuesta.
    • Re:Me suena de haberlo leído antes pora qu de kkman (Puntos:2) Miércoles, 11 Abril de 2007, 13:32h
    • Tesseract != ocropus

      (Puntos:5, Informativo)
      por suy (8275) el Miércoles, 11 Abril de 2007, 21:05h (#898445)
      ( http://www.badopi.org/ | Última bitácora: Sábado, 25 Septiembre de 2010, 17:26h )

      Eso pensaba yo al leer el titular, pero si hacemos el favor de leer antes de rajar, verás que...

      The project is expected to run for three years and support three Ph.D. students or postdocs. We are announcing a technology preview release of the software under the Apache license (English-only, combining the Tesseract character recognizer with IUPR layout analysis and language modeling tools), with additional recognizers and functionality in future releases.

      ...y...

      Existing software components include high-performance handwriting recognition software (...), the recently open sourced Tesseract OCR system, a separate Google project for probabilistic natural language modeling, and software for layout analysis and character recognition. The IUPR research group gratefully acknowledges funding by the German BMBF, the state of Rhineland Palatinate, and other public and private partners (please see www.iupr.org for more details).

      Yo también creo que el editor no se ha leído mucho la noticia, o no la entiende (yo tampoco la verdad, pero no la he editado :P), pero parece que lo que ahora se libera, se combina con lo anterior.

      --

      Escribiendo de demasiadas cosas [barnacity.net] desde 2003.

      [ Padre ]
    • 1 respuesta por debajo de tu umbral de lectura actual.
  • Chachi

    (Puntos:5, Divertido)
    por Inconexo (20311) el Miércoles, 11 Abril de 2007, 14:33h (#898313)
    ( http://asqueados.campanilla.net/wp | Última bitácora: Martes, 21 Septiembre de 2010, 10:54h )
    4 ver si es7a veZ sale al6o en con ici0n s

    P6gina 1
    --
    Para ser codigo abierto, no basta con que este abierto a la vista, sino tambien a la modificacion y redistribucion
  • [Off Topic]

    (Puntos:1, FueraDeTema)
    por escribanoruben (25276) el Miércoles, 11 Abril de 2007, 16:37h (#898367)
    ( http://barrapunto.com/ )
    Excelente noticia ya sólo falta una aplicación CAD de código abierto que pueda hacer frente a omnipresente AutoCAD.
    Se que la mayor parte de gente que necesita este tipo de software para trabajar, prefieren usar un AutoCAD 200X pirata, que sus equivalentes de código abierto. Con todos mis respetos a las aplicaciones ya existentes como QCad.
    --
    Aquel que sacrifica libertad por seguridad no merece ninguna de las dos
  • Licencia Apache 2.0

    (Puntos:2)
    por Candyman (7) el Jueves, 12 Abril de 2007, 23:24h (#898964)
    ( Última bitácora: Jueves, 09 Diciembre de 2010, 01:17h )
    La elección de licencia es muy interesante porque la Apache 2.0 es una licencia permisiva en cuanto a los derechos de autor, pero tremendamente
    combativa en cuanto a las patentes de software. Más concretamente, es una licencia sin copyleft pero con cláusula de cesión de patentes (y de
    rescisión en caso de pleito por patentes) que será compatible con la GPL v3. De hecho, uno de los objetivos de la FSF en el proceso de actualización de la GPL es la compatibilidad con la Apache 2.0.

    La voluntad de aportación de Google al software libre parece inequívoca: falta ver si alguna vez usarán sus patentes de forma ofensiva, pero el hecho de que hayan escogido esta licencia, con su cláusula de cesión de patentes de software y y su cláusula de defensa en caso de pleito, sugiere que su estrategia de patentes es defensiva, y no ofensiva. Recordemos que el [apache.org]
    proyecto Apache diseñó una cláusula puramente defensiva, porque no tenían patentes propias.

    En cuanto al copyright o derechos de autor, tampoco podían haber escogido una licencia mejor: el hecho de que sea permisiva (no copyleft) permite tanto su distribución binaria en dispositivos empotrados como su inclusión en proyectos bajo la futura GPL v3. Por ejemplo, este software podrá integrarse dentro de Scribe, el sistema de digitalización de libros (completamente libre bajo la GPL, y que corre sobre Linux) del proyecto Open Library de Archive.org.

    Sólo me queda una duda, que quizá los que estéis más al tanto de este tipo de cosas me podáis aclarar: Tesseract era libre, pero dependía de unas bibliotecas de redes neuronales no libres. ¿Conserva OCRopus esa dependencia, o es ya un proyecto totalmente libre? Para entendernos en
    términos de Debian, Tesseract era un proyecto libre que tendría que haber ido a contrib. ¿Está OCRopus listo para main?
  • Re:Qué estupidez

    (Puntos:3, Inspirado)
    por sorrill (13858) el Miércoles, 11 Abril de 2007, 20:06h (#898435)
    ( http://barrapunto.com/ )
    Dos aproximaciones distintas:

    1) La diversificación permite que existan opciones para todas las ocasiones, mejor tener mil OCR que solo uno.

    2) "siento no acordarme del nombre" = "Ahí las dao"
    [ Padre ]
  • Re:Qué estupidez

    (Puntos:1)
    será gocr? lo he usado.. y aunque no es malo. no es tan exacto... quizás si usara aspell para poder buscar por similitud de palabras y no sólo por letras... per0 de t0d45 f0rmaS e_ b_en0
    --

    -------
    [es_CL]
    Demoncrusher: ThrashMetal [demoncrusher.com]

    [ Padre ]
  • 4 respuestas por debajo de tu umbral de lectura actual.