OCRopus

OCRopus
Тип	Оптическое распознавание символов
Разработчик	Thomas Breuel, DFKI
Написана на	C++ и Lua
Операционная система	GNU/Linux, Debian GNU/Hurd, Debian GNU/kFreeBSD
Первый выпуск	9 апреля 2007
Тестовая версия	0.4.4 (alpha) / 1 мая 2010
Лицензия	Apache License v2.0
Сайт	http://code.google.com/p/ocropus/

OCRopus — OCR-система на базе не так давно открытого распознающего ядра — tesseract Программный пакет для распознавания текста, развивающийся по принципам Open Source и распространяющееся под Apache License 2.0. По задумке разработчиков, с помощью OCRopus станет возможным определять текстовое содержимое на цифровых изображениях и переводить его в обычный текстовый формат для дальнейшего редактирования. Помимо печатного текста, программа сможет распознавать и рукописные материалы. По состоянию на альфа-релиз, OCRopus использует язык моделирования код из другого проекта поддерживаемого Google OpenFST. OCRopus в настоящее время доступна только для Linux, но существуют сборки и для Debian GNU/Hurd и Debian GNU/kFreeBSD.

Использование

В настоящее время OCRopus использует только интерфейс командной строки, принимая указания на входные изображения с текстом, и выводя данные в формате hOCR (открытый формат на основе HTML). Если необходим более точный контроль, можно указать в командной строке команды для выполнения конкретных операций (например, распознание одной строки).