Tesseract

Tesseract
Тип	оптическое распознавание символов
Разработчики	Hewlett-Packard, Google
Написана на	C++
Интерфейс	командная строка
Операционная система	Linux, Mac OS X и др. UNIX-подобные, Windows
Первый выпуск	середина 1980-х
Последняя версия	3.01 (21 октября 2011^[1])
Состояние	активное
Лицензия	Apache 2.0
Сайт	code.google.com

Tesseract — свободная компьютерная программа для распознавания текстов, разрабатывавшаяся Hewlett-Packard с середины 1980-х по середину 1990-х, а затем 10 лет «пролежавшая на полке». В августе 2006 г. Google купил её и открыл исходные тексты под лицензией Apache 2.0^[2] для продолжения разработки. В настоящий момент программа уже работает с UTF-8, поддержка языков (включая русский с версии 3.0^[3]^[4]) осуществляется с помощью дополнительных модулей.

История

Ядро программы Tesseract было разработано в Бристольской лаборатории Hewlett Packard и в Hewlett Packard Co, Greeley штат Колорадо в 1985—1994 годах. В 1996 были проведены значительные изменения и подготовлен порт для Windows. Затем, с 1998 года — частичная миграция с Си на Си++. Значительная часть кода изначально написана на Си, но проводились доработки для совместимости с Си++ компиляторами.^[2]

В настоящее время Tesseract 3.0 собирается под Linux с GCC 2.95 и старше и под Windows с Visual C++ 2008 Express и старше (поддержка Visual C++ 6 была удалена в версии 3.0^[3]). Код на C++ часто использует множество макросов для реализации контейнеров.

Графические интерфейсы для Tesseract

YAGF
OCRFeeder
gImageReader

Интересные факты

Программа Tesseract используется менеджером загрузок Tucan Manager для распознавания текстов в тестах CAPTCHA.

Примечания

Репозиторий Tesseract.

↑ Announcing Tesseract OCR (August 2006). Архивировано из первоисточника 18 марта 2012. Проверено 26 июня 2008.

↑ Tesseract 3.00 Released.

Tesseract Download Page. Архивировано из первоисточника 18 марта 2012.

Ссылки

Руководство по обучению программы русскому языку

Страница с исходными кодами Tesseract Source

Java/.NET GUI фронтенд для движка Tesseract OCR

Это заготовка статьи о программном обеспечении. Вы можете помочь проекту, исправив и дополнив её.

Программное обеспечение для оптического распознавания символов

Свободное

CuneiForm • GOCR • Ocrad • OCRopus • Tesseract

Графические интерфейсы

OCRFeeder • YAGF

Проприетарное

Cognitive Forms • Expervision • FineReader • Microsoft Office Document Imaging • OmniPage • Readiris • ReadSoft • SimpleOCR • SmartScore • ViewWise

Chefeat.ru

Здоровое питание

Новое