
Tesseract OCR - система распознавания текста

Tesseract OCR - система распознавания текста
Вряд ли кто-то поспорит, что самой продвинутой системой распознавания текста в настоящее время является ABBYY FineReader. Я сам его постоянно использую при подготовке статей для сайта. Но вот возникла задача по распознаванию определенных текстов на большом количестве изображений (что-то типа схем или чертежей). Естественно, все должно делаться в автоматическом режиме, а результат был нужен уже вчера. Поискав возможные варианты решений, я остановился на Tesseract OCR. Это библиотека для распознавания текста с открытым исходным кодом, кроссплатформенная, с поддержкой юникода и более 100 языков "из коробки".
После установки Tesseract OCR и необходимых языковых файлов, можно сразу начинать работу. Вызов библиотеки выполняется из командной строки, в большинстве случаев для распознавания книжного скана будет достаточно команды:
tesseract.exe image.jpg outputfile -l rus+eng
В результате будет создан текстовый файл outputfile.txt, в который сохранится распознанный текст с изображения image.jpg, при этом для распознавания будут использованы русский и английский языки.
На моих изображениях было много иных графических элементов, не относящихся к текстам. Пришлось покурить мануал, а команда получилась следующая:
tesseract.exe image.jpg outputfile -l rus+eng --psm 11
Последний параметр предписывает библиотеке пытаться распознавать весь доступный текст, присутствующий на изображении. Например, если надо вытащить строку "Вариант NN" в виде текста из примерно такого изображения.

Вариант изображения
В моем случае схемы, естественно, были другие, но общий смысл задачи такой же. И даже без предварительного обучения и разметки документов библиотека Tesseract OCR справилась с задачей на отлично. На офсайте можно ознакомиться с примерами предварительной подготовки изображений, чтобы при распознавании добиться наилучшего результата.
Просмотров: 3254 | Комментариев: 5
Метки: система

Внимание! Статья опубликована больше года назад, информация могла устареть!
Комментарии
Отзывы посетителей сайта о статье
Артём
(05.12.2024 в 14:55):
Ноты ею распознавать можно?

Petya
(25.10.2023 в 18:41):
Ещё Яндексовский поиск по картинке может. Но тоже - только для человека, не для автомата.

ManHunter
(24.10.2023 в 11:01):
User, FR дает точно такой же результат, только у меня была задача сделать быстро. Я знаю про API и DLL от FineReader, с помощью которого когда-то ломали капчи на рапидшаре, но времени на освоение этого дела не было. И под никсы, насколько я знаю, подобное не реализовано.
Там зарплату не зря получают, так просто не подлезешь.
Абсолютно. 100% оффлайн, но если есть сомнения, то можно даже самостоятельно провести аудит исходников и собрать свой вариант.
Там зарплату не зря получают, так просто не подлезешь.
Абсолютно. 100% оффлайн, но если есть сомнения, то можно даже самостоятельно провести аудит исходников и собрать свой вариант.

Grey
(24.10.2023 в 08:58):
Что-то своё или важное непонятно куда грузить крайне неохота. Tesseract автономно работает? Не "отправляет" инфу?

User
(24.10.2023 в 01:47):
Являлся. Google Docs делает более качественное распознавание чем FR или Tesseract OCR.
1. Залить картинки на Google Диск.
2. Открыть их ПКМ с помощью Google Документы.
Получаем текст:
M16
Вариант 2
5
4
3
2
1
www.manhunter.ru
Вот если бы этот процесс автоматизировать ? ))

Добавить комментарий
Заполните форму для добавления комментария
