Blog. Just Blog

Tesseract OCR - система распознавания текста

Версия для печати Добавить в Избранное Отправить на E-Mail | Категория: Software | Автор: ManHunter
Tesseract OCR - система распознавания текста
Tesseract OCR - система распознавания текста

Вряд ли кто-то поспорит, что самой продвинутой системой распознавания текста в настоящее время является ABBYY FineReader. Я сам его постоянно использую при подготовке статей для сайта. Но вот возникла задача по распознаванию определенных текстов на большом количестве изображений (что-то типа схем или чертежей). Естественно, все должно делаться в автоматическом режиме, а результат был нужен уже вчера. Поискав возможные варианты решений, я остановился на Tesseract OCR. Это библиотека для распознавания текста с открытым исходным кодом, кроссплатформенная, с поддержкой юникода и более 100 языков "из коробки".

После установки Tesseract OCR и необходимых языковых файлов, можно сразу начинать работу. Вызов библиотеки выполняется из командной строки, в большинстве случаев для распознавания книжного скана будет достаточно команды:

tesseract.exe image.jpg outputfile -l rus+eng
В результате будет создан текстовый файл outputfile.txt, в который сохранится распознанный текст с изображения image.jpg, при этом для распознавания будут использованы русский и английский языки.

На моих изображениях было много иных графических элементов, не относящихся к текстам. Пришлось покурить мануал, а команда получилась следующая:

tesseract.exe image.jpg outputfile -l rus+eng --psm 11
Последний параметр предписывает библиотеке пытаться распознавать весь доступный текст, присутствующий на изображении. Например, если надо вытащить строку "Вариант NN" в виде текста из примерно такого изображения.

Вариант изображения
Вариант изображения

В моем случае схемы, естественно, были другие, но общий смысл задачи такой же. И даже без предварительного обучения и разметки документов библиотека Tesseract OCR справилась с задачей на отлично. На офсайте можно ознакомиться с примерами предварительной подготовки изображений, чтобы при распознавании добиться наилучшего результата.

Поделиться ссылкой ВКонтакте
Просмотров: 1642 | Комментариев: 4

Метки: система

Комментарии

Отзывы посетителей сайта о статье
Petya (25.10.2023 в 18:41):
ЦитатаGoogle Docs делает более качественное распознавание чем FR или Tesseract OCR.

Ещё Яндексовский поиск по картинке может. Но тоже - только для человека, не для автомата.
ManHunter (24.10.2023 в 11:01):
User, FR дает точно такой же результат, только у меня была задача сделать быстро. Я знаю про API и DLL от FineReader, с помощью которого когда-то ломали капчи на рапидшаре, но времени на освоение этого дела не было. И под никсы, насколько я знаю, подобное не реализовано.
ЦитатаВот если бы этот процесс автоматизировать ?  ))

Там зарплату не зря получают, так просто не подлезешь.

ЦитатаTesseract автономно работает? Не "отправляет" инфу?

Абсолютно. 100% оффлайн, но если есть сомнения, то можно даже самостоятельно провести аудит исходников и собрать свой вариант.
Grey (24.10.2023 в 08:58):
Что-то своё или важное непонятно куда грузить крайне неохота. Tesseract автономно работает? Не "отправляет" инфу?
User (24.10.2023 в 01:47):
ЦитатаВряд ли кто-то поспорит, что самой продвинутой системой распознавания текста в настоящее время является ABBYY FineReader.

Являлся. Google Docs делает более качественное распознавание чем FR или Tesseract OCR.
1. Залить картинки на Google Диск.
2. Открыть их ПКМ с помощью Google Документы.

Получаем текст:
M16
Вариант 2
5
4
3
2
1
www.manhunter.ru

Вот если бы этот процесс автоматизировать ?  ))

Добавить комментарий

Заполните форму для добавления комментария
Имя*:
Текст комментария (не более 2000 символов)*:

*Все поля обязательны для заполнения.
Комментарии, содержащие рекламу, ненормативную лексику, оскорбления и т.п., а также флуд и сообщения не по теме, будут удаляться. Нарушителям может быть заблокирован доступ к сайту.
Наверх
Powered by PCL's Speckled Band Engine 0.2 RC3
© ManHunter / PCL, 2008-2024
При использовании материалов ссылка на сайт обязательна
Время генерации: 0.06 сек. / MySQL: 2 (0.0024 сек.) / Память: 4.5 Mb
Наверх