Погода:
Киев сегодня
Киев
Донецк
Одесса
Львов
Харьков
Санкт-Петербург
Москва
Сегодня Завтра
НБУ
НБУ Межбанк Наличные
EUR
26.18
USD
23.49
RUB
0.37
EUR
39.04
USD
36.57
RUB
0.34
EUR
29.22
USD
26.07
RUB
0.46
NewOCR убьет FineReader?
ABBYY FineReader Express Edition for Mac
  • 1
  • 2
  • 3
  • 4
  • 5
  • Текущий рейтинг
0/5 (0 голосов)
Сегодня сайтом дня объявляется онлайновый сервис распознавания текста NewOCR.

Главная страница сайта NewOCR

Чуть меньше года назад я писал про замечательный сайт ABBYY FineReader Online, который для того времени казался безусловно лучшим решением. Да, он слегка платный. Зато отлично распознаёт и понимает разные языки. Хотя немного, совсем капельку неудобный. Но что тут говорить, все привыкли, что конкуренты заметно отстают, так что выбора-то и нет.

За этот почти год я убедился, что выбор есть. Все годы, пока развивалась индустрия программ OCR (оптического распознавания текста) конкуренты отставали от FineReader на несколько шагов. Когда FineReader ещё не было, OCR-программы напоминали детские демки, так что это не считается. Но шли годы, OCR-программы, такие как Tesseract и Cuneiform, гнались за FineReader, и постепенно добежали до такого уровня, когда ими стало можно пользоваться. Возможно, FineReader ещё лучше, но это уже тот уровень, когда начинает играть роль понятие "достаточно".

Потестировав недавно Tesseract и Cuneiform на смартфоновых снимках русскоязычного текста я убедился, что их наконец-то достаточно. Возможно, их ещё и год назад было бы достаточно, если бы я тогда взялся потестировать.

Естественно, я сразу же начал искать к ним хороший интерфейс (благо, это свободные программы и интерфейс можно выбирать). В конце концов мне понравился веб-интерфейс на сайте NewOCR. Он простой, понятный, быстрый, и поддерживает обе OCR-программы и оба нужных мне языка (среди прочих).

Выбор файла и метода на сайте NewOCR

Всё предельно понятно, выбираем файл из сети или с компьютера (поддерживаются форматы JPEG, PNG, GIF, BMP, TIFF, PDF и DjVu), выбираем язык и способ распознавания (в Cuneiform можно распознать смешанный, русско-английский текст; в Tesseract пока почему-то нельзя) и практически всё.

Для примера, распознаем скриншот их хелпов самого сайта NewOCR. Вот такой:

Тестовый скриншот

В предварительном просмотре нам предлагают выбрать область для распознавания. Конечно, у десктопного варианта FineReader возможностей больше, а с онлайновым - вполне сравнимо.

Предварительный просмотр и выбор области распознавания на сайте NewOCR

Далее текст распознаётся. Неожиданно быстро, хотя возможно NewOCR просто ещё недостаточно популярен, чтобы быть перегруженным. Хорошо распознаются не только качественные скриншоты, но и довольно шумные сканы и мутные снимки. Всего год назад эти же программы работали ощутимо хуже. Интересно, что Tesseract и Cuneiform ошибаются немного по-разному, так что особо сложный текст можно распознавать и тем и другим, а потом сливать результаты каким-нибудь онлайновым diff-ом (если интересно - скажите, я напишу про один из таких).

Распознанный текст на NewOCR вполне предсказуемо можно сохранить в разных форматах, перевести или редактировать (в Google).

Распознанный текст и варианты действий с ним на сайте NewOCR

Программы Tesseract и Cuneiform дорабатываются сообществом, но очень медленно. Видимо, разработчики уже поняли, что распознают они нормально, и больше проблем именно с интерфейсами. К счастью, сейчас эти программы стоят того, чтобы делать к ним хорошие интерфейсы, такие, например, как сайт NewOCR

Знаете ещё хорошие сайты? Пишите на sitesoftheday@ferra.ru.

  • 1
  • 2
  • 3
  • 4
  • 5
  • Текущий рейтинг
Комментарии (0)
Войти через: