Распознать текст онлайн: обзор сервисов


raspoznat-tekst-onlayn-obzor-servisov

Буквально на днях получил по почте документ в PDF-формате, который нужно было заполнить и отправить обратно по назначению. Самое забавное, что заполнить его нужно было печатными буквами. Скажите тогда на милость, зачем присылать документ в виде картинки, а не, скажем, вордовском документе, который легко заполнить с компьютера? В общем, что бы не мучиться, решил установить CuneiForm — бесплатную программу для распознавания текста как аналог платной FineReader. Скажу сразу — ничего хорошего из этой затеи не вышло, поэтому решил воспользоваться онлайн сервисами, которые помогли бы мне не мучиться с перепечатыванием текстов. О них мы и поговорим.

Free OCR (free-ocr.com)

Это самый первый сервис, который попался мне при поиске в Яндексе. Абсолютно бесплатный и, что немаловажно, не требует регистрации. Правда, количество загружаемых документов ограничено (10 штук в час), больше становится доступным после регистрации на сайте.

Максимальный размер файла не должен превышать 2 Мб. Маловато, конечно, но не так уж и плохо. Разрешение большей стороны документа — 5000 пикселей. Поддерживаются форматы JPG, GIF, TIFF BMP и PDF. Работает с документами на нескольких десятках языков, включая русский. Перед загрузкой файла необходимо выбрать язык документа самостоятельно, что бы не было путаницы.

После того, как система обработает файл, текст появится на экране. Его можно будет скопировать. Качество распознавание текста очень неплохое, однако исправления делать наверняка придется.

ABBYY FineReader Online OCR (finereader.abbyyonline.com)

Считается одним из лучших среди подобных сервисов, а в нашей стране почти не имеет конкурентов. У него феноменальный набор функций:

  • Поддержка огромного количества форматов, включая JPG, PNG, TIF, GIF, DjVu и т.д.
  • Конвертирует PDF-файлы в текстовые документы с сохранением форматирования и разметки.
  • Поддерживает 42 языка по состоянию на текущий момент.
  • Сохраняет исходную структуру и форматирование документа. Это означает, что в документе сохраняются заголовки, сноски, нумерация страниц, колонтитулы и т.д.
  • Присутствует поддержка облачных онлайн-сервисов.
  • Возможно распознавание текстов с обычных фотоснимков.

Сервис бесплатно позволяет распознать только три файла, причем для этого требуется регистрация. Работа с большим количеством файлов возможна только за оплату.

Документы Google (docs.google.com)

Google тоже решил не отставать и предложил пользователям свои услуги. На самом деле у интернет-гиганта множество сервисов, так что это неудивительно.

Для того, что бы получить доступ к бесплатному сервису, придется завести аккаунт в Google. Если же он у вас есть, то проходите авторизацию и начинаете пользоваться нужными функциями.

Помимо распознавание текстов практически в неограниченном количестве и любом формате, вы можете отформатировать получившийся документ в один из многих доступных форматов, начиная об обычного txt и заканчивая doc (вордовский файл). Также сервис имеет массу дополнительных функций, как создание презентаций, таблиц и т.д.

OCRonline (ocronline.com)

Зарубежный сервис. Увы, попробовать его не успел, однако, если верить отзывам, выполняет свою работу вполне неплохо.

Поддерживает более 150 (!) различных языков, включая русский. На сайте требуется обязательная регистрация, после которой вы сможете отредактировать не более пяти документов. Все остальное — за оплату. Правда, если вы редко пользуетесь распознаванием текстов, то сервиса вам должно хватить, так как каждую неделю в аккаунт будет начисляться по пять дополнительных страниц.

Всего OCRonline поддерживает пять различных форматов: JPG, TIFF, PNG, GIF, PDF. Как утверждают опробовавшие, сервис прекрасно распознает текст даже на некачественном изображении и практическим не допускает ошибок.

NewOCR (newocr.com)

Напоследок расскажу о NewOCR. Сервис очень мощный и бесплатный.

  • Первое и самое главное отличие от большинства конкурентов — чтение документов прямо с интернета, для этого всего лишь нужно добавить ссылку в строку.
  • Поддержка форматов PEG, JFIF, PNG, GIF, BMP, PBM, PGM, PPM, PCX, TIFF, PDF, DjVu и сжатых файлов.
  • Автоматическое распознавание языков (58 на момент написания статьи).
  • Разворот изображения на нужный градус.
  • Разбивка на колонки.
  • Удаление теней и подбор контраста.

В общем, прекрасный проект без каких-либо ограничений.

*****

Что же касается меня, то лично мне по вкусу больше всего пришелся NewOCR, хотя тот документ, о котором я писал в начале статьи, мне пришлось печатать вручную, поскольку времени на тестирование сервисов совершенно не было.

Если знаете иные проекты, позволяющие качественно распознавать текст, напишите нам об этом с помощью комментариев.




Отзывы и комментарии к записи: Распознать текст онлайн: обзор сервисов

  1. натан:

    какой среди них лучший что б без регистрации?

  2. Алина:

    Спасибо за обзор, было интересно почитать! Сама решила воспользоваться сервисом от гугла!

    • Сирж:

      а я последний попробовал. нормально работает, для одного раза достаточно. 🙂

  3. НАТА:

    Спасибо за обзор, буду пользоваться всеми по очереди))))

  4. Саня:

    Ничего себе, я даже не знал, что столько сервисов существует. Так а какой лучше-то?

  5. agency:

    Free OCR неплохой сервис, мне понравился.

  6. марсианин:

    Так себе текст распознают, даже если он идеален. Так что вот……..

    • Наталья:

      создайте свою идеальную программу, мы будем ею пользоваться =)

    • Atoman:

      Не знаю, у меня отлично распознали почти все сервисы. Это при том, что текст едва читаем. Автору ставлю пять баллов за обзор!

  7. zubov-ru:

    Ну не знаю. Сколько я не пользовался, все с проблемами и что-то, да не читают. Жаль(

  8. Натали:

    ну да, так себе все эти сервисы…

  9. Аннет:

    каждый сервис по-своему неплох. спасибо большое за обзор.

  10. Полина:

    а мне вот ни одно приложение не понравилось. вообще. все работают так себе.

    • Женя:

      Хорошо работают, не надо здесь.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *