Перевод отсканированного текста в Word

СКАН

Программа распознавания текста нужна для перевода отсканированного или сфотографированного на цифровой фотоаппарат текста из формата рисунка в формат текста. Это важно когда требуется в текст внести изменения, то есть отредактировать его, ведь сфотографированный текст подходит лишь для того, чтобы его читать. Кроме этого текст в формате редактора Word занимает на диске компьютера значительно меньше места, чем картинка.

Сфотографировать на цифровую камеру печатные страницы или отсканировать их при помощи сканера не представляет труда. Однако что-либо изменить в этом (отсканированном) тексте невозможно, поскольку он представляет собой громоздкий графический файл и может быть изменен только при помощи графической программы. Для перевода картинки в текст используют специальные программы распознавания текста (OSR — оптическое распознавание символов).

OSR Fine Reader

Наиболее распространенной для распознавания текста является программа Fine Reader. Она позволяет не только распознать текст с картинки, но и сохранить его в одном из вордовских форматов. Получить программу для распознавания сканированного текста можно вместе с приобретенным сканером.

  • Сканирование, на этой стадии можно настроить параметры сканирования (разрешение, цветовой режим). Здесь же можно выделить именно ту область, которую требуется перевести в компьютер;
  • Сегментация, или разбитие отсканированного изображения на отдельные текстовые блоки и выделение рисунков, не требующих распознавания;
  • Распознавание — этап сканирования, на котором текст из картинки переводится в форму текстовых шрифтов. Программа OSR распознает в символах отсканированного изображения буквы и знаки препинания;
  • Проверка и правка. На этом этапе сформированный текст проверяется на предмет ошибок и исправляется. Сомнительные с точки зрения программы написания слов и символов выделяются цветом. В этом случае пользователь сам решает оставить слово в предложенном виде или исправить его;
  • Последним этапом сканирования является сохранение полученного текста в файл одного из текстовых форматов. В этом файле можно производить все изменения, которые доступны в текстовом редакторе Word.

Распознавание текста pdf

Программы распознавания текста с картинки позволяют также распознать и перевести в формат word документы, имеющие расширение pdf. Часть книг и журналов, доступных в Интернете или на электронных носителях создаются в этом формате, предназначенном специально для полиграфической продукции. Тексты в таком формате невозможно редактировать.

С развитием, так называемых, облачных технологий появилась возможность преобразования форматов файлов, в том числе и ПДФ в Doc (вордовский формат), не загружая на компьютер специальной программы. Такую конвертацию теперь легко можно сделать сделать прямо в интернете.

Таким образом, распознавание текста с картинки и перевод его в формат текстового редактора может выполнить компьютер при помощи специальных программ оптического распознавания символов. Причем это можно делать не только с отсканированными фрагментами текста, но и специальными pdf документами.

Поделиться:
Нет комментариев

Добавить комментарий

Ваш e-mail не будет опубликован. Все поля обязательны для заполнения.

×
Рекомендуем посмотреть