Обратите внимание, что новости можно получать по RSS.
X
-

Информационные технологии

19 июня 2016, 03:51 (3078 дней назад) № 10086
Читаю тут Acrobat Reader'ом PDF-ку, явно сканированную (см. картинку), какие-то кусочки текста себе копирую по copy/paste и где-то через полчаса вдруг до меня доходит, что вообще-то я ну никак не мог бы копировать кусочки текста с картинки :)
Оказывается, он молча делает OCR. Причём, там даже настроек никаких нет на эту тему. Просто картинка притворяется текстом. Я бы так наверное и не обратил внимания, если бы не заметил, что он иногда S вместо 5 копирует ;-)
До чего техника дошла!
Опубликовано: Пётр Соболев
11C

Комментарии (11):
19 июня 2016, 08:23 Timothy Lyanguzov: Филипп тоже говорит, что такое заметил. Им в школе учительница послала сканированную PDFку, а Филипп вставил в виде текста в документ.
19 июня 2016, 08:39 Tim Tashpulatov: Это у кого это такие интересные команды про ADC?
19 июня 2016, 10:35 Pavel Kurochkin: Здорово!
19 июня 2016, 13:02 Albert R. Timashev: А ты уверен, что OCR не был произведен еще в момент сканирования или создания PDF'а? Если в каком-нибудь типа hex-вьювере его посмотреть, нет ли там этого уже распознанного текста?
19 июня 2016, 13:22 Andriy Tymchenko: DJVU файлы часто бывают двухслойные, с текстом в верхнем слое, чтобы можно было копи-пастить. Если их стандартным конвертором прокручивать в PDF, то слои остаются.
19 июня 2016, 15:28 Peter Sobolev: Tim: книжка про 8048 (который в Videopac'e), а инструкции для АЦП - это дополнения для 8021/8022, которые как бы тоже входят в семейство MCS-48.
19 июня 2016, 15:39 Peter Sobolev: Albert: я морально не готов распаковывать LZW в уме, так что hex-вьювер не поможет :) Да, возможно PDF содержит и битмап и распознанный текст. Но надо заметить, что при этом в этом документе можно выбирать отдельные буквы и знаки. Т.е. в этом случае у них не просто и то и другое хранится, а каждая распознанная буква привязана к координатам её оригинала в битмапе (поиск тоже работает).
19 июня 2016, 15:46 Peter Sobolev: Во, нашёл:
ссылка
19 июня 2016, 15:47 Peter Sobolev: (ну и можно нагуглить аналогичные вопросы про Acrobat Reader XI, DC и пр.)
19 июня 2016, 20:08 Pyotr Fomin: При распозновании , обучать шаблонам вручную !
19 июня 2016, 20:09 Michail Ivashenko: стыдно признаться, но я тоже только недавно это заметил!
Эта заметка и комментарии к ней в Facebook: ссылка
(возможно, в Facebook она не будет вам доступна - видимость ограничена)

Случайная заметка

8510 дней назад, 08:075 августа 2001 Не соглашусь с Frog'ом насчет моей лени %) Дело в том, что я действительно не могу пока выделить ничего настолько интересного, чтобы "лишний раз нажать клавишу". Соглашусь с другим - пожалуй, я терпел бы небольшие проколы в организации ради того, чтобы увидеть действительно интересные работы. В этом смысле я добрым словом вспомнил ...далее

Избранное

2758 дней назад, 01:575 мая 2017 Часть 1: От четырёх до восьми Я люблю читать воспоминания людей, заставших первые шаги вычислительной техники в их стране. В них всегда есть какая-то романтика, причём какого она рода — сильно зависит от того, с каких компьютеров люди начали. Обычно это определяется обстоятельствами — местом работы, учёбы, а иногда и вовсе — ...далее

2270 дней назад, 20:305 сентября 2018 "Finally, we come to the instruction we've all been waiting for – SEX!" / из статьи про микропроцессор CDP1802 / В начале 1970-х в США были весьма популярны простые электронные игры типа Pong (в СССР их аналоги появились в продаже через 5-10 лет). Как правило, такие игры не имели микропроцессора и памяти в современном понимании этих слов, а строились на жёсткой ...далее