Обратите внимание, что новости можно получать по RSS.
X
-

Информационные технологии

19 июня 2016, 03:51 (3427 дней назад) № 10086
Читаю тут Acrobat Reader'ом PDF-ку, явно сканированную (см. картинку), какие-то кусочки текста себе копирую по copy/paste и где-то через полчаса вдруг до меня доходит, что вообще-то я ну никак не мог бы копировать кусочки текста с картинки :)
Оказывается, он молча делает OCR. Причём, там даже настроек никаких нет на эту тему. Просто картинка притворяется текстом. Я бы так наверное и не обратил внимания, если бы не заметил, что он иногда S вместо 5 копирует ;-)
До чего техника дошла!
Опубликовано: Пётр Соболев
11C

Комментарии (11):
19 июня 2016, 08:23 Timothy Lyanguzov: Филипп тоже говорит, что такое заметил. Им в школе учительница послала сканированную PDFку, а Филипп вставил в виде текста в документ.
19 июня 2016, 08:39 Tim Tashpulatov: Это у кого это такие интересные команды про ADC?
19 июня 2016, 10:35 Pavel Kurochkin: Здорово!
19 июня 2016, 13:02 Albert R. Timashev: А ты уверен, что OCR не был произведен еще в момент сканирования или создания PDF'а? Если в каком-нибудь типа hex-вьювере его посмотреть, нет ли там этого уже распознанного текста?
19 июня 2016, 13:22 Andriy Tymchenko: DJVU файлы часто бывают двухслойные, с текстом в верхнем слое, чтобы можно было копи-пастить. Если их стандартным конвертором прокручивать в PDF, то слои остаются.
19 июня 2016, 15:28 Peter Sobolev: Tim: книжка про 8048 (который в Videopac'e), а инструкции для АЦП - это дополнения для 8021/8022, которые как бы тоже входят в семейство MCS-48.
19 июня 2016, 15:39 Peter Sobolev: Albert: я морально не готов распаковывать LZW в уме, так что hex-вьювер не поможет :) Да, возможно PDF содержит и битмап и распознанный текст. Но надо заметить, что при этом в этом документе можно выбирать отдельные буквы и знаки. Т.е. в этом случае у них не просто и то и другое хранится, а каждая распознанная буква привязана к координатам её оригинала в битмапе (поиск тоже работает).
19 июня 2016, 15:46 Peter Sobolev: Во, нашёл:
ссылка
19 июня 2016, 15:47 Peter Sobolev: (ну и можно нагуглить аналогичные вопросы про Acrobat Reader XI, DC и пр.)
19 июня 2016, 20:08 Pyotr Fomin: При распозновании , обучать шаблонам вручную !
19 июня 2016, 20:09 Michail Ivashenko: стыдно признаться, но я тоже только недавно это заметил!
Эта заметка и комментарии к ней в Facebook: ссылка
(возможно, в Facebook она не будет вам доступна - видимость ограничена)

Случайная заметка

8738 дней назад, 02:464 декабря 2001 Десять признаков, по которым вы можете узнать что ваш сын - "хакер" :) Опыт отца (американца). Кратко: 1.Ваш сын хочет сменить AOL на другого провайдера 2.Вы нашли на компьютере программы которые не устанавливали 3.Он хочет проапгрейдить или сменить компьютер. Особенно если хочет процессор от AMD 4.Читает hacking manuals (список прилагается) ...далее

Избранное

3107 дней назад, 01:575 мая 2017 Часть 1: От четырёх до восьми Я люблю читать воспоминания людей, заставших первые шаги вычислительной техники в их стране. В них всегда есть какая-то романтика, причём какого она рода — сильно зависит от того, с каких компьютеров люди начали. Обычно это определяется обстоятельствами — местом работы, учёбы, а иногда и вовсе — ...далее

2619 дней назад, 20:305 сентября 2018 "Finally, we come to the instruction we've all been waiting for – SEX!" / из статьи про микропроцессор CDP1802 / В начале 1970-х в США были весьма популярны простые электронные игры типа Pong (в СССР их аналоги появились в продаже через 5-10 лет). Как правило, такие игры не имели микропроцессора и памяти в современном понимании этих слов, а строились на жёсткой ...далее