Обратите внимание, что новости можно получать по RSS.
X
-

Информационные технологии

19 июня 2016, 03:51 (3582 дня назад) № 10086
Читаю тут Acrobat Reader'ом PDF-ку, явно сканированную (см. картинку), какие-то кусочки текста себе копирую по copy/paste и где-то через полчаса вдруг до меня доходит, что вообще-то я ну никак не мог бы копировать кусочки текста с картинки :)
Оказывается, он молча делает OCR. Причём, там даже настроек никаких нет на эту тему. Просто картинка притворяется текстом. Я бы так наверное и не обратил внимания, если бы не заметил, что он иногда S вместо 5 копирует ;-)
До чего техника дошла!
Опубликовано: Пётр Соболев
11C

Комментарии (11):
19 июня 2016, 08:23 Timothy Lyanguzov: Филипп тоже говорит, что такое заметил. Им в школе учительница послала сканированную PDFку, а Филипп вставил в виде текста в документ.
19 июня 2016, 08:39 Tim Tashpulatov: Это у кого это такие интересные команды про ADC?
19 июня 2016, 10:35 Pavel Kurochkin: Здорово!
19 июня 2016, 13:02 Albert R. Timashev: А ты уверен, что OCR не был произведен еще в момент сканирования или создания PDF'а? Если в каком-нибудь типа hex-вьювере его посмотреть, нет ли там этого уже распознанного текста?
19 июня 2016, 13:22 Andriy Tymchenko: DJVU файлы часто бывают двухслойные, с текстом в верхнем слое, чтобы можно было копи-пастить. Если их стандартным конвертором прокручивать в PDF, то слои остаются.
19 июня 2016, 15:28 Peter Sobolev: Tim: книжка про 8048 (который в Videopac'e), а инструкции для АЦП - это дополнения для 8021/8022, которые как бы тоже входят в семейство MCS-48.
19 июня 2016, 15:39 Peter Sobolev: Albert: я морально не готов распаковывать LZW в уме, так что hex-вьювер не поможет :) Да, возможно PDF содержит и битмап и распознанный текст. Но надо заметить, что при этом в этом документе можно выбирать отдельные буквы и знаки. Т.е. в этом случае у них не просто и то и другое хранится, а каждая распознанная буква привязана к координатам её оригинала в битмапе (поиск тоже работает).
19 июня 2016, 15:46 Peter Sobolev: Во, нашёл:
ссылка
19 июня 2016, 15:47 Peter Sobolev: (ну и можно нагуглить аналогичные вопросы про Acrobat Reader XI, DC и пр.)
19 июня 2016, 20:08 Pyotr Fomin: При распозновании , обучать шаблонам вручную !
19 июня 2016, 20:09 Michail Ivashenko: стыдно признаться, но я тоже только недавно это заметил!
Эта заметка и комментарии к ней в Facebook: ссылка
(возможно, в Facebook она не будет вам доступна - видимость ограничена)

Случайная заметка

4046 дней назад, 00:4013 марта 2015 Если кто помнит, в фильме Pirates of Silicon Valley в самом начале есть эпизод, где у Возняка загорается компьютер и во весь кадр показывают газету со статьёй об этом случае. Текст смешной (и не гуглится): --- "Boy Laughs and Computer Burns" "The facts regarding the home made computer is still work in progress according to the two computer guys, Steve Wozniak and Steve Jobs. Future plans will, out of necessity will have great bearing on the situation ...далее

Избранное

3262 дня назад, 01:575 мая 2017 Часть 1: От четырёх до восьми Я люблю читать воспоминания людей, заставших первые шаги вычислительной техники в их стране. В них всегда есть какая-то романтика, причём какого она рода — сильно зависит от того, с каких компьютеров люди начали. Обычно это определяется обстоятельствами — местом работы, учёбы, а иногда и вовсе — ...далее

2774 дня назад, 20:305 сентября 2018 "Finally, we come to the instruction we've all been waiting for – SEX!" / из статьи про микропроцессор CDP1802 / В начале 1970-х в США были весьма популярны простые электронные игры типа Pong (в СССР их аналоги появились в продаже через 5-10 лет). Как правило, такие игры не имели микропроцессора и памяти в современном понимании этих слов, а строились на жёсткой ...далее