Курьезы сканировщика
Опубликовано вс, 31/07/2011 - 09:26 пользователем Алексей_Н
Forums: Забавные нелепицы иной раз рождаются при сканировании. Вот, например, сегодня вместо "высокопоставленным лицам" вдруг возникло "высокопоставленным яйцам".
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Belomor.canal RE:Подайте бедному копеечку на книжку с литреса... 1 час
Ulitka_12 RE:ЛИБРУСЕКУ 10 ЛЕТ!!! 10 часов konst1 RE:Цензура? 18 часов RAINBOWJOSE RE:Почтовый адрес киндла позволяет выбрать только из двух... 2 дня ez7pac RE:Транзитный зал ожидания для временно бездомных Флибустов 2 дня rada2005 RE:Отв: Смотрим фильм - читаем книгу 6 дней Саша из Киева RE:Ищу тексты книг 6 дней oleg197888 RE:Не работает ссылка 6 дней nehug@cheaphub.net RE:регистрация 1 неделя sem14 RE:Слишком дружелюбный незнакомец 1 неделя Zadd RE:Zelenir - Под крылом 2 недели дядя_Андрей RE:Август Бебель - Цельняпушистая оболочка 2 недели albatrossoff RE:Макс Шелер 3 недели Саша из Киева RE:Музыкантская команда 3 недели Саша из Киева RE:Заповедными тропами 3 недели Drave Robber RE:удаление "двойников" 3 недели konst1 RE:Генрих Сузо - Exemplar [Не скачивается] 3 недели Саша из Киева RE:Не откладывай на завтра 1 месяц Впечатления о книгах
decim про Стэмпер: Сила нашего притяжения (Современная проза)
11 08 Гуглтранслейт, поэтому нечитаемо вне зависимости от содержания.
decim про Аккерман: 2034: Роман о следующей мировой войне (ЛП) (Альтернативная история, Боевая фантастика)
11 08 Хуже нет - судить о других по себе. Китаю ни нафиг не сдался убитый Тайвань. Китай аккуратно отожмёт его без лишнего шума. Уникальные производства стоят того, чтобы не вести себя как пьяный ковбой. Но изобразить такового, ………
дядя_Андрей про Лагутенко: Владивосток-3000 [Киноповесть о Тихоокеанской республике] (Альтернативная история, Социальная фантастика)
11 08 Ну, что тут скажешь... какая-то вариация на тему аксёновского "Крыма", но на много порядков слабее. Хотя и "Крым" далеко не шедевр. Оценка: неплохо
Yuriko про Малыгин: Прыжок Мангуста [litres] (Фэнтези)
10 08 Автор из тех, кто заставляет своего героя тупить - чтобы сюжет хоть как-то развивался. При этом сам ГГ подробно описывает, где и какую херню он спорол, чтобы события пошли наперекосяк. И как нужно было действовать правильно. Меня ………
Vasyan2000 про Поселягин: Прапорщики по адмиралтейству [litres] (Альтернативная история, Боевая фантастика, Попаданцы)
10 08 Лол, рейдеры-шмейдеры. А Транссиб и Тихоокеанская эскадра тоже заруливать будут? Оценка: нечитаемо
Studentomori про Горизонт событий
10 08 (1/5) Пишу по первой книге, открывать остальные нет желания от слова "совсем". Блин, 10 книг... Такую бы энергию, да в мирных целях. Язык: 3. Примитивный до мычания Сюжет: 2. Магическая академия, магические кланы, ………
Lena Stol про Кас: Белый волчонок [СИ] (Боевая фантастика, Городское фэнтези, Попаданцы, Самиздат, сетевая литература)
10 08 Интересно. Динамичный сюжет, читала бы дальше, но книга закончилась, а продолжения нет.
Redart98 про Дяченко: Горелая башня (Фэнтези)
10 08 Одно из любимейших произведений этих авторов. Так ли легко прощать тех, кто желает твоей смерти?
Harryfan про Сезин: Дорога через прошлое [litres] (Альтернативная история, Боевая фантастика, Попаданцы)
10 08 у Красной Армии появилось новое оружие - многоцелевые самонаводящиеся придурки Оценка: нечитаемо
Harryfan про Поселягин: Прапорщики по адмиралтейству [litres] (Альтернативная история, Боевая фантастика, Попаданцы)
10 08 Дежурные санитары по палате Оценка: нечитаемо
Ultima2m про Шаров: Бойня (Боевая фантастика, ЛитРПГ, Самиздат, сетевая литература)
10 08 ЛитРПГ с роялями. Читабельно, но последняя часть книги явно слита. По смыслу напрашивается продолжение, а его уже 2 года нет. Оценка: неплохо
polyn про Шэн: Скандальный [litres] [Scandalous ru] (Современные любовные романы, О любви)
10 08 Книгу вполне можно читать несмотря на некоторые претензии. Не верю, что отец героини, безжалостный делец и манипулятор, так легко сдался когда на него слегка надавили. Обычно у таких людей всегда имеется запасной план. А еще ……… Оценка: хорошо |
Отв: Курьезы сканировщика
И у меня тут недавно при распознавании курьёз случился.
Отв: Курьезы сканировщика
Шля - Галя
Отв: Курьезы сканировщика
У меня наоборот, были гнойные пидеры, а стали - гнойные лидеры! :=)
Отв: Курьезы сканировщика
Милое и привычное «н»=«п»
вошел в гостиничный помер
раздавили бунтовщиков тапками
высокопоставленные чипы
члепы Политбюро
Отв: Курьезы сканировщика
"ветхий дом с голубыми наяичниками"
Отв: Курьезы сканировщика
По-моему, это прекрасно: чеболыпой костерок = небольшой костерок.
Отв: Курьезы сканировщика
Замечательная ошибка просто.
Сноска: «Баффи — потребительница вампиров» — американский телесериал о девушке...
Отв: Курьезы сканировщика
Мальчик-с-нальчик
Отв: Курьезы сканировщика
Отлично!! Это про Билана!
Отв: Курьезы сканировщика
сканировщик - онанировщик
Отв: Курьезы сканировщика
(задумчиво) а в чем-то оно право....
Отв: Курьезы сканировщика
докус та вместо до куста, голов удержит вместо голову держит
Отв: Курьезы сканировщика
Писхолог отрицательно покачал пальцем.
Причем так и на бумаге. И не понятно, блин, опечатка или автор над психологом приколоться решил. Придется так оставить.
Отв: Курьезы сканировщика
Бороны беззвучно пролетали от мест кормежки к деревьям — спать.
Представил себе картинку. Это прямо ужастик какой-то выходит...
Отв: Курьезы сканировщика
Отв: Курьезы сканировщика
Отв: Курьезы сканировщика
Мне почему-то пришел в голову другой вариант, более логичный. Не сиять они туда летали...
На самом деле там были "бараны". Это ж очевидно. :)
Отв: Курьезы сканировщика
А, может, вараны? Тоже неплохой ужастик просматривается. Такие громадные... С высунутыми языками...
Отв: Курьезы сканировщика
"Пенис священнослужителей" вместо "Пение священнослужителей".
Отв: Курьезы сканировщика
В тексте достаточно часто появляется фамилия Стиханов, фр упорно распознаёт её Стаханов. "наряду" у него "народу", но есть ошибки которые практически невозможно выловить),напр. вместо "исписанные",распознаёт "написанные". У меня развивается маниакальная подозрительность к его распознаванию.))
Отв: Курьезы сканировщика
Что-то в Эбби начудили в последних версиях ФР.
До сих пор юзаю ФР 8 и таких проблем нет )
Распознает почти идеально, и отсебятиной не занимается.
Встречаются редкие косяки, но они легко ловятся.
Если со всякими неудобствами в более старых версий ФР вроде лишней ручной работы можно смириться, то такое корежение текста в новых версиях, которое зачастую вообще ничем не выловишь - нафиг-нафиг.
UPD.
Я понял.
Это у эбби такая задумка по договоренности с Мин. культуры.
Каждый сканировщик-распознаватель должен внимательно прочесть всю книгу в процессе распознавания ее.
Типа повышения культурного уровня населения.
Отв: Курьезы сканировщика
согласно кивает собственной ГН головой
Отв: Курьезы сканировщика
Это от исходного материала зависит. Есть такие книжки, где буквы н, и, п, ц даже глазом различить трудно. И с, о, е тоже. Вот в них-то такие лулзы и встречаются.
Отв: Курьезы сканировщика
Качество распознавания у последней версии намного выше, чем у предпоследней. А у той было намного выше, чем предпредпоследней и т. д.
Можем с тобой провести эксперимент: распознать один и тот же текст разными версиями и сравнить результат (без доп. обработки).
Есть книги, где едва наберётся с десяток ошибок распознавания (при хорошем качестве скана), а есть такие, где вся страница в кляксах "неуверенно распознанных символов" (особенно старая полиграфия этим грешит). Такшта... ;)
Отв: Курьезы сканировщика
У меня даже была одна фотканная книга, где было менее 10 ошибок.
Отв: Курьезы сканировщика
Дык это... )
Давай сканы нескольких страниц, что лично у тебя так криво распознавались в твоем 2911-м ФР, что смысл текста менялся и только вычитка могла помочь...
Я посмотрю у себя ) На версии, которая по твоему убеждению сильно хуже распознает )
Кто ж против )
Мне эти фразы типа ...качество "намного выше" а потом "еще намного выше" ни о чем не говорят )
Поскольку 8 версия ФР распознает нормальные сканы и так прекрасно, если шрифт более-менее стандартный и бумага - не газета 100-летней давности, содранная из-под обоев )
Отв: Курьезы сканировщика
Ну, так, чтобы смысл текста менялся - у меня такого не было. А "сложные", когда приходится внимательно смотреть и частенько править, - изволь:
14 стр.
Выложи экпорт после распознавания, а я выложу свой. Сравним. :)
К тому же ФР11 работает в несколько раз быстрее, чем предыдущие версии (даже ФР10), но оставим это за скобками. ;)
Отв: Курьезы сканировщика
Спс, забрал, прогнал через ФР - 10 мелких косяков, большинство в сносках, которые мелким текстом.
Попозже выложу получившееся (отметил косяки распознавания красным болдом), дома инет побыстрее )
Отв: Курьезы сканировщика
Ну, если порядка 10, то можно и не выкладывать. У меня приблизительно столько же. Может, 8. Может, 7. Не слишком принципиально.
Большинство из них вылавливается при помощи скрипта "поиск по регэкспам", который ты, собственно, и заполнил большей частью. ;)
Но поверь мне, 11-я версия - это качественный скачок вперёд даже по сравнению с 10-й. У меня-то есть опыт работы с каждой, начиная с 6-й. И последняя значительно отличается от всех остальных. Хоть и со своими "заскоками", отрицать не буду.
Я не уговариваю тебя переходить на неё, но говорить о том, что 8-я лучше... э-э-э... м-м-м... ну, неправильно, скажем так. ;)
Отв: Курьезы сканировщика
Кинь в меня рабочей версией, плиз, (можно в личку), я ее посмотрю параллельно )
Качественный скачок говоришь? )
Я бы рад согласиться, но только и слышу, начиная с 10 версии, ФР о "чудесах" распознавания, включая полную отсебятину в тексте, массы дурацких стилей, потерю кусков текста, потерю сносок и проч.
Каждый раз читаю такие топики про новые ФР и удивляюсь, все было ок с распознаванием, а тут такие косяки лезут.
Оно мне надо?
Скорость распознавания в новых версиях выросла?
Зато потом прочитать от корки до корки придется каждое слово?
Оно мне зачем?
Я поставил распознаваться 500 страниц и пошел курить или чай-кофе пить )
3 минуты мне погоды не сделают )
Зато уверен, что текст не будет искорежен )
Отв: Курьезы сканировщика
Угу.
У ФР11 есть один очень серьёзный баг: распознавание диалога иногда в стиле "содержание", при этом при экспорте в фб2 эта часть текста не передаётся. Как с ним бороться, я писала в своём блоге. Это разовая акция в каждой книге, которая обезопасит тебя от опасности потерять куски текста.
Похожая ситуация - с текстом в нижней трети страницы, отделённым от остального текста, который иногда распознается как сноска. Лечится одновременно с предыдущим.
И ещё мне очень не хватает отменённой возможности добавлять в словарь все парадигмы слова. Но это терпимо. Многие и не пользовались этой возможностью вовсе.
ФР11 можно взять, например, здесь.
Отв: Курьезы сканировщика
1) Не понял, в чем тут скачок? Позволяет тем, кто хочет тяп-ляп, сразу получить фб2, и закинуть в инет?
Пользуюсь после ФР вордом со скриптами и ФБД, заодно отлавливаются разные кривые концовки предложений и проч. Потом уже в ФБЕ.
2) В чем скачок тут? На 8 версии никогда не наблюдал проблем с сохранением или добавлением руками болдов-италиков. Только что проверил в 8 версии - прекрасно сохраняется и добавляется.
3) Уж не помню, когда последний раз были проблемы с тире в диалогах. ЕМНИП - может, в 6 версии сталкивался, да и то нечасто.
4) Сама понимаешь, сомнительный аргумент. Склейка отслеживается в ФР без проблем. Разорванные легко лечатся скриптами ворда, фбе и т.п.
5) Чистка и правка текста никуда не денется. Мне, например, многое сильно проще скриптами и регэкспами в ворде поймать. И потом все равно найти еще какие-то буковки для правки в ФБЕ )
6) Насколько быстрее? Компенсирует ли это отсебятину в тексте? (подлинным - по длинным и подобное)?
7) Назвать хорошим распознавание, когда надо следить, не пропал ли текст, я назвать не могу при всем желании.
Для меня это главный кошмар, когда надо за ФР еще проверять, весь ли текст распознается и передается.
Для чего возня со стилями - в чем преимущество вообще в их наличии в ФР? Можно ли выключить стили совсем (не потеряв болдов-курсивов) и не переживать за сохранность кусков текста?
8) Обработка сносок - существенный момент, когда их много.
В итоге - очень сомнительные преимущества лично для меня.
Спс, гляну )
Отв: Курьезы сканировщика
Ну и ладно. Зачем мне переубеждать всем довольного ТаКира? В-)
Отв: Курьезы сканировщика
Да, я ретроград )
Как в том анекдоте - "только ради бога, ничего не трогай, ничего не меняй" )
(Привет Тигра)
Но 11 ФР качаться поставил, спасибо )
Отв: Курьезы сканировщика
Кстати, появился ли в 11 ФР поиск и вставка знака абзаца?
Отв: Курьезы сканировщика
Нет. Разрыв строки и мягкий перенос - как и в предыдущих версиях.
Отв: Курьезы сканировщика
А у меня остались ностальгически-светлые воспоминания об FR5.
Возможно он и проигрывает нынешним версиям в скорости и где-то в качестве распознавания, но у него были и огромные преимущества, например, на автомате очень точно подбирал яркость так, чтобы тень в развороте книги (в ямке) не сливалась с текстом, т.е. не было ни кляксы, ни белой дырки. Это позволяло сканировать книги довольно бережно, не разворачивая и не прижимая их так сильно, как часто требовалось в более поздних версиях. Проблем с диалогами было меньше, потому что оформление их списками появилось позже, начиная с версии 6. И главное, ни разу не было, чтобы какой-то кусок страницы (особенно последние строки) вдруг просто проигнорировался, как сейчас бывает. А тогда я сканировал реально помногу. Сейчас-то только балуюсь иногда.
Отказаться от FR5 пришлось (с огромным сожалением) только из-за перехода на новые версии Windows.
И что характерно, у меня это была единственная лицензионная версия, все последующие были ломаными. Может это играет какую-то роль?
Отв: Курьезы сканировщика
Задумалась. У меня ФР11 лицензионный. Может, и правда дело в этом?
Отв: Курьезы сканировщика
Разбираюсь с ФР 11.
Есть вопросы по алгоритму )
Назначение стилей производится в какой момент - после загрузки книги, до наложения блоков или после? До распознавания текста или после?
Как применить стили ко всем страницам? Сейчас на распознанном тексте у меня на каждой странице свои стили, те же сноски все разного размера.
Не передаются стили "Подписи к картинкам". Распознаются, но не передаются в ворд и фб2.
Какой вариант выбирать - форматированный текст, редактируемая копия или точная копия?
Влияет ли это на качество распознавания и стили и на передачу в ворд и фб2?
Из хорошего текстового pdf не передался в фб2 ни один курсив и болд - чисто плэйн текст. В ворд передается нормально.
(Блоки были наложены с помощью шаблона, одинаковые на все страницы, и поправлены в нужных местах).
Если несложно, добавь при случае ответы в свой блог по алгоритму работы с ФР, плиз!
Т.е. желательно описать процесс с самого начала - открываем ФР, делаем то-то, потом то-то и т.п.
Отв: Курьезы сканировщика
Добавила. :)
Отв: Курьезы сканировщика
Отв: Курьезы сканировщика
Исследовал явление "отсебятинга" на книге "Сироты квартала Бельвилль". Буковки тоненькие, FR постоянно путает "и", "н" и "п". Персонажа зовут Рири, соответственно на выходе - примерно равновероятны все 9 вариантов. :-( Занёс слово "Рири" в словарь и прогнал распознавалку по новой - как рукой сняло. :-)
Отв: Курьезы сканировщика
Я при обнаружении подобной постоянной ошибки делаю массовую замену - с учетом регистра и - в подходящем случае "только слово целиком".
Фокус со словарём мне несколько раз не помог, поэтому я им не пользуюсь.
Спасибо за нормализацию сайта!
Спасибо администрации Либрусека за нормализацию функционирования Библпотеки! Теперь можно вернуться
Отв: Курьезы сканировщика
Я использую FR11 выпуск 11.02.102.583 - практически никаких проблем. В последних книгах плохо распознавал сочетание "гр" выдавал, например, вместо гроб - фоб.
Отв: Курьезы сканировщика
При проблемах с распознаванием ФР ищет ближайшее слово в словаре. Отсюда эти курьезы. При хороших сканах ничего подобного не наблюдается. На сайте Twirx скачал две книги. Кто-то залил не проверяя. Видно прямо из ФР. Там по всему тексту вместо "гр" - "ф", "ыо" - "ью", "JI или J1 - Л" и т. п.
Отв: Курьезы сканировщика
(del)
Отв: Курьезы сканировщика
На счет FR11
Делаю книгу 900 стр. где-то 4000 сносок
ворд (точная) и djvu - минут за 5 создались
pdf - вылетает с ошибкой после 20 мин думания, на любых настройках
fb2 - висит третий час. Прерывал первый раз выгрузку в fb2 через час, получился недописанный 3,5 метровый файл - остановилось на сноске №1085))
А ещё минусы, но это не только у FR11, - использует только одно ядро проца(1/4) и 250М памяти. Хотя памяти 16гиг, можно было бы все туда сгрузить и не "свопить" на диск
Отв: Курьезы сканировщика
У меня нет советов в данном случае. :( Не сталкивалась. Может, кто-то другой подскажет.
Разве что удивляюсь скорости экспорта в djvu. У меня обычно длится намного дольше. Наверное, зависит от исходного скана.
Отв: Курьезы сканировщика
в настройках экспорта djvu поставил 150dpi...
Я pdf или djvu(реже) всегда делаю: так удобнее вычитывать, чем по сканам, да и пропавшую часть текста можно по ходу скопипастить...
Страницы