Оцифровка хардсаба

Ответить на тему
 
Автор Сообщение

Faer ®

Пол: Мужской

Зарегистрированный: 9 года

Сообщений: 1568

Создавать темы 16-Сен-2023 20:58 | #1 · Автор

[Цитировать]

В связи с окончательной гибелью хорошего сайта subs.com.ru, пишу эту статью по памяти.
Итак, для оцифровки хардсаба нам понадобится:
1. VideoSubFinder
2. ABBYY FineReader PDF (OCR-редактор)
3. Много терпения (я не шучу)
Прелюдия. Я рекомендую копировать всё содержимое архива VideoSubFinder в отдельную папку (т.к. программа не требует установки, быстрее сделать один фильм/серию и удалить копию, чем чистить её папки от кучи картинок)
Порядок действий:
1. Открываем видео с помощью варианта File -> Open video (OpenCV)

1.1 Для тех, кто хорошо знаком с видеорядом.
С помощью этих ползунков можно ограничить радиус поиска субтитров. Полезно, если вам нужно только караоке (обычно сверху), или вы точно знаете, что субтитры не будут выше нижней трети видеоряда.

2. Жмём Run search

3. Ждём.
Скорость работы программы зависит от многих факторов: Длина видео, качество видео, диапазон поиска (если вы выставляли ползунки из пункта 1.1), количество субтитров (и того, что программа может за них принять) и мощности компьютера.
Обратите внимание! Программу лучше не сворачивать, может и вылететь.
4. Когда программа закончила (ползунок окрасил всю полосу в бледно-красный цвет и появилась надпись progress 100%), переключаемся на вкладку OCR

и выбираем опцию Create Cleared TXT Images

5. Снова ждём.
Обратите внимание! Программу лучше не сворачивать, она просто паузит своё состояние и не прогрессирует, пока не развернёте.
5.1. Когда программа закончила, можно нажать опцию Create Empty Sub From Cleared TXT Images, но только в том случае, если вам нужны пустые субтитры с таймингом.
6. Запускаем FineReader (OCR-редактор), но не закрываем VideoSubFinder. Убедитесь, что в FineReader языком распознавания выбран тот, которым написаны субтитры.
Через Файл -> Открыть изображение открываем все файлы, которые лежат в папке TXTResults.

Старые версии FineReader иногда выдавали ошибку из-за слишком большого количества файлов. Это легко обойти: Открываете сначала половину файлов, а после обработки и оцифровывания также открываете вторую половину. Главное не забудьте, где вы остановились, чтобы не задвоить строки субтитров.
После полного оцифровывания, программа покажет вот такое сообщение:

Теперь вы можете начать проверку, либо (как делаю я) пропустить её, чтобы копаться в готовом файле субтитров.
7. Сохраняйте полученный результат в папку TXTResults в формате .txt с опцией Создавать отдельный файл для каждого входного файла.


8. Закрываем FineReader, он нам больше не нужен, и сохранять там ничего не надо.
9. Возвращаемся к VideoSubFinder. На всё той же вкладке OCR нажимаем кнопку Create SUB From TXTResults.

И сохраняем файл (по умолчанию - sub.srt) в любое удобное место.
Вот и всё! Это очень просто, но достаточно долго. Конечно, за этим следует ещё чистка от всякого мусора и пустых строк, редактирование (VideoSubFinder иногда пропускает короткие строки, наподобие "Да", "Ага", "М..."), но это тема другой статьи.
P.S. Если вы не копируете программу, то вам нужно почистить следующие папки: ILAImages, ISAImages, RGBImages, TXTImages, TXTResults.
[Профиль] [ЛС]

Starlay

Пол: Мужской

Зарегистрированный: 4 года 11 месяца

Сообщений: 373

Создавать темы 16-Сен-2023 22:40 | #2 (спустя 1 час 41 минута)

[Цитировать]

Спасибо за инструкцию. А нельзя ли вытащить эти сабы в графике (в формате напр. Vobsub или SUP) и распознать потом обычным SubtitleEdit'ом? Есть ещё программы, конвертирующие Vobsub/SUP непосредственно в txt/srt (вроде Sup2Txt, если правильно помню), но у меня они паршиво работали.
[Профиль] [ЛС]

Faer ®

Пол: Мужской

Зарегистрированный: 9 года

Сообщений: 1568

Создавать темы 16-Сен-2023 22:59 | #3 · Автор (спустя 19 минуты)

[Цитировать]

34147Спасибо за инструкцию. А нельзя ли вытащить эти сабы в графике (в формате напр. Vobsub или SUP) и распознать потом обычным SubtitleEdit'ом?
А вот тут не подскажу, не знаю. Программа вытаскивает субтитры в трёх видах (вернее, 2 и 3 это преобразование первого).
Программа вытаскивает хардсаб в виде:
1. Скриншота

2. Контрастного изображения

3. Чистого текста на белом фоне

Наверное, третий как-то можно преобразовать (название файла содержит тайминг начала и окончания саба)
34147Есть ещё программы, конвертирующие Vobsub/SUP непосредственно в txt/srt (вроде Sup2Txt, если правильно помню), но у меня они паршиво работали.
Я онлайновым обычно пользуюсь, довольно неплохие результаты выдаёт. Только ждать по полчаса в очереди надо.
[Профиль] [ЛС]
Показать сообщения:    
Ответить на тему

Текущее время: 21-Ноя 12:04

Часовой пояс: UTC + 3



Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы