Bước 1
- CHUẨN BỊ:
Tải và cài đặt VideoSubFinder 6.10 : https://www.videohelp.com/software/VideoSubFinder
Tải python 3.12.2 hoặc bản mới nhất có thể tại địa chỉ: https://www.python.org/
Chạy lệnh:
Tải python 3.12.2 hoặc bản mới nhất có thể tại địa chỉ: https://www.python.org/
- pip install --upgrade google-api-python-client google-auth-httplib2 google-auth-oauthlib
- pip install oauth2client
Cấu hình sẵn cho 2 trang phim JAV vietsub: Copy file javhd.cfg, vlxx.cfg vào thư mục \VideoSubFinder_6.10\settings, đối với phim khác có
thể tự điều chỉnh theo ý muốn cho hợp lý.
Bước 2 - CÀI ĐẶT, OCR:
Chạy chương trình VideoSubFinder 6.10
Nhấp đúp
chuột vào VideoSubFinderWXW --> File --> Open
Video (OpenCV). Có thể sử dụng Open
Video (FFMPEG) nhưng bài này mình thấy nếu chạy bằng FFMPEG nó rất chậm nên
vẫn khuyên là dùng OpenCV.
Quá trình chạy, sau khi xong tất cả ảnh có phụ đề sẽ nằm trong thư mục \VideoSubFinder\RGBImages
Vào tab OCR → Chạy lệnh Create Cleared Text Images. Mục đích việc này là xoá nền của ảnh raw thành ảnh trắng đen và xoá những ảnh không có chứa phụ đề (tỷ lệ..).
Thực tế thì chỉ cần thư mục RGBImages là Google Docs nó cũng OCR ổn rồi, tuy nhiên vì google docs OCR quá mạnh nên đôi khi những hình ảnh có chữ chìm kiểm như watermark nó cũng nhận diện được luôn thành ra nó lại thành “rác” không mong muốn, RGBImages ->TXTImages mục đích sẽ loại bỏ được mấy cái watermark này…
Copy toàn bộ file trong VideoSubFinder_6.10\TXTImages sang 1 thư mục đặt theo tên phim cho dễ thao tác.
Chạy file RUN.bat để tiến hành OCR phụ đề dựa vào dịch vụ Google Docs.
Sau khi chạy xong, ứng dụng tự thoát chương trình, vào thư mục /sub sẽ thấy file [Vietsub]WAAA-053.srt hoặc là tên-file.srt theo tự đặt
BƯỚC 3 – FINE TUNNING:
Do vậy nếu muốn đc tối ưu chỗ này, chúng ta cần thực hiện vài bước thêm nữa.
Mở Subtitle Edit --> New --> File --> Import --> Plain text…
Duyệt tới thư mục /raw_texts
chứa text raw từ OCR. Chọn tất cả các file txt.
Chỉ cần Edit à Multiple replace… Tìm và xoá đoạn ________________ là xong.
Lưu lại và mở lên nó sẽ như vầy
Dọn các line có time nhỏ và câu trùng lặp.
Lưu lại và mở lên nó sẽ như vầy
Dọn các line có time nhỏ và câu trùng lặp.
----------------------------------------------------
for %i in (C:\Users\epubc\Desktop\OK\*.mp4) do VideoSubFinderWXW -c -r -ccti -i %i -o "%~dpni" -te 0.139 -be 0.00589 -le 0 -re 1
----------------------------------------------------
Sử dụng %% trong trường hợp tệp .bat thay vì %.Để phụ đề được quét đầy đủ không bị thiếu thì quan tâm vài tham số:
Min Sum Color Diff: Bình thường số càng cao thì càng giảm lượng ảnh trống, khuyến khích từ 500-800
VEdges Points Line Error: Mặc định là 0.3 hoạt động với hầu hết các Video nhưng đôi khi có những phụ đề hiện chớp nhoáng thì mình chỉnh xuống 0.15 sẽ quét được luôn, nhưng số càng thấp thì càng sinh ra nhiều hình trống (rác..).
Min Sum Color Diff: Bình thường số càng cao thì càng giảm lượng ảnh trống, khuyến khích từ 500-800
VEdges Points Line Error: Mặc định là 0.3 hoạt động với hầu hết các Video nhưng đôi khi có những phụ đề hiện chớp nhoáng thì mình chỉnh xuống 0.15 sẽ quét được luôn, nhưng số càng thấp thì càng sinh ra nhiều hình trống (rác..).
Moderate Threshold: Liên quan tới video có độ phân giải thấp, tăng giảm cho hợp lý.
bottom_video_image_percent_end
top_video_image_percent_end
left_video_image_percent_end
right_video_image_percent_end
Liên quan tới vùng Video được quét phụ đề. Ví dụ:
Sử dụng nút TEST để kiểm tra sau khi thay đổi các thông số để tìm thấy thông số thích hợp nhất.
Bạn cũng có thể đọc \Docs\readme_eng.txt để biết chi tiết.
Không có nhận xét nào:
Đăng nhận xét
Cám ơn bạn đã để lại nhận xét