Dotyczy: OCR w https://apps.symfonia.pl/
Jak prawidłowo przygotować dokument do OCR?
Aby optymalnie wykorzystać możliwości modułu OCR, w pierwszej kolejności należy dobrze przygotować dokumenty, które zostaną wczytane do systemu.
Faktury możemy otrzymać od naszego dostawcy w formie elektronicznej lub papierowej.
Faktury elektroniczne w formacie pdf są już gotowe aby dodać je do OCR.
Faktury papierowe należy zeskanować. Skanować można każdą fakturę do osobnego pliku lub zbiorczo wszystkie faktury do jednego pliku. Na co zwrócić uwagę:
- skan najlepiej wykonać czarno-biały lub w odcieniach szarości
- rozdzielczość skanu najlepiej ustawić na 200 dpi lub 300 dpi
- przy skanowaniu korzystać z podajnika dokumentów, faktury skanowane przez położenie na szybie skanera mogę być lekko obrócone (co zdecydowanie utrudni odczyt)
- waga pliku nie powinna przekraczać 50MB, a ilość stron nie powinna być większa niż 50
- OCR przyjmuje pliki w formatach: (pdf., jpg, png., tiff.)
Oczywiście mogą być szczególne przypadki kiedy powyższe wytyczne nie będą się sprawdzały, natomiast wieloletnie doświadczenie pokazuje nam, że stosując się do tych kilku punktów nasi Klienci uzyskują najlepsze rezultaty.
Warto przygotować dobrej jakości skan, aby w kolejnym etapie otrzymać jak najlepiej odczytane dane z faktur.
Najczęściej popełniane błędy w przygotowaniu pliku
1. Ucięta część treści dokumentu - plik musi zwierać pełną treść dokumentu, bez ubytków
2. Obrócony obraz dokumentu - fakturę należy zeskanować prosto, błędem jest wykonanie skanu na którym faktura jest obrócona
3. Niedbale wykonany skan - im gorsza jakoś wykonanego skanu tym odczyt będzie mniej skuteczny. Warto o tym pamiętać.
4. Dodatkowe elementy zasłaniające treść dokumentu - należy uważać aby dodatkowe elementy (np. spinacze, zszywki, ślady dziurkacza, pieczątki, doklejane karteczki, odręczne notatki itp.) nie były umieszczane na istotnych danych faktury.
5. Zeskanowanie zniszczonej faktury oraz zbyt wysoka rozdzielczość skanu - jeżeli skanujemy dokument, który w pewnym stopniu jest zniszczony, to OCR będzie miał problem z prawidłowym rozpoznaniem tekstu.
W tym miejscu warto też zwrócić uwagę, aby rozdzielność skanu nie była zbyt wysoka (optymalne ustawienie to 200/300 dpi). W przeciwnym razie wszystkie zagniecenia, ubytki papieru, pieczątki i opisy na odwrocie dokumentu będą bardzo widoczne i będą utrudniały odczyt danych.
6. Dokument zawierający pismo ręczne - OCR nie odczytuje pisma ręcznego
7. Umieszczanie kilku paragonów (faktur paragonowych) na jednej stronie - każdy paragon musi być zeskanowany na osobnej stronie pdf lub po prostu w osobnym dokumencie. OCR nie będzie mógł wyodrębnić z jednej strony kilku różnych dokumentów.
8. Zdjęcie na który widać inne przedmioty - jeżeli robimy zdjęcie faktury to warto aby był na nim wyłącznie dokument, niestety zdarza się że do OCR trafiają zdjęcia na których widać jeszcze pół biurka, kwiatek, kubek z kawą itp.
9. Jeden dokument powinien być dodany do OCR w jednym pliku, jeżeli będzie on w kilku różnych plikach to trzeba będzie na etapie weryfikacji ręcznie scalać strony faktury. Taki proces na pewno wydłuży czas weryfikacji.
10. Dodawanie do OCR faktury wraz z różnymi załącznikami - zdarza się, że wraz z fakturą zostają zeskanowane również inne dokumenty (np. umowa, protokół, rozliczenie itp.). Jeżeli bardzo zależy nam aby te załączniki również trafiły do Symfonii eBiuro to oczywiście mogą znaleźć się na skanie. Ale jeszcze te załączniki są zbędne, to zdecydowanie warto pominąć je na etapie skanowania.