Як виявити і розпізнати текст з картинки

Політика конфіденційності

Справжня Політика конфіденційності персональної інформації (далі - Політика) діє відносно всієї інформації, яку Сайт (можуть отримати про користувача під час використання їм сайту. Згода користувача на надання персональної інформації, яке він дав у відповідності з цією Політикою в рамках відносин з однією з осіб , що входять, поширюється на всі особи.

Використання Сайту означає беззастережну згоду користувача з цією Політикою і зазначеними в ній умовами обробки його персональної інформації; в разі незгоди з цими умовами користувач повинен утриматися від використання Сервісів.

1. Персональна інформація користувачів, яку отримує і обробляє Сайт

1.1. В рамках цієї Політики під «персональними даними користувача» розуміються:

1.1.1. Персональна інформація, яку користувач надає про себе самостійно заповненні форм зворотного зв'язку, включаючи персональні дані користувача. Обов'язкова для надання Послуг (надання послуг) інформація позначена спеціальним чином. Інша інформація надається користувачем на його розсуд.

1.3. Сайт в загальному випадку не перевіряє достовірність персональної інформації, наданої користувачами, і не здійснює контроль за їх дієздатністю. Однак Сайт виходить з того, що користувач надає достовірну та достатню персональну інформацію з питань, що пропонуються у формі реєстрації, і підтримує цю інформацію в актуальному стані.

2. Цілі збору і обробки персональної інформації користувачів

2.1. Сайт збирає і зберігає тільки ті персональні дані, які необхідні для надання та надання послуг (виконання угод і договорів з користувачем). 2.2. Персональну інформацію користувача Сайт може використовувати в наступних цілях:

2.2.1. Ідентифікація боку в рамках угод і договорів з Сайт

2.2.2. Надання користувачеві персоналізованих послуг;

2.2.3. Зв'язок з користувачем, в тому числі напрямок повідомлень, запитів та інформації, що стосуються використання Сервісів, надання послуг, а також обробка запитів і заявок від користувача;

2.2.4. Поліпшення якості, зручності їх використання, розробка послуг;

2.2.6. Проведення статистичних та інших досліджень на основі знеособлених даних.

3. Умови обробки персональної інформації користувача і її передачі третім особам

3.1. Сайт зберігає персональну інформацію користувачів відповідно до внутрішніх регламентами конкретних сервісів.

3.2. Відносно персональної інформації користувача зберігається її конфіденційність, крім випадків добровільного надання користувачем інформації про себе для загального доступу необмеженому колу осіб. При використанні окремих Сервісів користувач погоджується з тим, що певна частина його персональної інформації стає загальнодоступною.

3.3. Сайт має право передати персональну інформацію користувача третім особам в наступних випадках:

3.3.1. Користувач висловив свою згоду на такі дії;

3.3.2. Передача необхідна в рамках використання користувачем певного Сервісу або для надання послуги користувачеві; 3.3.3. Передача передбачена російським або іншим відповідним законодавством в рамках встановленої законодавством процедури;

3.3.4. Така передача відбувається в рамках продажу або іншої передачі бізнесу (повністю або в частині), при цьому до набувача переходять всі зобов'язання по дотриманню умов цієї Політики стосовно отриманої їм персональної інформації;

3.3.5. З метою забезпечення можливості захисту прав і законних інтересів Сайт або третіх осіб у випадках, коли користувач порушує Угода сервісів Сайт.

3.4. При обробці персональних даних користувачів Сайт керується Федеральним законом РФ «Про персональні дані».

4. Зміна користувачем персональної інформації 4.1. Користувач може в будь-який момент змінити (оновити, доповнити) надану їм персональну інформацію або її частина, а також параметри її конфіденційності.

5. Заходи, що застосовуються для захисту персональної інформації користувачів Сайт приймає необхідні і достатні організаційні та технічні заходи для захисту персональної інформації користувача від неправомірного або випадкового доступу, знищення, перекручення, блокування, копіювання, поширення, а також від інших неправомірних дій з нею третіх осіб .

6. Зміна Політики конфіденційності. чинне законодавство

6.2. До цій Політиці і відносинам між користувачем і Сайт. що виникають у зв'язку із застосуванням Політики конфіденційності, застосовується законодавство Російської Федерації.

Як виявити і розпізнати текст з картинки

Сегментування тексту з неструктурованою сцени значно допомагає вирішувати додаткові завдання, такі як оптичне розпізнавання символів (OCR). Автоматизоване розпізнавання тексту в даному прикладі виявляє велику кількість регіонів в яких може міститися текст і поступово видаляє ті ділянки, на яких велика ймовірність відсутності тексту.

Визначити ділянки зображення, в яких присутній текст, використовуючи MSER

Використовуючи функцію detectMSERFeatures знайдемо образи і сюжет всіх регіонів. Зверніть увагу, що функція також виділяє багато нетекстових областей:

Як виявити і розпізнати текст з картинки

Видалити нетекстові області

Функція MSER спрямована на розпізнавання текстових областей, але під час своєї роботи він також виявляє безліч інших нетекстових регіонів. Ми можемо обійти всі виділені області для того, щоб видалити непотрібні, нетекстові регіони. Для фільтрації нетекстових областей можна використовувати геометричні властивості тексту. Також ми можемо скористатися підходом машинного навчання для підготовки текстових і нетекстових класифікаторів. Як правило, поєднання цих двох підходів дає кращі результати. У цьому прикладі ми будемо використовувати простий підхід фільтрації нетекстових регіонів на основі геометричних властивостей.

Існує кілька геометричних властивостей, які необхідні для розпізнання тексту і нетекстових областей:

Скористаємося функцією regionprops для вимірювання цих властивостей, а потім почнемо видаляти регіони, які нам не підходять:

Як виявити і розпізнати текст з картинки

Видалення нетекстових регіонів на основі зміни ширини контурів

Інший поширений спосіб, який використовується для розпізнавання тексту, є ширина обведення. Ширина обведення - це міра ширини кривих і ліній, які складають характер зображення. Регіони містять текст, як правило, мають невеликий розкид ширини обведення, а нетекстові регіони мають більше варіацій.

Щоб зрозуміти, як ширина штриха змінюється, щоб видалити нетекстові регіони, необхідно оцінити ширину обведення усіх областей виявлених MSER функцією. Ми можемо зробити це за допомогою розрахунку відстані і бінарної операцією проріджування:

Як виявити і розпізнати текст з картинки

На зображеннях вище показано. як ширина штриха має дуже незначні зміни по більшій частині регіону. Це означає, що регіон має більше шансів бути текстової областю, так як лінії і криві, які обводять регіон мають схожу ширину.

Для того, щоб використовувати метод зміни ширини штриха, необхідно ввести порогове значення, зміни по всій області наступним чином:

Потім, поріг може бути застосований, щоб видалити нетекстові регіони. Зверніть увагу, що це порогове значення може вимагати настройки для зображень з різними стилями шрифту.

Процедура, наведена вище, повинна здійснюватися окремо для кожної виявленої MSER області. Наступний цикл for обробляє всі регіони, а потім показує результати видалення нетекстових областей за допомогою зміни ширини ходу.

Як виявити і розпізнати текст з картинки

Об'єднання отриманих областей для остаточного результату виявлення тексту

На даний момент, все результати виявлення складаються з окремих текстових символів. Щоб використовувати ці результати для задач розпізнавання, окремі символи тексту повинні бути об'єднані в слова або рядки. Це дозволяє розпізнавати слова в зображенні, які несуть більш значиму інформацію, ніж просто окремі літери.

Для того щоб, об'єднати окремі регіони в слова або рядки тексту, необхідно спочатку знайти текст з сусідніх регіонів, а потім сформувати рамку навколо цих регіонів. Щоб знайти сусідні регіони потрібно розширити рамки, обчислені раніше regionprops.

Як виявити і розпізнати текст з картинки

Тепер, перекриваються рамки можуть бути об'єднані разом, щоб сформувати один обмежує прямокутник навколо окремих слів або рядків тексту. Для цього обчислюють коефіцієнт перекриття між усіма парами прямокутника. Це визначає відстань між усіма парами текстових регіонів, так щоб в ньому можна знайти групи з сусідніх регіонів мають ненульові коефіцієнти перекриття. Після попарного перекриття використовуючи graph обчислюються коефіцієнти, щоб знайти всі текстові регіонів «пов'язані» з ненульовими коефіцієнтами перекриття.

Ми будемо використовувати функцію bboxOverlapRatio, для обчислення парних коефіцієнтів перекриття для всіх розширених рамок, а потім скористаємося graph для пошуку всіх підключених регіонів.

Вихідні дані conncomp є індексу регіонів містять текст обмежені рамками. Використовуючи ці показники, ми можемо об'єднати декілька сусідніх рамок, в єдину рамку шляхом обчислення мінімального та максимального з індивідуальних обмежувальних блоків, які складають кожну компоненту зв'язності.

Нарешті, перш ніж показувати остаточні результати виявлення, необхідно позбутися від погано виявленого тексту.

Як виявити і розпізнати текст з картинки

Розпізнати текст за допомогою OCR

Після виявлення текстових областей, використовуємо функцію ocr для розпізнавання тексту в кожній рамці. Зверніть увагу, що без пошуку в області тексту, на виході ocr будуть присутні багато шуму.

Таким чином, ми змогли розпізнати текст з картинки.

Як виявити і розпізнати текст з картинки

Як виявити і розпізнати текст з картинки

Як виявити і розпізнати текст з картинки

Як виявити і розпізнати текст з картинки

Як виявити і розпізнати текст з картинки

Найкраще на Neuronus

Як виявити і розпізнати текст з картинки

Як виявити і розпізнати текст з картинки

Як виявити і розпізнати текст з картинки

Схожі статті