Шаг 4. Определяем центры масс
Описание.
Поиск центров масс — один из ключевых этапов создания модуля. На капче потенциальные точки для поиска символов будут подсвечиваться цветом (по умолчанию — зелёным).
На этом этапе так же можно задать размер окна распознавания.
Цель настройки.
Нужно добиться того, чтобы:
- точки проходили через центры букв (или максимально близко к ним);
- точек было минимально достаточно (без излишнего количества);
- время вычисления оставалось разумным и не росло зря.
Как правильно настроить?
Окно распознавания символа.
Задайте размер так, чтобы в него помещался самый крупный символ набора.
Кликните по капче, чтообы увидеть рамку окна. Подберите нужный размер, регулируя ширину/высоту этой рамки.
Область подсчёта массы.
Увеличение ширины этой области сглаживает линию центров масс, а уменьшение, наоборот, делает её более неровной.
Нужно настроить так, чтобы линия шла через центр каждой буквы, но не дрожала внутри символа.
А высоту подберите таким образом, чтобы на каждой букве была только одна линия.
Порог распознавания.
Поднимайте порог, пока линия не станет короче и чище, но не исчезнет в центрах символов.
Не изменяйте этот парам етр.
Частота точек проверки (шаг по ширине/высоте).
По ширине не обязательно проверять каждый пиксель:
- для маленьких капч можно раз в 2 точки,
- для увеличенных — раз в 3–4 точки.
По высоте задайте величину чуть больше самой высокой буквы (для однострочных капч можно больше).
Если добавить слишком много точек, это замедлит скорость распознавания. А если переборщить с разбросом, то будет слишком много ошибок.
Дополнительные точки.
Можно добавить немного точек с небольшим вертикальным смещением, чтобы повысить шанс обнаружения символов.
Опять же, не добавляйте много точек: их избыток замедляет работу и повышает вероятность ошибок.
Виды капч.
Капчи могут различаться по расположению символов в них. Соответственно, и успешный результат определяется по-разному. Например:
- Символы близко друг к другу.
Тогда после настройки вы увидите непрерывную зелёную линию, проходящую через центры всех символов. - Символы разнесены отдельно.
В этом случае вы получите отдельные точки в центрах каждого символа.
Когда ядро уже обучено.
На этой вкладке можно кликать (или вести мышью с зажатой ЛКМ) по капче и смотреть отклик ядра в разных местах. Это помогает понять, откуда берутся ошибки, и что ещё стоит подправить.
Полезная практика.
При изменении любого параметра пролистывайте несколько разных капч, а не настраивайте всё на одном примере. Так вы получите стабильные настройки для всего датасета.