Skip to main content

Шаг 4. Определяем центры масс


Описание.

Поиск центров масс — один из ключевых этапов создания модуля. На капче потенциальные точки для поиска символов будут подсвечиваться цветом (по умолчанию — зелёным).

На этом этапе также можно задать размер окна распознавания.

Цель настройки.

Нужно добиться того, чтобы:

  • точки проходили через центры букв (или максимально близко к ним);
  • точек было минимально достаточно (без излишнего количества);
  • время вычисления оставалось разумным и не росло зря.

Как правильно настроить?

Окно распознавания символа.

Задайте размер так, чтобы в него помещался самый крупный символ набора.

Кликните по капче, чтообы увидеть рамку окна. Подберите нужный размер, регулируя ширину/высоту этой рамки.

Область подсчёта массы.

Увеличение ширины этой области сглаживает линию центров масс, а уменьшение, наоборот, делает её более неровной.

Нужно настроить так, чтобы линия шла через центр каждой буквы, но не дрожала внутри символа.

А высоту подберите таким образом, чтобы на каждой букве была только одна линия.

Порог распознавания.

Поднимайте порог, пока линия не станет короче и чище, но не исчезнет в центрах символов.

Порог символа.

Не изменяйте этот параметр.

Частота точек проверки (шаг по ширине/высоте).

По ширине не обязательно проверять каждый пиксель:

  • для маленьких капч можно раз в 2 точки,
  • для увеличенных — раз в 3–4 точки.

По высоте задайте величину чуть больше самой высокой буквы (для однострочных капч можно больше).

Если добавить слишком много точек, это замедлит скорость распознавания. А если переборщить с разбросом, то будет слишком много ошибок.

Дополнительные точки.

Можно добавить немного точек с небольшим вертикальным смещением, чтобы повысить шанс обнаружения символов.

Опять же, не добавляйте много точек: их избыток замедляет работу и повышает вероятность ошибок.


Виды капч.

Капчи могут различаться по расположению символов в них. Соответственно, и успешный результат определяется по-разному. Например:

  • Символы близко друг к другу.
    Тогда после настройки вы увидите непрерывную зелёную линию, проходящую через центры всех символов.
  • Символы разнесены отдельно.
    В этом случае вы получите отдельные точки в центрах каждого символа.

Когда ядро уже обучено.

На этой вкладке можно кликать (или вести мышью с зажатой ЛКМ) по капче и смотреть отклик ядра в разных местах. Это помогает понять, откуда берутся ошибки, и что ещё стоит подправить.


Полезная практика.

При изменении любого параметра пролистывайте несколько разных капч, а не настраивайте всё на одном примере. Так вы получите стабильные настройки для всего датасета.