Шаг 1. Собираем капчи
Открываем программу и создаём новый проект с понятным названием.
Собираем коллекцию капч.
Первое, с чего начинается создание модуля, — это сбор коллекции капч и их решений, на которых будет обучаться и тестироваться ваш модуль.
Сделать это можно двумя способами:
1. Сбор капч без ответов и последующее распознавание в программе.
Вы можете заранее собрать изображения капч любым удобным способом, а затем распознать их прямо в Module Creation Studio.
Для этого в настройках программы нужно указать логин и пароль одного из сервисов ручного распознавания (например, RuCaptcha, AntiGate и др.).
После загрузки изображений выберите подходящий вариант распознавания. Если вы используете сервисы ручного распознавания, лучше разделять капчи на группы:
- для сбора символов подойдут обычные решения;
- для обучения и тестирования желательно использовать 100%-вероятное распознавание, когда капча отправляется нескольким исполнителям одновременно (такая функция есть у RuCaptcha и AntiGate).
2. Автоматический сбор через ZennoPoster.
Можно создать простой шаблон в ZennoPoster, который будет автоматически собирать и распознавать капчи.
Итогом этого этапа должна стать папка на диске, где каждая капча и её ответ хранятся попарно:
- изображение капчи —
.jpg,.pngи т.п.; - текстовый файл с ответом —
.txt.

Эти два файла (капча и ответ) должны иметь одинаковые имена, отличаясь только расширением.
Например:
1234.jpg
1234.txt
Альтернативный вариант — когда имя файла совпадает с ответом на капчу, например:
qwe.jpg
Такой формат тоже корректно воспринимается программой.
Сколько нужно капч?
Количество необходимых капч зависит от их сложности:
- для простых капч с минимальными искажениями символов достаточно около 300 изображений,
- для сложных капч — примерно 1000.
Все эти капчи нужно будет распознать через сервисы ручного распознавания, что обычно обходится от нескольких десятков центов до пары долларов.
Для чего нужно собирать капчи?
1. Для определения символов.
Каждый символ должен быть представлен от 3 до 150 раз, в зависимости от сложности капчи.
Но важно, чтобы их количество было примерно одинаковым по всему набору.
2. Для предотвращения ложных срабатываний.
Таких капч нужно в 10 раз меньше, чем тех, что используются для сбора символов.
3. Для тестирования модуля.
Около 100 капч выделяются специально для проверки точности готового модуля.