Данные (операции с табом)
🔗 Оригинальная страница — Источник данного материала
Описание
Данный экшен предназначен для получения данных со страницы.
Как добавить действие в проект?
Через контекстное меню Добавить действие → Табы → Данные
Либо воспользуйтесь ❗→ умным поиском.
Для чего это используется?
- Найти и сохранить нужную информацию со страницы
- Проверить, есть ли какие-то значения на странице
- Спарсить текст со страницы
- Взять URL страницы
Как работать с экшеном?
Что взять
Выбрать тип данных, которые необходимо взять:
- DOM - объектная модель документа;
- Source - исходный код страницы;
- Text - видимый текст страницы;
- URL - адрес ссылки из адресной строки.
Разница между Source и Dom
Нажмите здесь, чтобы развернуть
Source ** - исходный код страницы полученный с сервера. DOM ** - это дерево объектов созданных браузером в памяти компьютера на основе исходного кода (*Source ).
Если сильно упростить, то браузер работает следующим образом:
- Вы вводите в адресную строку URL и нажимаете энтер.
- Браузер отправляет запрос на сервер.
- Сервер возвращает ответ в виде исходного HTML кода страницы (*Source)
- На основе исходного кода браузер строит *DOM (Data Object Model - объектная модель документа)
- обрабатывает ошибки (добавляет тэги html, body, head и др. если они не были написаны)
- закрывает незакрытые тэги
- добавляет тэг <tbody> к таблицам, если его не было. Согласно DOM у таблиц (<table>) должен быть тэг <tbody>, а в HTML его можно не использовать (это стоит учитывать при построении ❗→ XPath и ❗→ регулярных выражений)
- обрабатывает скрипты на странице (которые могут добавлять новые элементы на страницу, причем делать это и после полной загрузки страницы)
- И в конце браузер на основе DOM отрисовывает и показывает Вам содержимое веб страницы.
DOM может содержать информацию и элемен ты, которых не будет в исходном коде (Source) т.к. он (DOM) включает в себя содержимое, которое может встраиваться с помощью JavaScript.
При работе с запросами (❗→ GET, ❗→ POST и ❗→ другими видами запросов) Вы всегда будете иметь дело с Source.
Для просмотра Source и DOM в ProjectMaker существуют два инструмента:
- ❗→ Инструменты web-разработчика (только для движка Chrome)
Какая вкладка
Выбрать вкладку, с которой брать данные:
- *Активная - текущая активная вкладка;
- *Первая - если вкладок несколько, то взять первую по счёту;
- *По имени - указать имя вкладки;
- *По номеру - указать номер вкладки, если их несколько.
Обрабатывать только указанные теги
Если необходимо обрабатывать только один или несколько определённых HTML тэгов, то активировать чекбокс и выбрать нужные варианты.
Парсить результат
Если необходимо парсить полученный результат, то это можно сделать, указав нужное регулярное выражение Regex, количество и номера совпадений, а так же куда сохранять результат - в переменную или таблицу. Подобрать необходимое регулярное выражение можно с помощью ❗→ Тестера регулярных выражений.
Элементы управления, которые появляются при включении настройки Парсить данные, такие же как и у Обработка текста-Regex (там найдёте более детальное описание).
Для получения данных со страницы есть более удобный инструмент - Парсить данные
Пример использования
Возьмём все ссылки на странице. Выбираем брать DOM или Source, парсить результат и указываем регулярное выражение Regex:
(?<=href=")http.*?(?=")
Брать все значения и результат положить в список.
В результате в списке получим все ссылки, имеющиеся на данной странице.