Как извлечение краткого содержания текста с Xpath

У меня есть этот сайт inforegion.pe, что я извлекаю Вашу дату публикации с xpath, для этого я использую расширение chrome, которое называется: xpath Helper, в этом случае мой xpath: //span[contains(@class, "box-date")]/text(), как результат извлекает меня: Tocache - San Martín 01 febrero 2019 - 4:50 pm,. Поскольку возможно оценивать дату, у него есть текст как:Tocache - San Martín, как он мог бы делать для того, чтобы мой xpath идентифицировал меня полного одинокого текста с тех пор, как он начнет число?, в этом случае он был бы 01 в дальнейшем, вещь, что результат был бы этим: 01 febrero 2019 - 4:50 pm, спасибо

ЗАМЕТЬ: Может быть любой размер текста перед 01 febrero.., следовательно он не был бы полезным например с установленными субцепями.

0
задан 20.02.2019, 09:09
1 ответ

Как только у тебя был текст лучшее, что ты можешь делать, состоит в том, чтобы использовать регулярные выражения. Здесь я оставляю тебе пример как делать это в Пайтоне:

patron = re.compile("(.*)\d{2} .* \d{4} - \d{1,2}:")
cadena = "Anta - Huancavelica 19 febrero 2019 - 6:10 pm"
resultado = patron.match(cadena).group(1).strip()

регулярное выражение продолжает следующий главный файл:

  1. (.*)\d {2} Берет любой характер, продолженный 2 числами и сохраняет в группе 1
  2. .* \d {4} Находит любую цепь символов, в этом случае месяц, продолженный 4 числами, aГ±o.
  3. - \d {1,2}: Идентифицирует начало часа публикации
0
ответ дан 19.11.2019, 23:21

Теги

Похожие вопросы