У меня есть этот сайт inforegion.pe, что я извлекаю Вашу дату публикации с xpath, для этого я использую расширение chrome, которое называется: xpath Helper, в этом случае мой xpath: //span[contains(@class, "box-date")]/text()
, как результат извлекает меня: Tocache - San Martín 01 febrero 2019 - 4:50 pm,
. Поскольку возможно оценивать дату, у него есть текст как:Tocache - San Martín
, как он мог бы делать для того, чтобы мой xpath идентифицировал меня полного одинокого текста с тех пор, как он начнет число?, в этом случае он был бы 01
в дальнейшем, вещь, что результат был бы этим: 01 febrero 2019 - 4:50 pm
, спасибо
ЗАМЕТЬ: Может быть любой размер текста перед 01 febrero..
, следовательно он не был бы полезным например с установленными субцепями.
Как только у тебя был текст лучшее, что ты можешь делать, состоит в том, чтобы использовать регулярные выражения. Здесь я оставляю тебе пример как делать это в Пайтоне:
patron = re.compile("(.*)\d{2} .* \d{4} - \d{1,2}:")
cadena = "Anta - Huancavelica 19 febrero 2019 - 6:10 pm"
resultado = patron.match(cadena).group(1).strip()
регулярное выражение продолжает следующий главный файл: