天天看點

python擷取标簽文本_如何擷取标簽下的文本

如果要擷取不包括

節點文本的文本,則需要使用以下XPath://div[starts-with(@id, 'popover-')]

它将辨別div節點,然後通過使用find_elements_by_xpath()方法,您可以從div node檢索所有文本。請嘗試以下代碼:

^{pr2}$

更新:

我懷疑,上述方法可能不起作用,我們可能無法使用正常方法識别/擷取資料-在這種情況下,您需要使用JavaScriptExecutor來擷取如下資料:driver = webdriver.Chrome('chromedriver.exe')

driver.get("file:///C:/NotBackedUp/SomeHTML.html")

xPath = "//div[starts-with(@id, 'popover-')]"

elements = driver.find_elements_by_xpath(xPath)

for element in elements:

lenght = int(driver.execute_script("return arguments[0].childNodes.length;", element));

for i in range(1, lenght + 1, 1):

try:

data = str(driver.execute_script("return arguments[0].childNodes["+str(i)+"].textContent;", element)).strip();

if data != None and data != '':

print data

except:

print "=> Can't print some data..."

由于您的網站是用英語以外的其他語言編寫的,您可能無法列印/擷取一些資料。在

要擷取特定的子節點資料,需要執行以下操作:

^{4}$

我希望它能幫助。。。在