我正在使用Python和BeautifulSoup为我的一个小项目创建一个网页。该网页有多个条目,每个条目用HTML中的表行分隔。我的代码部分工作,但是很多输出是空白的,它不会从网页中获取所有结果,甚至不会将它们收集到同一行。
Sample Website
35 | Lorem Ipsum | FooWorld | 12/10/2014 | 2:53:17 PM |
我只想从onclick操作'searchDB'中提取值,因此例如'LoremIpsum'和'FooWorld'是我唯一想要的两个结果。
这是我写的代码。到目前为止,它正确地提取了一些写值,但有时这些值是空的。response = urllib2.urlopen(url)
html = response.read()
soup = bs4.BeautifulSoup(html)
properties = soup.findAll('a', οnclick=True)
for eachproperty in properties:
print re.findall("'([a-zA-Z0-9]*)'", eachproperty['onclick'])
我做错什么了?