打开源代码,我们能找到一串乱码,很明显,答案就在里面了。
首先,我们要得到他,直接复制粘贴显然不是一个好方法。
url="http://www.pythonchallenge.com/pc/def/ocr.html"#网页地址
from urllib import request #模块引入
from collections import Counter
page = request.urlopen(url) #获得页面
html = page.read() #打开页面
str = html.decode('utf-8') #对获得的内容进行utf-8编码
现在我们已经获得这个网页的原码了
想看的话,我们可以
接下来,我们明显是要获得那串乱码
str_begin=str.find('-->\n<!--') #查找起始位置
str=str[str_begin:] #截取字符串
准备工作完成了,接下来,我们只需要找稀有字符就行了
c=Counter(str) #统计各个字符出现的次数,并生成字典
#print(''.join([i[0] for i in c.items() if i[1]==1]))#输出,功能同下。但是看起来高大上啊!!
for i in c.items():
if i[1]==1:
print(''.join(i[0]),end="")