请问一下,用getHTTPPage把网页给抓取下来了... 页面的有些信息不需要,通过过滤的方法如何提取想要的内容啊! 比如:在这个页面中我只想提取连接到/8230的文件夹里的连接的文字.. 如何过滤啊! 大家有没有好的方法或有好的地址推荐一下... 谢谢!
这个问题第1个回答:
Dim wstr,str,url,start,over url="http://qq.ip138.com/weather/jiangsu/FengXian.htm" wstr=getHTTPPage(url) start=Newstring(wstr,"天气趋势预报 </b> </p>") over=Newstring(wstr," <div id=""phonezip"">") body=mid(wstr,start,over-start) ' body=Replace(body, "See Traffic Details", "查看详细资料") ' body=Replace(body, "Traffic Rank for ", "整体排名") body=Replace(body, "天气趋势预报 </b> </p>", "") body=Replace(body, "image/", "weather/images/") 类似的吧,定义个开始与结束的字符串.
这个问题第2个回答:
正则表达式
这个问题第3个回答:
一般这些没有的内容都是在一定的规则存在的,如唯一的标签等,用正则表达式把没用的内容过滤掉就可以啦
这个问题第4个回答:
你这个最简单的处理就是用关键字查找的方法 string=";slkf;lkl;dksf <a href=/8230>TEXTSTRING </a>psdjfodjfijdf" 明显的,你要8230连接,肯定在html有以上类似代码,所以你只需要: searchstr=instr(string,"/8230") string=mid(string,searchstr+6) searchstr=instr(string," </a>") string=mid(string,1,searchstr-1) 这里的string="TEXTSTRING" 也就是你要的内容了
这个问题第5个回答:
这个问题第6个回答:
拜托楼上的,不要遇到字符操作就回答人家 正则表达式 ,至少你也把表达式写出来呀,就这几个字,等于我看电视的时候问人家,这个是谁,你回答,是人,或者不是猪,这种回答又有什么用呢.
这个问题第7个回答:
还是告诉你用正则表达式,授人以渔乃正道
这个问题第8个回答:
正则或一点点分析内容用instr,mid,replace等函数~
这个问题第9个回答:
回贴美德
这个问题第10个回答:
你们还有什么抓取网页代码的方式没有???
这个问题第11个回答:
我现在抓取的内容中想含用" <div align="left"> <a class="hui" href="Search.aspx?q=TVS&showname=TVSA0048">TVSA0048 </a> <a href="http://cn.datasheet123.com/search.aspx?q=TVSA0048" target=_blank> <img src="images/z-2.gif" border=0 alt="点击查询相关PDF资料" align=absmiddle> </a> </div>" 我想把这个DIV中的连接字段作为抓取对应该怎么写啊!~
这个问题第12个回答:
你这个哪里是渔,正则表达仅仅是名称,按你怎么说也不要回答那么多了,你回答去csdn找,或者去国家图书馆找都可以了。 asp字符串操作里几个常用的函数 instr 返回指定字符在字符串中出现的位置 left 返回字符串左起指定字符 mid 返回字符串指定开始与结束字符 比如你要获取div中的连接,可以查找 search.aspx 然后再查找 > start=instr(string,"search.aspx") number=instr(mid(string,start),">")-2 然后用mid(string,start,number) 就可以返回第一个连接了
|