120分高手进,这问题居然说有人解决不了 http://topic.csdn.net/u/20091214/15/16d38476-3164-4978-9b24-4c4f0f65d10b.html务必看清需求 解决方案 » 免费领取超大流量手机卡,每月29元包185G流量+100分钟通话, 中国电信官方发货 你获取到这个url 在写一个 转静态页面的方法, 就会获得整个页面的全部内容! 我说的没错啊! 你不就是想得到url的网页全部信息么? 这位同学就是没事找事型.你的需求解决不掉.你就算找到比尔盖茨来,还是解决不掉.这个已经不是语法,或者代码的事情了.而是你的逻辑问题.你都说了,标题不知道会放在 h1 div 还是p里面..那怎么去判断?如果广告也放在 p里面 标题也放在p里面 过滤p内容自然过滤掉了标题这个是定向思维,除非你能确定所有网站的内容都放在 某个特定的 而且不会重复的标签里面,否则你怎么过滤?智能判断是广告还是内容? 可能么? 判断都是写出来的,你的问题针对某一个URL可以解决,但是URL是用户输入的,这个就无解了.除非所有网站都一样.内容放p 标题放h1 而且广告不涉及p和h1你的要求就是无解. 没看清就不会回答你了...看了你前面帖子的全部回帖..思考了判断的方法,得出的结论就是..你的想法只可能在之下条件其中1个完成1:都是同一个网站的的URL或2:都是统一的代码. 广告放在某个指定标签,内容放在某个指定.否则根本不可能完成.思考下逻辑判断就知道答案了. 楼主啊,别人说的很清楚了,用正则。一条正则,只能对特定的url或者网页有效,如果你换其他url,很可能就要重新定义正则。鉴于你所说的url不固定,那我目前只能想到,把正则改成配置项(在UI里可以增加、修改、删除),把已知的url对应相应的正则。 原来..一个URL=一个正则.根据不同的URL去用不同的正则不过唯一的需要楼主你自己不停的写正则了,所有网站不一样的..这样问题解决了. 哎 也许我表达的比清楚让你无法理解 没看清在问 对你做单独回帖还有那个出售脑残片的 你也看清了才说 然后留着自己备用 我说了 这个url是不固定的 但没说 页面内容只是文章 可以有少部分 不能精确的其他内容这个是可以实现的吧?还有如果这个页面不是主要说文章 比如www.sina.com 我只截取代表性内容 这个我想貌似可以实现 不太确定还有什么不可以? long123x你还没看明白 发现是我表达的这么差还是你没听明白我快受不了了哎 早知道就去写中文系了 确实,完全通用而不采用人工干预/智能判断是做不到的。lz的问题类似“新闻自动抓取”,提这方面问题的人很多,有些CMS系统也自带有“新闻抓取功能”,楼主可以在网上搜索下。一般要实现这样的功能都要做一个小系统,不是一两段简单代码就能搞定的。RSS就是为了解决这种需求发明的互联网标准,跟着标准走才是正道。 long123x 已经明白了。楼主,解释了那么多,我们当然明白了,现在是,我们怀疑楼主您没明白。你的原贴和这个帖子,很多人都说了:一个正则式,不能解决所有网站有效信息截取的。您如果要这么做,只能把正则式做城配置项,就是类似,你在注册论坛或者博客啊,别人让您提供性别或者职业那种可选项,您自己来维护这个正则列表,不同的url(网站)用相应的正则去匹配。现在的问题是:如果楼主执意要用一个正则来完成所有的网站正常截取,是不能办到的。那我们又怎么能给您答案呢。 jxyxhzigelf你们这么鄙视我?貌似我没有得罪你们吧?大哥大姐我刚上班不就 你们也不用这样对我吧?虽然俺是农村来的,虽然俺学历的,虽然俺没技术虽然俺语言表达不好但你们也不能这样欺负人吧?不行俺,俺去居委会告你们,哼!俺的问题是表达的不清楚但现在貌似已经清楚了,谢谢 www.youdao.com ??人家是移除了所有HTML,取的文本 igelf 看清题目 有些人是理解了 但我需要的是具体的实现 你也没看清 哎 看清了才说 OK?我文化低 你也说了 他们也许给了解决方案但俺看不懂 要不你给个方案? 1.要像有道一样,嗯,LZ你可能没看仔细,有道也只是把标签去了,你要这么做也就只是把标签等去了,留下的就是了2.如果要实现你说的类似"网页抓取"或者说"爬虫"之类的功能,确实不是一个正则可以解决的,也不可能很准确的实现,18L和22L都已经说得很清楚了. 帖子结了吧,按你的要求我们的确做不到如果lz做到了,那么价值起码4000w(呵呵,一个垃圾绿坝不管咋说也买了这个价,如果lz真把这个要求做到了,那么起码也能写出一个比绿坝更好的东西出来) 如果特指正文,那竹子觉得没有通用的方案,应该是针对不同的网站用不同的规则。放宽一点的话,可以定一个较通用的规则,因为有一部分网站都是较规矩的,比如正文的容器ID是content 怎么样提高网站的访问速度? 求助,哪种开发方式比较简单!!! public static DataTable 导出问题 高分求助(asp.net导出EXCEL) 一点认证单点登录系统。急!! |M| 问关于Cookies的操作问题 谢谢 如何在TreeView中添加CHECKBOX 请教一个函数viewstate(),我搞不懂!问一下高手! 如何给一个pdf文件加签名! asp.net Cart控件如何绑定动态数据 请教Excel导入数据库出错的问题! asp.net中如何实现html-file那样的功能
否则你怎么过滤?智能判断是广告还是内容? 可能么?
判断都是写出来的,你的问题针对某一个URL可以解决,但是URL是用户输入的,这个就无解了.除非所有网站都一样.内容放p 标题放h1 而且广告不涉及p和h1你的要求就是无解.
看了你前面帖子的全部回帖..
思考了判断的方法,
得出的结论就是..你的想法只可能在之下条件其中1个完成
1:都是同一个网站的的URL
或
2:都是统一的代码. 广告放在某个指定标签,内容放在某个指定.否则根本不可能完成.思考下逻辑判断就知道答案了.
不过唯一的需要楼主你自己不停的写正则了,所有网站不一样的..这样问题解决了.
还有什么不可以?
发现是我表达的这么差还是你没听明白我快受不了了哎 早知道就去写中文系了
您如果要这么做,只能把正则式做城配置项,就是类似,你在注册论坛或者博客啊,别人让您提供性别或者职业那种可选项,您自己来维护这个正则列表,不同的url(网站)用相应的正则去匹配。现在的问题是:如果楼主执意要用一个正则来完成所有的网站正常截取,是不能办到的。那我们又怎么能给您答案呢。
但你们也不能这样欺负人吧?不行俺,俺去居委会告你们,哼!俺的问题是表达的不清楚但现在貌似已经清楚了,谢谢
哎 看清了才说 OK?我文化低 你也说了 他们也许给了解决方案但俺看不懂 要不你给个方案?
2.如果要实现你说的类似"网页抓取"或者说"爬虫"之类的功能,确实不是一个正则可以解决的,也不可能很准确的实现,18L和22L都已经说得很清楚了.
放宽一点的话,可以定一个较通用的规则,因为有一部分网站都是较规矩的,比如正文的容器ID是content