解决方案 »

  1.   

       你获取到这个url   在写一个 转静态页面的方法, 就会获得整个页面的全部内容!
      

  2.   

      我说的没错啊! 你不就是想得到url的网页全部信息么?
      

  3.   

    这位同学就是没事找事型.你的需求解决不掉.你就算找到比尔盖茨来,还是解决不掉.这个已经不是语法,或者代码的事情了.而是你的逻辑问题.你都说了,标题不知道会放在 h1 div 还是p里面..那怎么去判断?如果广告也放在 p里面 标题也放在p里面 过滤p内容自然过滤掉了标题这个是定向思维,除非你能确定所有网站的内容都放在 某个特定的 而且不会重复的标签里面,
    否则你怎么过滤?智能判断是广告还是内容? 可能么? 
    判断都是写出来的,你的问题针对某一个URL可以解决,但是URL是用户输入的,这个就无解了.除非所有网站都一样.内容放p 标题放h1  而且广告不涉及p和h1你的要求就是无解.
      

  4.   

    没看清就不会回答你了...
    看了你前面帖子的全部回帖..
    思考了判断的方法,
    得出的结论就是..你的想法只可能在之下条件其中1个完成
    1:都是同一个网站的的URL

    2:都是统一的代码. 广告放在某个指定标签,内容放在某个指定.否则根本不可能完成.思考下逻辑判断就知道答案了.
      

  5.   

    楼主啊,别人说的很清楚了,用正则。一条正则,只能对特定的url或者网页有效,如果你换其他url,很可能就要重新定义正则。鉴于你所说的url不固定,那我目前只能想到,把正则改成配置项(在UI里可以增加、修改、删除),把已知的url对应相应的正则。
      

  6.   

    原来..一个URL=一个正则.根据不同的URL去用不同的正则
    不过唯一的需要楼主你自己不停的写正则了,所有网站不一样的..这样问题解决了.
      

  7.   

    哎 也许我表达的比清楚让你无法理解 没看清在问  对你做单独回帖还有那个出售脑残片的  你也看清了才说  然后留着自己备用 我说了 这个url是不固定的 但没说 页面内容只是文章 可以有少部分 不能精确的其他内容这个是可以实现的吧?还有如果这个页面不是主要说文章 比如www.sina.com 我只截取代表性内容 这个我想貌似可以实现 不太确定
    还有什么不可以?
      

  8.   

    long123x你还没看明白 
      发现是我表达的这么差还是你没听明白我快受不了了哎 早知道就去写中文系了
      

  9.   

    确实,完全通用而不采用人工干预/智能判断是做不到的。lz的问题类似“新闻自动抓取”,提这方面问题的人很多,有些CMS系统也自带有“新闻抓取功能”,楼主可以在网上搜索下。一般要实现这样的功能都要做一个小系统,不是一两段简单代码就能搞定的。RSS就是为了解决这种需求发明的互联网标准,跟着标准走才是正道。
      

  10.   

    long123x  已经明白了。楼主,解释了那么多,我们当然明白了,现在是,我们怀疑楼主您没明白。你的原贴和这个帖子,很多人都说了:一个正则式,不能解决所有网站有效信息截取的。
    您如果要这么做,只能把正则式做城配置项,就是类似,你在注册论坛或者博客啊,别人让您提供性别或者职业那种可选项,您自己来维护这个正则列表,不同的url(网站)用相应的正则去匹配。现在的问题是:如果楼主执意要用一个正则来完成所有的网站正常截取,是不能办到的。那我们又怎么能给您答案呢。
      

  11.   

    jxyxhzigelf你们这么鄙视我?貌似我没有得罪你们吧?大哥大姐我刚上班不就 你们也不用这样对我吧?虽然俺是农村来的,虽然俺学历的,虽然俺没技术虽然俺语言表达不好
    但你们也不能这样欺负人吧?不行俺,俺去居委会告你们,哼!俺的问题是表达的不清楚但现在貌似已经清楚了,谢谢
      

  12.   

    www.youdao.com ??人家是移除了所有HTML,取的文本
      

  13.   

    igelf  看清题目 有些人是理解了 但我需要的是具体的实现 你也没看清
     哎  看清了才说 OK?我文化低 你也说了 他们也许给了解决方案但俺看不懂 要不你给个方案?
      

  14.   

    1.要像有道一样,嗯,LZ你可能没看仔细,有道也只是把标签去了,你要这么做也就只是把标签等去了,留下的就是了
    2.如果要实现你说的类似"网页抓取"或者说"爬虫"之类的功能,确实不是一个正则可以解决的,也不可能很准确的实现,18L和22L都已经说得很清楚了.
      

  15.   

    帖子结了吧,按你的要求我们的确做不到如果lz做到了,那么价值起码4000w(呵呵,一个垃圾绿坝不管咋说也买了这个价,如果lz真把这个要求做到了,那么起码也能写出一个比绿坝更好的东西出来)
      

  16.   

    如果特指正文,那竹子觉得没有通用的方案,应该是针对不同的网站用不同的规则。
    放宽一点的话,可以定一个较通用的规则,因为有一部分网站都是较规矩的,比如正文的容器ID是content