题目1,
假设你是项目负责人,客户是一个水果店A的老板。他跟你说,他要你做个网页,在上面列明水果的价格,但这个价格不要人手输入,要从竞争对手水果店B的网页上获得,并打一个折扣。对这个要求,你是否清楚,你还有什么需要问水果店A的老板的。
题目2,
如果你清楚了水果店A的老板的要求,你回到公司,对你手下的开发人员部署任务,以便决定是否接这个项目,你要他们做什么工作。当时我脑袋一阵晕,都不知道自己回答了些什么。
痛定思痛,想看一下各位的看法。
谢谢。

解决方案 »

  1.   

    to lxmfll2000(lxm) 
    如果对题目1不清楚,你可以提问客户,你还需要什么信息
      

  2.   

    我回来后查了一下google,
    yls087412(codelive) 说的很有道理,因为如果以后B站点的网页变成不规范的,A站就作废了
      

  3.   

    yls087412(codelive) 
    这是个扩展性问题
    反正只是从B网站上获取水果名称和价格
    不过B网站改不改版,只要提供水果名称和价格,按道理都可以抓取到。
    我是把抓取的正则表达式放到配置文件,当b网站改版时,重新更新下正则表达式就差不多了。所有的价格都是动态图片生成的,你去抓把,
    这就比较变态了
      

  4.   

    rickjelly2004(每逢佳节倍思亲-------------快乐生活) 
    所有的价格都是动态图片生成的,你去抓把,
    ----------------------------------------------
    嗯,果然没有那么简单啊
      

  5.   

    to ofei(欧卡)
    如果价格不是动态图片,是否所有网页都可以抓取to yan63(silence like a cancer grows) 
    第一个分析很有道理(我当时怎么就没有想到呢)第二个没有记错。
    是否存在一些技术问题,可能使项目不可做呢
      

  6.   

    to datablader(皮皮)
    有道理,这个在第一个问题就要问清楚客户后期维护的细节
      

  7.   

    题1
    1、老问题,如果网站结构改变了怎么办?ps:做成图片的比较少。这个BT。
    2、如果对手网站中没有某种水果的价格,或以前有现在没有了怎样处理?
    3、不需要手动调价的情况下,如果对手的价格定位很低,低于成本,怎样处理?题2
    这不十分清楚。
      

  8.   

    一般网页都可以抓取,但我也碰到过vs2003登陆不了的,没试过vs2005能不能登陆,取不到cookie。依赖于别的网站的网站肯定这样了,目标网站改版一般就得改。反正谈好了就可以开工:)cpp2017(慕白兄) 肯定做过不少,呵呵
      

  9.   

    to ofei(欧卡)
    面试官最后给我的提示是不规范的网页就没办法,不可以抓取。
    这是真的吗,怎么判断一个网页是不是规范。to cpp2017(慕白兄)
    哈哈,高手,是出手的时候了
      

  10.   

    to lr21shiji(睿睿)
    哈哈,我面试时的回答和你的差不多,我说看对手使用什么数据库(看能不能使用注入攻击,哈哈,估计职业道德分打了负100分),有没有web service。
    面试官说这个一般是机密信息,不可能得到
      

  11.   

    to Samen168(技术==>价值) 
    good idea :)
      

  12.   

    to ofei(欧卡) 
    能不能给我一个这类型应用的Demo,我以前做C/S结构的多,这方面内容几乎没有接触过,更不知道其中原理。
    谢谢。
      

  13.   

    to sp1234(扫描病毒ing) 
    现在我方还在考查能不能做。不少所有项目都能做而且能挣钱:)
      

  14.   

    自动抓取
    应该利用http的 Reuqset等等
      

  15.   

    to uno(钢盅郭子) 
    第一个问题分析很全面。
    网页抓取可以做实时同步吗?
    是否有例子第二个问题的环境是还没有决定是否接项目,你回答的应该是后期的做法吧
      

  16.   

    可以啊目前我能想到的——用ASP.NET做的话:就是每次输出页面前先用WebRequest访问其他网站的网页,对WebResponse返回的html结果进行解析咯
      

  17.   

    to uno(钢盅郭子) 
    我对这方面不少很了解,我想实时同步是不是分两种,一种是每隔一段时间(比如半小时)就去网页抓取,另外一种是,当B站的内容改变后再去网页抓取(数据驱动)。
    你说的是第一种吧
      

  18.   

    我靠,嘎简单的项目:Page只有一个,就是留下水果店B的网址,下面跟一句,我们所有的水果都在B店的价格打上N%的折扣。这明明就是个脑筋急转弯啊。看看应聘的人是不是写程序写呆了,哇咔咔。
      

  19.   

    to iamyuqing(天草) 
    Good idea  :)
    不过B店没有,A店有的水果,或者倒过来的情况怎么办
      

  20.   

    先谈好Money,Money不够谈什么都没用!!
      

  21.   

    我靠,嘎简单的项目:Page只有一个,就是留下水果店B的网址,下面跟一句,我们所有的水果都在B店的价格打上N%的折扣。
    ——————————————————————————————————————————需要一点基本常识,企业是否会这样做自己的网站。
      

  22.   

    to cancerser(都是混饭吃,记得要结帖)
    哈哈,好方法。不过把A,B说反了。不过,
    如果你是给B做网站的软件公司老板,你会帮我做外包吗。
    这关系到公司的诚信和信誉。
      

  23.   

    呵呵  这个可以看一下 最近和谐程打官司的那个网站 
    http://www.qunar.com/
    就是这个了  
    其实 我感觉这个应该是像一个爬虫 可以扩大一点想 就是一个搜索引擎的应用吧 呵呵
      

  24.   

    to jedliu(21世纪什么最贵? 人才!) 
    什么叫规范的网站格式,如何判断
      

  25.   

    to uno(钢盅郭子) 网页内容格式
      

  26.   


    非常容易的问题逻辑:从水果店B抓取数据,包括很多数据,只要是HTML的就可以,经过EDS过滤数据,可以自定策略,例如需要什么数据格式的数据就可以留下来,然后存到库里,这样的话就有了数据源了,自己写些类,做“折扣”用!就这样了技术:随便什么技术架构:大概分为数据抓取模块,数据过滤模块,内容管理模块,具体架构自己想吧,就是一个普通的三层网站就可以了简单介绍:
    1.外部评论数据抓取系统-External Data Spider System(EDS System):从外部/第三方WEB站点抓取用户对产品、商家等的评论数据、产品数据,并通过数据格式转换系统转化为符合社区内部数据结构的数据,外部评论社区系统是一个可自我维护健康、可配置自动运行的服务系统。每增加一个外部采集数据源,该系统就会增加一个采集适配模块;
    2.数据格式转换系统-Data Formatting Adapter System(DFA System):完成把各种外部抓取到的数据转换为符合社区内部数据结构的数据格式,并存储到相应位置,如数据库或静态数据文件中。每增加一个对外抓取的数据源,就相应地添加一个特定的数据转换模块;
      

  27.   

    再说一下,B店的变化问题,大家都忽略了一个很重要的问题,就是,我们要做的是一个“实时”的系统,会随着B站的变化而变化,我们的抓取目标就是一些HTML或XML代码,A站是实时生成的静态站点,这样的话,只要B站不关闭,我们的数据源就是B站的最新资料。
      

  28.   

    做个windows服务,不停的扫描B站
      

  29.   

    一.清楚 1.给我个b的网址 2.价格的最低线 3.被b发现怎么处理
    二.价格合理则接1.b网页数据分析价格入库2物品折扣(含价格的最低线)等数据输入
      

  30.   


    1 这么职能的要求,这个好难啊 ,不过也可以做,可是要花大力气,成本高啊.2 三天做完,剩下时间去csdn灌水。
      

  31.   

    问一下大家,
    如果B的网页不变动,怎么取其数据?是把它Down下来分析吗?怎么Down下来合适呢?
    学习一下ASP.NET:)
      

  32.   

    一个页面完成
    一个文本框写上"本水果店的所有水果价格按照下面地址站点中折扣%n"
    一个超链接,链接到B水果店的网站.
    完事了...
    至于后期的维护,那更简单
    1.随时根据B水果店的地址改变来更新超链接地址
    2.随时改变文本框里的%n来达到老板的价格要求
    3.如果B水果店挂了,那就再找C水果店...D水果店...PS:如果网上所有水果店都被你的链接搞的买不出去水果而挂掉的话,那恭喜你,你可以和老板说你们的水果店已经垄断网络了,价格随便写,只要想上网买,那就得来咱这.你老板知道了以后那不乐的屁颠屁颠的.那么再次恭喜你,你成功了.....