请问谁能帮我把下面的文本解析出来,
北京西直门北大街证券营业部 客户对帐单
客户号:111111 姓名:xxxxx 货币:人民币 日期:20010816-->20090915 牛卡级别::银卡
===================================================================================================================
发生日期 股东代码 摘 要 成交数 成交均价 手续费 印花税等 变动金额 资金余额
20070912 证券买入中兴通讯 500.00 52.220 52.22 78.33 -26240.55 73759.45
20070912 0102976836 证券买入中兴通讯 500.00 51.600 51.60 77.40 -25929.00 47830.45
20070913 A463164590 证券买入赣粤高速 2000.00 17.670 70.68 108.02 -35518.70 12311.75
20070913 证券买入赣粤高速 600.00 17.540 21.05 32.57 -10577.62 1734.13
20070914 A463164590 证券卖出赣粤高速 2600.00 17.930 93.24 142.45 46382.31 48116.44
20070914 0102976836 证券卖出中兴通讯 1000.00 52.871 105.74 158.61 52606.65 100723.09===================================================================================================================
page 1
北京西直门北大街证券营业部 客户对帐单
客户号:111111 姓名:xxxxx 货币:人民币 日期:20010816-->20090915 牛卡级别::银卡
===================================================================================================================
发生日期 股东代码 摘 要 成交数 成交均价 手续费 印花税等 变动金额 资金余额
20070912 证券买入中兴通讯 500.00 52.220 52.22 78.33 -26240.55 73759.45
20070912 0102976836 证券买入中兴通讯 500.00 51.600 51.60 77.40 -25929.00 47830.45
20070913 证券买入赣粤高速 2000.00 17.670 70.68 108.02 -35518.70 12311.75
20070913 A463164590 证券买入赣粤高速 600.00 17.540 21.05 32.57 -10577.62 1734.13
20070914 A463164590 证券卖出赣粤高速 2600.00 17.930 93.24 142.45 46382.31 48116.44
20070914 0102976836 证券卖出中兴通讯 1000.00 52.871 105.74 158.61 52606.65 100723.09===================================================================================================================
page 2
北京西直门北大街证券营业部 客户对帐单
客户号:111111 姓名:xxxxx 货币:人民币 日期:20010816-->20090915 牛卡级别::银卡
===================================================================================================================
发生日期 股东代码 摘 要 成交数 成交均价 手续费 印花税等 变动金额 资金余额
20070912 0102976836 证券买入中兴通讯 500.00 52.220 52.22 78.33 -26240.55 73759.45
20070912 0102976836 证券买入中兴通讯 500.00 51.600 51.60 77.40 -25929.00 47830.45
20070913 A463164590 证券买入赣粤高速 2000.00 17.670 70.68 108.02 -35518.70 12311.75
20070913 A463164590 证券买入赣粤高速 600.00 17.540 21.05 32.57 -10577.62 1734.13
20070914 A463164590 证券卖出赣粤高速 2600.00 17.930 93.24 142.45 46382.31 48116.44
20070914 0102976836 证券卖出中兴通讯 1000.00 52.871 105.74 158.61 52606.65 100723.09===================================================================================================================
page 3解析目标:
1、解析出数据的抬头以及内容,去掉其它辅助信息,即,解析出如下内容:
发生日期 股东代码 摘 要 成交数 成交均价 手续费 印花税等 变动金额 资金余额
20070912 证券买入中兴通讯 500.00 52.220 52.22 78.33 -26240.55 73759.45
20070912 0102976836 证券买入中兴通讯 500.00 51.600 51.60 77.40 -25929.00 47830.45
20070913 证券买入赣粤高速 2000.00 17.670 70.68 108.02 -35518.70 12311.75
20070913 A463164590 证券买入赣粤高速 600.00 17.540 21.05 32.57 -10577.62 1734.13
20070914 A463164590 证券卖出赣粤高速 2600.00 17.930 93.24 142.45 46382.31 48116.44
20070914 0102976836 证券卖出中兴通讯 1000.00 52.871 105.74 158.61 52606.65 100723.09
2、数据内容是以空格分隔列的,但是某些列的数据内容中也存在空格,如果单纯用空格分隔数据列,会漏掉一部分数据,例如下面“股东代码部分是空格”
发生日期 股东代码 摘 要 成交数 成交均价 手续费 印花税等 变动金额 资金余额
20070912 证券买入中兴通讯 500.00 52.220 52.22 78.33 -26240.55 73759.45希望各位高手指教,如何才能,将类似数据解析,并识别出,标题和内容!!!!!
北京西直门北大街证券营业部 客户对帐单
客户号:111111 姓名:xxxxx 货币:人民币 日期:20010816-->20090915 牛卡级别::银卡
===================================================================================================================
发生日期 股东代码 摘 要 成交数 成交均价 手续费 印花税等 变动金额 资金余额
20070912 证券买入中兴通讯 500.00 52.220 52.22 78.33 -26240.55 73759.45
20070912 0102976836 证券买入中兴通讯 500.00 51.600 51.60 77.40 -25929.00 47830.45
20070913 A463164590 证券买入赣粤高速 2000.00 17.670 70.68 108.02 -35518.70 12311.75
20070913 证券买入赣粤高速 600.00 17.540 21.05 32.57 -10577.62 1734.13
20070914 A463164590 证券卖出赣粤高速 2600.00 17.930 93.24 142.45 46382.31 48116.44
20070914 0102976836 证券卖出中兴通讯 1000.00 52.871 105.74 158.61 52606.65 100723.09===================================================================================================================
page 1
北京西直门北大街证券营业部 客户对帐单
客户号:111111 姓名:xxxxx 货币:人民币 日期:20010816-->20090915 牛卡级别::银卡
===================================================================================================================
发生日期 股东代码 摘 要 成交数 成交均价 手续费 印花税等 变动金额 资金余额
20070912 证券买入中兴通讯 500.00 52.220 52.22 78.33 -26240.55 73759.45
20070912 0102976836 证券买入中兴通讯 500.00 51.600 51.60 77.40 -25929.00 47830.45
20070913 证券买入赣粤高速 2000.00 17.670 70.68 108.02 -35518.70 12311.75
20070913 A463164590 证券买入赣粤高速 600.00 17.540 21.05 32.57 -10577.62 1734.13
20070914 A463164590 证券卖出赣粤高速 2600.00 17.930 93.24 142.45 46382.31 48116.44
20070914 0102976836 证券卖出中兴通讯 1000.00 52.871 105.74 158.61 52606.65 100723.09===================================================================================================================
page 2
北京西直门北大街证券营业部 客户对帐单
客户号:111111 姓名:xxxxx 货币:人民币 日期:20010816-->20090915 牛卡级别::银卡
===================================================================================================================
发生日期 股东代码 摘 要 成交数 成交均价 手续费 印花税等 变动金额 资金余额
20070912 0102976836 证券买入中兴通讯 500.00 52.220 52.22 78.33 -26240.55 73759.45
20070912 0102976836 证券买入中兴通讯 500.00 51.600 51.60 77.40 -25929.00 47830.45
20070913 A463164590 证券买入赣粤高速 2000.00 17.670 70.68 108.02 -35518.70 12311.75
20070913 A463164590 证券买入赣粤高速 600.00 17.540 21.05 32.57 -10577.62 1734.13
20070914 A463164590 证券卖出赣粤高速 2600.00 17.930 93.24 142.45 46382.31 48116.44
20070914 0102976836 证券卖出中兴通讯 1000.00 52.871 105.74 158.61 52606.65 100723.09===================================================================================================================
page 3解析目标:
1、解析出数据的抬头以及内容,去掉其它辅助信息,即,解析出如下内容:
发生日期 股东代码 摘 要 成交数 成交均价 手续费 印花税等 变动金额 资金余额
20070912 证券买入中兴通讯 500.00 52.220 52.22 78.33 -26240.55 73759.45
20070912 0102976836 证券买入中兴通讯 500.00 51.600 51.60 77.40 -25929.00 47830.45
20070913 证券买入赣粤高速 2000.00 17.670 70.68 108.02 -35518.70 12311.75
20070913 A463164590 证券买入赣粤高速 600.00 17.540 21.05 32.57 -10577.62 1734.13
20070914 A463164590 证券卖出赣粤高速 2600.00 17.930 93.24 142.45 46382.31 48116.44
20070914 0102976836 证券卖出中兴通讯 1000.00 52.871 105.74 158.61 52606.65 100723.09
2、数据内容是以空格分隔列的,但是某些列的数据内容中也存在空格,如果单纯用空格分隔数据列,会漏掉一部分数据,例如下面“股东代码部分是空格”
发生日期 股东代码 摘 要 成交数 成交均价 手续费 印花税等 变动金额 资金余额
20070912 证券买入中兴通讯 500.00 52.220 52.22 78.33 -26240.55 73759.45希望各位高手指教,如何才能,将类似数据解析,并识别出,标题和内容!!!!!
文本相似性判断可以使用PLSI(Probabilistic Latent Semantic Indexing)方法
string[] arr=File.ReadAllLine("");
再使用split分割数据