五月天婷亚洲天久久综合网,婷婷丁香五月激情亚洲综合,久久男人精品女人,麻豆91在线播放

  • <center id="8gusu"></center><rt id="8gusu"></rt>
    <menu id="8gusu"><small id="8gusu"></small></menu>
  • <dd id="8gusu"><s id="8gusu"></s></dd>
    樓主: air320322
    12006 15

    [有償編程] 定時(shí)自動(dòng)抓取網(wǎng)頁數(shù)據(jù) [推廣有獎(jiǎng)]

    • 4關(guān)注
    • 0粉絲

    講師

    81%

    還不是VIP/貴賓

    -

    威望
    0 級(jí)
    論壇幣
    11520 個(gè)
    通用積分
    7.3500
    學(xué)術(shù)水平
    0 點(diǎn)
    熱心指數(shù)
    0 點(diǎn)
    信用等級(jí)
    0 點(diǎn)
    經(jīng)驗(yàn)
    3829 點(diǎn)
    帖子
    242
    精華
    0
    在線時(shí)間
    989 小時(shí)
    注冊(cè)時(shí)間
    2005-5-28
    最后登錄
    2024-5-27

    200論壇幣
    數(shù)據(jù)來源

    http://www.chinaclear.cn/main/03/0303/030305/1330417819770.htm


    數(shù)據(jù)會(huì)每周變動(dòng)一次,能否讓SAS在服務(wù)器自動(dòng)運(yùn)行,每周一上午9點(diǎn)自動(dòng)讀取網(wǎng)頁數(shù)據(jù)到SAS中?

    最佳答案

    leptonyu 查看完整內(nèi)容

    data _null_; length value $32766; infile "http://www.chinaclear.cn/main/03/0303/030305/1330417819770.htm" url lrecl=1024; if _n_=1 then do; value=''; reg=prxparse('/=.*?(\d{1,3}(,\d{3})*(\.\d+)?)\s*$/'); end; input ; value=prxchange('s/(]*>|&[a-z]+;|\t+|show.*;|= \d \\\* GB3)//',-1,trimn(value)||trimn(_infile_)); if not prxmatch('/]*$|\\\#\s*$/',value) then do; if compress(v ...
    關(guān)鍵詞:抓取網(wǎng)頁數(shù)據(jù) China HTTP 自動(dòng)運(yùn)行 Main 數(shù)據(jù) 服務(wù)器 網(wǎng)頁

    本帖被以下文庫推薦

    不明真相的群眾
    沙發(fā)
    leptonyu 發(fā)表于 2012-3-5 17:06:30 |只看作者 |壇友微信交流群
    data _null_;
            length value $32766;
            infile "http://www.chinaclear.cn/main/03/0303/030305/1330417819770.htm" url lrecl=1024;
            if _n_=1 then do;
                    value='';
                    reg=prxparse('/=.*?(\d{1,3}(,\d{3})*(\.\d+)?)\s*$/');
            end;
            input ;
            value=prxchange('s/(<[^>]*>|&[a-z]+;|\t+|show.*;|= \d \\\* GB3)//',-1,trimn(value)||trimn(_infile_));
            if not prxmatch('/<[^>]*$|\\\#\s*$/',value) then do;
                    if compress(value) ne '' then do;
                            if prxmatch(reg,value) then do
                                    value=prxposn(reg,1,value);
                            end;
                            put value;
                    end;
                    value='';
            end;
            retain value reg;
    run;
    抓取了里面的信息,可以保存到文件,再使用導(dǎo)入整理,抓取結(jié)果如下

    中國證券登記結(jié)算有限責(zé)任公司
    一周股票賬戶情況統(tǒng)計(jì)表(2012.02.20-2012.02.24)
    上海分公司
    深圳分公司
    合計(jì)
    一、期末有效賬戶數(shù)(萬戶)
    6,748.94
    6,841.17
    13,590.11
    二、新增股票賬戶數(shù)(戶)
    116,711
    103,716
    220,427
    其中:
    1、新增A股開戶數(shù)(戶)
    116,540
    103,561
    220,101
    2、新增B股開戶數(shù)(戶)
    171
    155
    326
    三、期末股票賬戶數(shù)(萬戶)
    8,364.85
    0.00
    8,269.22
    16,634.07
    其中:
    1、期末A股賬戶數(shù)(萬戶)
    8,212.05
    8,169.70
    16,381.75
    (1)期末持倉A股賬戶數(shù)(萬戶)
    3,196.63
    2,502.79
    5,699.42
    (2)本周參與交易的A股賬戶數(shù)(萬戶)
    616.56
    578.89
    1,195.45
    2、期末B股賬戶數(shù)(萬戶)
    152.80
    99.52
    252.32
    四、期末休眠賬戶數(shù)(萬戶)
    1,615.91
    1,428.05
    3,043.96
    注:  ①期末有效賬戶數(shù)=期末A股賬戶數(shù)+期末B股賬戶數(shù)-期末休眠賬戶數(shù);②新增股票賬戶數(shù)指當(dāng)周新開出的股
    票賬戶數(shù);③期末股票賬戶數(shù)=期末A股賬戶數(shù)+期末B股賬戶數(shù);  ④期末持倉A股賬戶指期末持有證券余額不為零
    的A股賬戶;  ⑤本周參與交易A股賬戶指本周參與證券市場二級(jí)市場集中交易的A股賬戶。  ⑥休眠賬戶指根據(jù)中
    國證監(jiān)會(huì)《關(guān)于做好證券公司客戶交易結(jié)算資金第三方存管有關(guān)賬戶規(guī)范工作的通知》以及本公司《關(guān)于進(jìn)一步
    規(guī)范賬戶管理工作的通知》的規(guī)定,經(jīng)證券公司核實(shí)、申報(bào)的休眠賬戶數(shù)。  ⑦本周5個(gè)交易日。
    已有 1 人評(píng)分學(xué)術(shù)水平 熱心指數(shù) 信用等級(jí) 收起 理由
    air320322 + 1 + 1 + 1 精彩帖子

    總評(píng)分: 學(xué)術(shù)水平 + 1  熱心指數(shù) + 1  信用等級(jí) + 1   查看全部評(píng)分

    藤椅
    shewenhao 發(fā)表于 2012-3-5 20:06:58 |只看作者 |壇友微信交流群
    money is too low, if you reward 100, I could do that, lol
    板凳
    air320322 發(fā)表于 2012-3-6 00:07:21 |只看作者 |壇友微信交流群
    相應(yīng)樓上的要求,調(diào)整到200金幣
    不明真相的群眾
    報(bào)紙
    Isscaliu 發(fā)表于 2012-3-6 03:18:38 |只看作者 |壇友微信交流群
    try proc download
    It was the best of times, it was the worst of times.
    地板
    air320322 發(fā)表于 2012-3-6 10:29:04 |只看作者 |壇友微信交流群
    樓上的能具體說說嘛
    不明真相的群眾
    7
    愛萌 發(fā)表于 2012-3-6 12:57:10 |只看作者 |壇友微信交流群
    這個(gè)其實(shí)不難,如果你用windows可能有點(diǎn)難道,但是用linux很簡單的
    最恨對(duì)我說謊或欺騙我的人
    8
    air320322 發(fā)表于 2012-3-6 15:05:26 |只看作者 |壇友微信交流群
    可是我需要用windows下的SAS實(shí)現(xiàn)啊
    不明真相的群眾
    9
    tattoo27 發(fā)表于 2012-3-6 16:32:24 |只看作者 |壇友微信交流群
    data work.links_to_crawl;
       length url $256;
       input url $;
       datalines;

    www.chinaclear.cn/main/03/0303/030305/1330417819770.htm
    ;
    run;


    %macro crawler();
       %let html_num = 1;

       data work.links_crawled;
          length url $256;
       run;

    %next_crawl:
       /* pop the next url off */
       %let next_url = ;

       data work.links_to_crawl;
          set work.links_to_crawl;
          if _n_ eq 1 then call symput("next_url", url);
          else output;
       run;

       %let next_url = %trim(%left(&next_url));

       %if "&next_url" ne "" %then %do;

          %put crawling &next_url ... ;

          /* crawl the url */
          filename _nexturl url "&next_url";

          /* put the file we crawled here */
          filename htmlfile "file%trim(&html_num).html";

          /* find more urls */
          data work._urls(keep=url);
             length url $256 ;
             file htmlfile;
             infile _nexturl length=len;
             input text $varying2000. len;

             put text;

             start = 1;
             stop = length(text);

             if _n_ = 1 then do;
                retain patternID;
                pattern = '/href="([^"]+)"/i';
                patternID = prxparse(pattern);
             end;

             /* Use PRXNEXT to find the first instance of the pattern, */
             /* then use DO WHILE to find all further instances.       */
             /* PRXNEXT changes the start parameter so that searching  */
             /* begins again after the last match.                     */
             call prxnext(patternID, start, stop, text, position, length);
             do while (position ^= 0);
                url = substr(text, position+6, length-7);
                * put url=;
                output;
                call prxnext(patternID, start, stop, text, position, length);
             end;
          run;

          /* add the current link to the list of urls we have already crawled */
          data work._old_link;
             url = "&next_url";
          run;
          proc append base=work.links_crawled data=work._old_link;
          run;

          /* only add urls that we haven't already crawled or that aren't queued up to be crawled */
          proc sql noprint;
             create table work._append as
                select url
                from work._urls
                where url not in (select url from work.links_crawled)
                      and url not in (select url from work.links_to_crawl);
          quit;

          /* only add urls that are absolute (http://...) */
          data work._append;
             set work._append;
             absolute_url = substrn(url, 1, 7);
             put absolute_url=;
             if absolute_url eq "http://" ;
             drop absolute_url;
          run;

          /* add new links */
          proc append base=work.links_to_crawl data=work._append force;
          run;

          /* increment our file number */
          %let html_num = %eval(&html_num + 1);

          /* loop */
          %goto next_crawl;
       %end;

    %mend crawler;

    %crawler();

    /*定時(shí)自動(dòng)靠你們啦~不負(fù)責(zé)任的飄過*/
    已有 2 人評(píng)分經(jīng)驗(yàn) 論壇幣 學(xué)術(shù)水平 熱心指數(shù) 信用等級(jí) 收起 理由
    Tato醬 + 1 + 1 + 1 觀點(diǎn)有啟發(fā)
    webgu + 60 + 20 + 1 + 1 + 1 觀點(diǎn)有啟發(fā)

    總評(píng)分: 經(jīng)驗(yàn) + 60  論壇幣 + 20  學(xué)術(shù)水平 + 2  熱心指數(shù) + 2  信用等級(jí) + 2   查看全部評(píng)分

    10
    air320322 發(fā)表于 2012-3-6 19:45:32 |只看作者 |壇友微信交流群
    to:tattoo27
    我運(yùn)行之后,數(shù)據(jù)都為空
    不明真相的群眾

    本版微信群
    加好友,備注cda
    拉您進(jìn)交流群

    京ICP備16021002-2號(hào) 京B2-20170662號(hào) 京公網(wǎng)安備 11010802022788號(hào) 論壇法律顧問:王進(jìn)律師 知識(shí)產(chǎn)權(quán)保護(hù)聲明   免責(zé)及隱私聲明

    GMT+8, 2024-12-23 21:36