五月天婷亚洲天久久综合网,婷婷丁香五月激情亚洲综合,久久男人精品女人,麻豆91在线播放

<center id="8gusu"></center><rt id="8gusu"></rt><menu id="8gusu"><small id="8gusu"></small></menu>

<dd id="8gusu"><s id="8gusu"></s></dd>

<menuitem id="f771v"><thead id="f771v"></thead></menuitem>

<samp id="f771v"><thead id="f771v"></thead></samp>

<menuitem id="f771v"></menuitem>

<sup id="f771v"></sup>

簽到
- 蘋果/安卓/wp
- 蘋果/安卓/wp
客戶端
0.0

0.00

人大經(jīng)濟(jì)論壇 › 論壇 › 數(shù)據(jù)科學(xué)與人工智能 › 數(shù)據(jù)分析與數(shù)據(jù)科學(xué) › SAS專版 › 完整程序教你怎樣利用SAS抓取網(wǎng)頁內(nèi)容

CDA數(shù)據(jù)分析研究院

商業(yè)數(shù)據(jù)分析與大數(shù)據(jù)領(lǐng)航教育品牌



經(jīng)管云課堂

經(jīng)管/金融/財(cái)會(huì)/社科/名師公開課



學(xué)術(shù)培訓(xùn)

Stata 空間計(jì)量 SSCI Python

貴賓：通行論壇特權(quán)+數(shù)據(jù)庫權(quán)限
+案例庫+下載特權(quán) VIP：論壇特權(quán)+更多下載次數(shù)
+ccerdata數(shù)據(jù)庫+更高閱讀權(quán)限+……

12 3 4 5 6 7 8 9 10 ... 47 下一頁

提升主題| 本版置頂| 關(guān)閉主題| 變更主題顏色| 搶沙發(fā)| 頂貼| 顯身卡| 道具中心

樓主: chenjieren

44058 468

[原創(chuàng)博文] 完整程序教你怎樣利用SAS抓取網(wǎng)頁內(nèi)容 [推廣有獎(jiǎng)]

0關(guān)注
12粉絲

副教授

22%

還不是VIP/貴賓

-

0%

威望: 0 級(jí)
論壇幣: 241 個(gè)
通用積分: 1.1761
學(xué)術(shù)水平: 13 點(diǎn)
熱心指數(shù): 20 點(diǎn)
信用等級(jí): 7 點(diǎn)
經(jīng)驗(yàn): 1330 點(diǎn)
帖子: 62
精華: 0
在線時(shí)間: 1350 小時(shí)
注冊時(shí)間: 2007-7-21
最后登錄: 2013-8-14

樓主

chenjieren 發(fā)表于 2011-10-30 09:45:03 |只看作者 |壇友微信交流群|倒序 |AI寫論文

是否 +2 論壇幣

k人參與回答

經(jīng)管之家送您一份

應(yīng)屆畢業(yè)生專屬福利!

求職就業(yè)群

趙安豆老師微信：zhaoandou666

經(jīng)管之家聯(lián)合CDA

送您一個(gè)全額獎(jiǎng)學(xué)金名額~ !

立即領(lǐng)取

感謝您參與論壇問題回答

經(jīng)管之家送您兩個(gè)論壇幣！

+2 論壇幣

背景：
搜索引擎對(duì)網(wǎng)站的收錄，會(huì)影響到網(wǎng)站SEO，而目前沒找到什么好的工具來統(tǒng)計(jì)被收錄的情況，也不會(huì)其他程序來寫爬出，將就著用sas來寫（實(shí)在大材小用了）。

提取的主要字段：
-URL---頁面Title---收錄更新時(shí)間---排列順序---URL分類-

下面是代碼（后面一部分可直接忽略）：

*========================================================================
百度收錄情況統(tǒng)計(jì)：
1.根據(jù)百度搜索結(jié)果源代碼，提取其中搜索結(jié)果；
2.再統(tǒng)計(jì)相關(guān)頁面的收錄情況，及新增和刪除頁面情況；
3.再以文本文件形式發(fā)郵件。

-創(chuàng)建時(shí)間---創(chuàng)建人--------------
2011-08-25  ****

-更新時(shí)間---更新人---說明-----
2011-09-14  **** 頁面類型處理上使用正則表達(dá)式函數(shù)處理
2011-09-28  **** 解決頭一天未提取收錄，比較新增和丟棄的頁面比較日期至最近一次提取的數(shù)據(jù)

-說明---
本程序用于提取百度對(duì)網(wǎng)站的收錄情況統(tǒng)計(jì)，為SEO提供參考，如果網(wǎng)站主要頁面（如產(chǎn)品頁）未被收錄，
需要尋找原因（例如頁面相似度太高）以改進(jìn)。

========================================================================;

options mprint mlogic symbolgen;
%let basicn=100;

%macro _shoulu(website=,dslib=,dsout=);
%*--------------------------------
宏變量：website 格式y(tǒng)oursite.com，百度查詢參數(shù)為"site:yoursite.com"
   dsout 格式&dslib..yoursite_yymmdd，yymmdd為每次抓取百度搜索結(jié)果的日期
說明： pn，rn為百度查詢參數(shù)，與SAS宏變量無關(guān)
*--------------------------------;
filename baidu url "http://www.mysas.net";

%*抓取收錄的總數(shù)量，用于控制讀取的頁面數(shù);
data _null_;
infile baidu length=len lrecl=5000;
input _t1 $varying5000. len;
if substr(_t1,1,13)='<p id="page">';
total=compress(scan(scan(_t1,-3,">"),-2,"<"),"找到相關(guān)結(jié)果個(gè)約,");
call symput("total",total);
run;
%put total number searched=&total;
%let n=%eval(&total/&basicn+1);
%put n=&n;

%*利用循環(huán)讀取百度查詢結(jié)果的下一頁;
%do i=1 %to &n;
%if &i=1 %then %let pnum=0;
%else %let pnum=%eval(%eval(&i-1)*&basicn);
%put pn=&pnum;
%*每次查詢結(jié)果設(shè)為100（參數(shù)rn=100）;
filename baidu url "http://www.mysas.net";
......

剩余源程序如下：

本帖隱藏的內(nèi)容

http://www.mysas.net/sns/index.php?app=blog&mod=Index&act=show&id=1875&mid=43

二維碼

掃碼加我拉你入群

請(qǐng)注明：姓名-公司-職位

以便審核進(jìn)群資格，未注明則拒絕

分享4 收藏55 回帖

關(guān)鍵詞：filename compress website varying options 網(wǎng)頁

相關(guān)帖子

已有 1 人評(píng)分	論壇幣	學(xué)術(shù)水平	熱心指數(shù)	信用等級(jí)	收起理由
Tigflanker	+ 5	+ 4	+ 3	+ 2	觀點(diǎn)有啟發(fā)

總評(píng)分: 論壇幣 + 5 學(xué)術(shù)水平 + 4 熱心指數(shù) + 3 信用等級(jí) + 2 查看全部評(píng)分

本帖被以下文庫推薦

· SAS精彩問答|主題: 2530, 訂閱: 30
· SAS專版|主題: 39, 訂閱: 7
· sas of boe|主題: 257, 訂閱: 16
· SAS相關(guān)|主題: 144, 訂閱: 57

回復(fù)

使用道具舉報(bào)

沙發(fā)

雨也哭了 發(fā)表于 2011-10-30 09:47:34 |只看作者 |壇友微信交流群

好帖子！頂一個(gè)先！

回復(fù)

使用道具舉報(bào)

匿名網(wǎng)友

藤椅

匿名網(wǎng)友 發(fā)表于 2011-10-30 13:36:57 |壇友微信交流群

回復(fù)

使用道具舉報(bào)

板凳

cricke 發(fā)表于 2011-10-30 16:25:17 |只看作者 |壇友微信交流群

看看

回復(fù)

使用道具舉報(bào)

報(bào)紙

numman 發(fā)表于 2011-10-30 17:36:16 |只看作者 |壇友微信交流群

樓主敢換個(gè)名字吧。還好您補(bǔ)了出處。。

回復(fù)

使用道具舉報(bào)

地板

可~樂 發(fā)表于 2011-10-30 20:47:30 |只看作者 |壇友微信交流群

學(xué)習(xí)ing

回復(fù)

使用道具舉報(bào)

7樓

Bridgenc 發(fā)表于 2011-10-30 22:06:19 |只看作者 |壇友微信交流群

take a look

回復(fù)

使用道具舉報(bào)

8樓

Bridgenc 發(fā)表于 2011-10-30 22:09:18 |只看作者 |壇友微信交流群

That is a good one

回復(fù)

使用道具舉報(bào)

9樓

denver 發(fā)表于 2011-10-30 23:11:32 |只看作者 |壇友微信交流群

最近從網(wǎng)頁上抓數(shù)據(jù)的程序逐漸多起來了哈，不錯(cuò)

Denver大家一起讀Paper系列索引貼：
http://xalimeijing.com/thread-1430892-1-1.html

回復(fù)

使用道具舉報(bào)

10樓

jiangpinggu 發(fā)表于 2011-10-30 23:15:37 |只看作者 |壇友微信交流群

謝謝

回復(fù)

使用道具舉報(bào)

12 3 4 5 6 7 8 9 10 ... 47 下一頁

本版微信群

加好友,備注cda
拉您進(jìn)交流群

文房思寶

推廣員渠道開啟
次卡算粒免費(fèi)用
代理分成可提現(xiàn)

手機(jī)版 |

如有投資本站、合作意向或投放廣告，請(qǐng)聯(lián)系：13661292478（劉老師）

聯(lián)系客服

郵箱：service@pinggu.org 投訴或不良信息處理：（010-68466864）

京ICP備16021002-2號(hào) 京B2-20170662號(hào) 京公網(wǎng)安備 11010802022788號(hào) 論壇法律顧問：王進(jìn)律師知識(shí)產(chǎn)權(quán)保護(hù)聲明免責(zé)及隱私聲明