linux shell下载维基百科特色条目并统计单词词频_Linux系统教程

思路：首先使用wget下载足够的网页，然后awk配合正则表达式提取网页中的单词，最后使用awk进行词频统计并输出。

1、下载网站内容

首先使用wget递归下载wikipedia网站内容，为了提高采样质量，主要采集维基百科的特色(freatured)条目：

wget -r -e robots=off --wait=0.3 --level=1 -np--output-document=webpage.txt --quota=20Mhttps://en.wikipedia.org/wiki/Wikipedia:Featured_articles

参数解释：

-r 递归下载网站，

-e robots=off 使用了-r参数后，wget会以爬虫的形式下载网站，并且接受网站robots.txt的限制，不巧的是，维基百科限制了wget的爬虫访问，为此，需要让wget忽略这一限制，使用这一参数

--wait=0.3 为了防止访问频率过高被封禁IP，设置wget两次访问网站之间间隔0.3s

--level=1 递归深度为1。所输入的网页为维基百科所有特色条目的索引，所以只需要递归一层

-np 不递归父目录（noparent）

--output-document=filename 为了方便之后的处理，设置wget将网页源代码连接起来并存储到一个文件中

--quota=20M 设置最多下载20M网页内容（实际上一般会超过这一值，详细请见wget帮助），减少wget运行时间

https://en.wikipedia.org/wiki/Wikipedia:Featured_articles这是网页链接，为维基百科特色条目的索引。

2、提取网页文字

在分析词频的时候，必须排除网页中非文字内容的干扰，具体来说，主要是html标签和JavaScript脚本。原本这是很方便的，只要在删除JavaScript脚本后删去所有最邻近的<>之间的内容即可，但遗憾的是，shell（此处指awk, grep, egrep）中只能使用贪婪匹配，这会导致删去的内容过多（如hahaha bbbb，我们希望删去所有的和，留下hahaha和bbbb，但是Linux会直接将整行文字匹配并删除），为此，我采用的技巧如下：

首先将>替换为换行，这样就可以确保以 `<` 开头的行只有原来 `<>` 之间的内容。然后，再将所有以`<`开头的行删掉即可，代码如下：

echo example | awk'{gsub(/>/,"\n");print;}'| awk'{gsub(/<.*/,"");print}'

但是，这样不能有效删除script标签之间的内容，因为两个script标签中的代码往往存在换行，换行干扰了上述操作。所以，还需要首先去除所有的换行，将网页连成一行，最终的代码如下：

echo example |awk 'BEGIN{p="";space=" "}{p=p""space""$0} END{print(p);}' | awk'{gsub(/<\/script>/,"\n");print}' | awk'{gsub(/<script>.*/,"");print}'| awk'{gsub(/>/,"\n");print;}'| awk'{gsub(/<.*/,"");print}'

这样即可将文件中大部分的html代码去除。

最后，文件中还有不少的换行，空格，和制表符，对这些符号，同样使用gsub进行替换，如下：

awk 'BEGIN{p="";space=" "}{p=p""space""$0} END{print(p);}'|awk '{gsub(/[\t]{1,}/," ");print}'

为了方便处理，再将输出改为一个单词一行：

egrep -o "\b[[:alpha:]]+\b"

2.1、注：如何将文件连接成一行：

我的方法是使用awk将所有的行存储到一个变量中：

awk 'BEGIN{p="";space=" "}{p=p""space""$0} END{print(p);}'

其中关键的是字符串连接的方法，awk中，假设有两个字符串：

Str1="aaaaa";

Str2="bbbb";

Str3=Str1""Str2;

使用""即可连接两个字符串

3、统计各个单词的词频

统计词频对于awk的关联数组是非常简单的工作，当文字整理成一个单词一行后，只需要：

awk '{ count[$0]++ } '

即可将各个单词的个数统计于count数组中，使用：

即可将数组按照下标排列好后输出：

awk '{ count[$0]++ } END{slen=asorti(count,newcount);printf("%-14s%s\n","Word","Count") ; for(i=1;i<=slen;i++) {printf("%-14s%d\n",newcount[i],count[newcount[i]]); } }'

3.1、注：awk中的排序函数

awk中有两个排序函数：asort和asorti，使用方法为

arrayLength = assort/asorti(sourceArray, destinationArray)

使用asort可以对数值进行排序，数组的索引（下标）会被丢弃。

使用asorti可以对下标进行排序，但是数组的索引会被丢弃。

排序完成后会返回数组长度arrayLength

4、完整代码

最后奉上完整代码如下：

#Author Archimekai

#Date 20161102

# !bin/bash

filename="webpage.txt";

wget -r -erobots=off --wait=0.3 --level=1 -np --output-document=$filename --quota=20M https://en.wikipedia.org/wiki/Wikipedia:Featured_articles

awk'BEGIN{p="";space=" "} {p=p""space""$0}END{print(p);}' $filename | awk '{gsub(/<\/script>/,"\n");print}'| awk '{gsub(/<script>.*/,"");print}'| awk'{gsub(/>/,"\n");print;}'| awk'{gsub(/<.*/,"");print}'|awk 'BEGIN{p="";space=""} {p=p""space""$0} END{print(p);}'|awk '{gsub(/[\t]{1,}/," ");print}'|egrep -o "\b[[:alpha:]]+\b"|awk '{count[$0]++ } END{slen=asorti(count,newcount);printf("%-14s%s\n","Word","Count") ; for(i=1;i<=slen;i++) {printf("%-14s%d\n",newcount[i],count[newcount[i]]); } }'>wordfreq.txt

cat wordfreq.txt

部分输出：

Word Count

A 1288

AA 2

AAA 1

AB 2

ABC 6

ABCD 1

ABN 2

AC 3

ACC 10

ACM 1

ACR 3

ACS 11

ACT 1

ACTION 3

AD 45

ADMIN 1

ADORAVI 2

ADW 4

AE 1

AEC 3

AETERNAE 1

AFAIK 1

AFD 2

本文永久更新地址：http://www.linuxdiyf.com/linux/25649.html

linux shell下载维基百科特色条目并统计单词词频

频道文章

网站推荐文章

推荐教程

热点推荐