维基中文百科获取

cooscao 5月 29, 2019

维基中文语料获取

下载中文的Wiki Dump

wget http://download.wikipedia.com/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2

下载之后解压

tar -zxvf zhwiki-latest-pages-articles.xml.bz2

使用Wikipedia Extractor 抽取内容

安装

git clone https://github.com/attardi/wikiextractor.git wikiextractor

cd wikiextractor

python setup.py install

运行抽取

python WikiExtractor.py -b 1024M -o extracted zhwiki-latest-pages-articles.xml.bz2

过滤掉括号等不相关内容

保存为strip文件

import re
import sys
import codecs
def filte(input_file):
    p1 = re.compile('（）')
    p2 = re.compile('《》')
    p3 = re.compile('「')
    p4 = re.compile('」')
    p5 = re.compile('<doc (.*)>')
    p6 = re.compile('</doc>')
    outfile = codecs.open('std_' + input_file, 'w', 'utf-8')
    with codecs.open(input_file, 'r', 'utf-8') as myfile:
        for line in myfile:
            line = p1.sub('', line)
            line = p2.sub('', line)
            line = p3.sub('', line)
            line = p4.sub('', line)
            line = p5.sub('', line)
            line = p6.sub('', line)
            outfile.write(line)
    outfile.close()
if __name__ == '__main__':
    input_file = sys.argv[1]
    filte(input_file)

对AA文件夹下三个文件分别运行

python strip.py wiki_00\wiki_01\wiki_02

此时得到三个 std_wiki文件

繁转简

安装opencc

下载地址为 https://link.jianshu.com/?t=https://bintray.com/package/files/byvoid/opencc/OpenCC

解压

tar -xzvf opencc-1.0.4.tar.gz

编译

安装cmake doxygen
sudo apt-get install doxygen

cd opencc-1.0.4/
make

sudo mask install

测试安装完成
opencc --h

转换

对之前三个std开头文件分别执行

opencc -i std_wiki_00 -o zh_wiki_00 -c t2s.json