维基中文百科获取
维基中文语料获取
下载中文的Wiki Dump
wget http://download.wikipedia.com/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2
下载之后解压
tar -zxvf zhwiki-latest-pages-articles.xml.bz2
使用Wikipedia Extractor 抽取内容
安装
git clone https://github.com/attardi/wikiextractor.git wikiextractor
cd wikiextractor
python setup.py install
运行抽取
python WikiExtractor.py -b 1024M -o extracted zhwiki-latest-pages-articles.xml.bz2
过滤掉括号等不相关内容
保存为strip文件
import re
import sys
import codecs
def filte(input_file):
p1 = re.compile('()')
p2 = re.compile('《》')
p3 = re.compile('「')
p4 = re.compile('」')
p5 = re.compile('<doc (.*)>')
p6 = re.compile('</doc>')
outfile = codecs.open('std_' + input_file, 'w', 'utf-8')
with codecs.open(input_file, 'r', 'utf-8') as myfile:
for line in myfile:
line = p1.sub('', line)
line = p2.sub('', line)
line = p3.sub('', line)
line = p4.sub('', line)
line = p5.sub('', line)
line = p6.sub('', line)
outfile.write(line)
outfile.close()
if __name__ == '__main__':
input_file = sys.argv[1]
filte(input_file)
对AA文件夹下三个文件分别运行
python strip.py wiki_00\wiki_01\wiki_02
此时得到三个 std_wiki文件
繁转简
安装opencc
下载地址为 https://link.jianshu.com/?t=https://bintray.com/package/files/byvoid/opencc/OpenCC
解压
tar -xzvf opencc-1.0.4.tar.gz
编译
安装cmake doxygen
sudo apt-get install doxygen
cd opencc-1.0.4/
make
sudo mask install
测试安装完成
opencc --h
转换
对之前三个std开头文件分别执行
opencc -i std_wiki_00 -o zh_wiki_00 -c t2s.json