济南网站建设,网站运营维护,网站优化
基础知识您当前的位置:智达维网络科技 > 建站知识 > 基础知识 >

济南网站建设中分词方法技巧

更新时间:2018-04-29 11:47:37 作者:千寻建站 访问量:54

济南网站建设中分词方法技巧
济南网站建设中分词方法技巧
1 特征选取
    TF-IDF 是常见的特征提取方法,其特点是简单快速,结果也比较符合实际情况。本文利用Python 中文分词包jieba 分词(使用简便、分词速度快)中TF -IDF 算法获取每条招聘文本的关键词。最后,通过编写python 脚本程序统计词频,将出现频次在1000 以上的关键词选出。
2 语义近似词
    TF-IDF 单纯以词频来衡量一个词的重要性不够全面,有时候重要的词可能出现的次数并不多。基于此,笔者使用Google 在2013 年发布的Word2Vec 开源工具对特征选取出的词语找出其语义近似词。首先将34000 条网络文本利用jieba 分词工具分词,将txt 文本放入word2vec 目录下,修改demo-word. sh 文件,设置词向量长度为200,采用skip-gram 模型(模型架构的准确率明显高于CBOW 模型)进行模型训练,模型训练完成后在当前目录下得到vectors. bin 词向量文件,再利用Python 的gesium 模块调用vectors 词向量文件,可以获取到与使用TF-IDF 算法筛选出的txt 文本中关键词语义相似的若干词语,并去重、人工筛选过滤掉明显无实义词。
3 其他数据源的补充
    其他数据源关键词主要由以下四个部分组成:
    第一类是专业名称类术语。如某数据分析师职位要求:“本科及以上学历,数学、统计学、经济学、金融学、会计学等相关专业冶。笔者将《2016 年普通高等学校本科专业目录》以及中国学位与研究生教育信息网发布的《授予博士、硕士学位和培养研究生的学科、专业目录》添加到词典中,同时考虑了一些专业简称、俗称等信息,如“计算机专业冶、“统计相关专业冶等。
    第二类是知识类术语。这类词通常是该领域相关知识的专业术语。为了规范招聘类信息中的知识类术语,本文以在中国知网以“数据分析冶、“信息管理冶和“数据挖掘冶为检索条件进行题名检索,期刊来源类别限定为CSSCI,导出检索结果的题录信息,对其关键词进行频次统计,筛选出频次大于100 的关键词。
    第三类是技能类术语。国内一些IT 培训机构在其官网经常会发布一些技能类培训的课程信息。本文将培训机构网站(如北风网、传智播客、北大青鸟、CP鄄DA)及IT 技能免费学习网站(如慕课网、MOOC 中国)上所授课程的重点知识点进行采集,然后以人工方式选择一些技能类术语添加到招聘词典中。
    第四类是职业能力术语。选取智联招聘旗下网站智联卓聘为数据源。因为该网站每个职位描述中包含大量对求职者能力要求的关键词(网页中用蓝色标出)。如某运营部总监的职位描述中包含“项目拓展冶、“营销策划冶、“项目管理冶、“运营管理冶、“策划推广冶等关键词。笔者采集智联卓聘全站招聘广告中包含的关键词(约200 万个),并选取频次1 000 以上的有实义词语。

    文章说明:本站发布的所有文章,版权均属于智达维网络科技。如需转载、摘编或利用其它方式使用上述作品,请注明“转载自:智达维网络科技”或“转载自:智达维网络科技/网站建设相关文章”,谢谢您的浏览!

相关推荐
热线:0531-87583458 电话:0531-66812586 QQ:2676834962
Copyright 智达维网络科技 版权所有
ICP备案编号:鲁ICP备11034527号-1 鲁公网安备 37010402000703号

扫二维码加微信咨询

拨打客服热线

0531-87583458

在线客服