1,系统架构师、系统分析师、高级程序员、资深开发人员。
2,牵涉到网络采集、处理和规划的负责人、设计人员。
3,政府机关,金融保险、移动等以互联网信息为数据来源单位的负责人。
4,高校、科研院所牵涉到人工智能与机器学习的项目负责人。
Python是数据分析最常用的语言之一,中文自然语言处理(简称NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。NLP是一门融语言学、机器学习、统计学、大数据以及人工智能等于一体的科学。本课程偏重实战,不仅系统介绍了NLP涉及的知识点,同时也教会大家如何实际应用与开发。
本次培训主要介绍NLP所需要了解的Python科学包、正则表达式以及检索技术的知识。包括NLP相关的各个知识点:词法分析技术、句法分析技术、常用的向量化方法,分析情感分析相关的概念、场景以及一般做情感分析的流程。介绍机器学习的一些基本概念,重点突出NLP常用的分类算法、聚类算法,同时还分享了几个案例。每个部分都有对应源数据和完整代码,供实战使用。
自然语言处理(NLP)属于人工智能与计算机语言学的交叉领域,处理的是计算机与人类语言之间的交互问题。随着人机交互需求的日益增长,计算机具备处理当前主要自然语言的能力已经成为了一个必然趋势。
本培训适合通信、金融、保险、制造、医药、教育科研、市场调研、连锁零售和电子商务等行业的数据分析人员,通过本课程的学习,将对NLP与数据科学领域中的概念有一个充分的了解,并能将这些知识应用到日常工作中。
学员基础
1,对IT系统设计有一定的理论与实践经验。
2,有一定的机器学习基础知识和开发经验。
3,有一定的机器学习与大数据处理的知识。
培训内容
第1讲自然语言处理系统
1什么是NLP
2NLP的发展历程
3NLP相关知识的构成
4语料库
5探讨NLP的几个层面
6NLP与人工智能
第2讲Python和NLP技术解析
1NLP前置技术解析
2搭建Python开发环境
3正则表达式在NLP的基本应用
4Numpy使用详解
第3讲中文分词技术
1中文分词简介
2规则分词
3统计分词
4混合分词
5中文分词工具
第4讲词性标注与命名实体识别
1词性标注
2词性标注实操
3命名实体识别
4命名实体识别实操
第5讲关键词提取方法
1关键词提取技术概述
2关键词提取算法TF/DF算法
3TextRank算法
4LSA/LSI/LDA算法
5实战提取文本关键词
第6讲句法分析技术
1句法分析概述
2句法分析的数据集与评测方法
3句法分析的常用方法
4使用StanfordParser进行句法分析
第7讲文本向量化
1文本向量化概述
2向量化算法word2vec
3向量化算法doc2vec/str2vec
4将网页文本向量化应用实例
第8讲情感分析
1情感分析技术
2情感分析的应用
3情感分析的基本方法
4情感分析实战-电影评论分析
第9讲NLP机器学习算法
1机器学习简介
2常用的机器学习方法
3分类器方法
4无监督学习的文本聚类
5中文垃圾邮件分类实战
6豆瓣读书数据聚类实战
第10讲基于深度学习的NLP
1深度学习和神经网络概述
2词嵌入算法
3训练词向量实践
4LSTM网络和Seq2seq模型
5seq2Seq问答机器人
五、培训目标
1,全面了解基于自然语言处理NLP和Python构建机器学习的相关知识。
2,学习NLP和Python构建机器学习的核心技术方法以及应用。
3,了解和使用NLP和Python构建机器学习应用系统。
六、证书
培训结束,颁发中科院计算所职业培训中心“Python自然语言处理与机器学习实战”结业证书。
师资
由业界知名大数据专家亲自授课:
杨老师 主要研究网络信息分析、机器学习以及大数据相关技术,长期从事网络信息处理、机器学习以及大数据分析系统的研究开发工作,主持和参与了多个国家和省部级基金项目,具有丰富的工程实践及软件研发经验。