非结构化文本分析软件比较研究

时间：2022-05-15 08:35:06 浏览次数：

��zoޛ�)j馒�
�^�j+v�Z��m��8�t�_z��lʦ��M��6�^t�o�춶��8^j�brW�y��y�az�춻��vױ��ڗ+ 主题分析以及趋势分析等领域。例如，李凡[7]等人曾于2001年对文本特征的抽取进行研究，提出了一种新的文本特征抽取方法；万小军[8]等人于2003年撰文试图对文档聚类方法k-means算法加以改进；而黄晓斌教授[9]等学者则试图对互联网文本内容进行分析挖掘以达到对舆情信息的分析与预测。与此同时，由于对非结构化文本分析的需求日益加大，许多支持非结构化文本分析、功能日益完善的软件也相继出现，数量多达数十个。因此，美国哈佛大学学者Lowe W[10]于2002年撰文对前述非结构化文本分析软件进行了详细的分类与介绍，以期为用户选用非结构化文本分析软件提供借鉴与帮助。然而，尽管有越来越多的学者将目光聚焦于非结构化文本分析这一问题，也产生了丰硕的研究成果，但是应该明确的是，现有研究大都从实现技术层面着手试图对非结构化文本分析技术加以改进，而从用户角度出发，将关注点集中在应用层面的文章却少之又少。鉴于此，本文试图以两款较为常用的非结构化文本分析软件——KH Coder和Wordstat为例，从内外特征共11个方面对其数据格式、工作流程、主要功能等进行比较分析，以期为用户选用并研究非结构化文本分析软件提供参考。

推荐访问:结构化文本分析研究软件