自然语言处理背后的数据科学

发布时间:[2019-04-30] 来源:网络大数据

点击量:

中国企业数据治理联盟（www.chinaedg.com/）

进入》主数据管理 企业数据治理 信息资源规划 数据安全管理

人类交流是能感知到的最迷人的特性之一。作为人类的一员，我知道人类之间如何互动是极其复杂的。我们经常发送和接收错误的信息，或者我们的信息会被他人误解。每天我们都理所当然地认为自己有能力向同事和家人传达意义。我们用各种各样的方式交流，包括交谈和书写符号。人与人之间的交流可以像隔着房间看一眼那么简单。斯坦福大学机器学习教授克里斯•曼宁将沟通描述为“一个离散的、符号的、分类的信号系统”。这是什么意思呢?我认为是我们的感官，如视觉、触觉、听觉，甚至是嗅觉，使我们能够交流。这让我想到了这篇博客的主题:当我们把计算纳入考虑范围时会发生什么?什么是自然语言处理?它是如何工作的?

自然语言处理 (NLP) 是计算机科学和人工智能领域的一门学科。NLP 是人与机器之间的沟通, 它既能解释我们的意思, 也能构建有效的反应。这个领域已经从上世纪50年代就存在了, 你可能听说过的艾伦图灵开发的"图灵测试" 。图灵测试衡量计算机对人类书面问题的反馈。如果一个独立的人不能分辨一个人和一台机器的区别, 那么计算系统就会被评为智能。从上世纪50年代以来, 我们取得了长足的进步, 数据科学和语言学领域也取得了很大进展。本文的其余部分详细介绍了这些算法在自然语言处理领域的一些基本功能，同时将包含一些使用 Python 的代码示例。

标记化

为了开始自然语言处理, 我们将从一些非常简单的文本解析开始。标记化是提取文本流的一个过程, 如一个句子, 并将其分解为其最基本的单词。例如, 取以下句子:“he red fox jumps over the moon .”每个单词都代表一个标记, 其中共有七个。

使用Python标记句子：

myText = ‘The red fox jumps over the moon.’
myLowerText = myText.lower()
myTextList = myLowerText.split()
print(myTextList)
OUTPUT:
[‘the’, ‘red’, ‘fox’, ‘jumps’, ‘over’, ‘the’, ‘moon’]

词性归类

词性归类用于确定句法功能。在英语中, 词性的主要部分是: 形容词、代词、名词、动词、副词、前置词、连词和感叹词。这是用来推断基于它的单词的意图。例如, PERMIT 一词可以是一个名词和一个动词。动词用法：“I permit you to go to the dance.” 名词用法：“Did you get the permit from the county.”

使用Python分析部分语音：(使用 NLTK 库)

您可能需要安装 NLTK, 它是用于自然语言处理的 Python 库。关于 NLTK 的说明: https://www.geeksforgeeks.org/part-speech-tagging-stop-words-using-nltk-python/

import nltk
myText = nltk.word_tokenize(‘the red fox jumps over the moon.’)
print(‘Parts of Speech: ‘, nltk.pos_tag(myText))
OUTPUT:
Parts of Speech: [(‘the’, ‘DT’), (‘red’, ‘JJ’), (‘fox’, ‘NN’), (‘jumps’, ‘NNS’), (‘over’, ‘IN’), (‘the’, ‘DT’), (‘moon’, ‘NN’), (‘.’, ‘.’)]

因此, 您可以看到 NLTK 如何将句子分解为各个标记并解释语音的某些部分, 例如 ("fox"、"NN"):

NN 名词, 单数 "fox"

停止词删除

许多句子和段落中包含的单词几乎没有意义或价值。这些词包括 "a"、"and"、"an"和"the"。移除停止词是一个从句子或单词流中删除这些单词的过程。

使用 Python 和 NLTK 进行停止词删除: (点击原文阅读有关 NLTK 的说明)

from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

example_sent = “a red fox is an animal that is able to jump over the moon.” stop_words = set(stopwords.words(‘english’)) word_tokens = word_tokenize(example_sent) filtered_sentence = [w for w in word_tokens if not w in stop_words] filtered_sentence = [] for w in word_tokens: if w not in stop_words: filtered_sentence.append(w) print(filtered_sentence)

OUTPUT:
[‘red’, ‘fox’, ‘animal’, ‘able’, ‘jump’, ‘moon’, ‘.’]

词干提取

词干提取是减少单词噪声的过程，也称为词典归一化。它减少了词形变化。例如, "钓鱼" 一词有一个词干 "鱼"。词干提取是用来把一个词简化为它的基本含义。另一个很好的例子是 "喜欢" 这个词, 它是许多词的词干, 比如: "likes"、"liked"、"likely"。搜索引擎使用词干分析就是这个原因。在许多情况下, 搜索其中一个词返回在集合中包含另一个单词的文档可能会很有用。

要使用 Python 和 NLTK 库执行词干提取, 请执行以下操作:

from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize

ps = PorterStemmer()

for w in words:
print(w, ” : “, ps.stem(w))

OUTPUT:
(‘likes’, ‘ : ‘, u’like’)
(‘likely’, ‘ : ‘, u’like’)
(‘likes’, ‘ : ‘, u’like’)
(‘liking’, ‘ : ‘, u’like’)

words = [“likes”, “likely”, “likes”, “liking”]

词形还原

词干提取和词形还原是非常相似的, 因为它们能让你找到词根。这称为单词规范化, 两者都可以生成相同的输出结果。然而, 它们的工作方式却大不相同。词干提取试图将单词切分而词形还原给你提供观察单词是名词、动词还是其他词性。让我们以单词 "saw"为例。词干提取会返回 "saw", 词形还原可以返回"see" 或 "saw"。词形还原通常会返回一个可读的词, 而词干提取可能不会。有关差异的示例, 请参见下文。雷锋网雷锋网雷锋网(公众号：雷锋网)

让我们看一个 Python 示例, 它将词干提取与词形还原进行了比较:

from nltk.stem import PorterStemmer
# from nltk.tokenize import word_tokenizefrom nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()

ps = PorterStemmer()

words = [“corpora”, “constructing”, “better”, “done”, “worst”, “pony”]

for w in words:
print(w, ” STEMMING : “, ps.stem(w), ” LEMMATIZATION “, lemmatizer.lemmatize(w, pos=‘v’))

OUTPUT:
corpora STEMMING : corpora LEMMATIZATION corpora
constructing STEMMING : construct LEMMATIZATION constructing
better STEMMING : better LEMMATIZATION good
done STEMMING : done LEMMATIZATION done
worst STEMMING : worst LEMMATIZATION bad
pony STEMMING : poni LEMMATIZATION pony

总结

语言学是对语言、形态学、句法、语音和语义学的研究。包括数据科学和计算在内的这一领域在过去60年里已经进行了爆炸式的发展。我们刚刚在 NLP 中探索了一些非常简单的文本分析功能。Google、Bing 和其他搜索引擎利用这项技术帮助您在万维网上查找信息。想想看, 让 Alexa 播放你最喜欢的歌曲或者 Siri 是如何帮助你指路。这都是因为 NLP。计算中的自然语言不是噱头或玩具。NLP是我们生活中无缝计算的未来。

Arcadia Data刚刚发布了5.0 版, 其中包括我们称之为 Search Based BI的自然语言查询功能。它使用了之前描述的一些数据科学和文本分析。查看我们关于Search Based BI工具的视频可了解更多信息: SEARCH-BASED BI

原标题：The Data Science Behind Natural Language Processing

作者： John Thuma 翻译：luyao777

原文链接：https://medium.com/dataseries/the-data-science-behind-natural-language-processing-69d6df06a1ff

编辑：hely 来源：网络大数据

分享到： QQ空间新浪微博微信 QQ好友更多