婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av

主頁 > 知識庫 > Python中jieba庫的使用方法

Python中jieba庫的使用方法

熱門標簽:北京電信外呼系統靠譜嗎 梅州外呼業務系統 老人電話機器人 無錫客服外呼系統一般多少錢 高德地圖標注是免費的嗎 大連crm外呼系統 地圖標注視頻廣告 洪澤縣地圖標注 百度地圖標注位置怎么修改

jieba庫是一款優秀的 Python 第三方中文分詞庫,jieba 支持三種分詞模式:精確模式、全模式和搜索引擎模式,下面是三種模式的特點。

精確模式:試圖將語句最精確的切分,不存在冗余數據,適合做文本分析

全模式:將語句中所有可能是詞的詞語都切分出來,速度很快,但是存在冗余數據

搜索引擎模式:在精確模式的基礎上,對長詞再次進行切分

一、jieba庫的安裝

因為 jieba 是一個第三方庫,所有需要我們在本地進行安裝。

Windows 下使用命令安裝:在聯網狀態下,在命令行下輸入 pip install jieba 進行安裝,安裝完成后會提示安裝成功

 

在 pyCharm 中安裝:打開 settings,搜索 Project Interpreter,在右邊的窗口選擇 + 號,點擊后在搜索框搜索 jieba,點擊安裝即可

二、jieba三種模式的使用

# -*- coding: utf-8 -*-
import jieba

seg_str = "好好學習,天天向上。"

print("/".join(jieba.lcut(seg_str)))    # 精簡模式,返回一個列表類型的結果
print("/".join(jieba.lcut(seg_str, cut_all=True)))      # 全模式,使用 'cut_all=True' 指定 
print("/".join(jieba.lcut_for_search(seg_str)))     # 搜索引擎模式

分詞效果:

三、jieba 分詞簡單應用

需求:使用 jieba 分詞對一個文本進行分詞,統計次數出現最多的詞語,這里以三國演義為例

# -*- coding: utf-8 -*-
import jieba

txt = open("三國演義.txt", "r", encoding='utf-8').read()
words = jieba.lcut(txt)     # 使用精確模式對文本進行分詞
counts = {}     # 通過鍵值對的形式存儲詞語及其出現的次數

for word in words:
    if len(word) == 1:    # 單個詞語不計算在內
        continue
    else:
        counts[word] = counts.get(word, 0) + 1    # 遍歷所有詞語,每出現一次其對應的值加 1

items = list(counts.items())
items.sort(key=lambda x: x[1], reverse=True)    # 根據詞語出現的次數進行從大到小排序

for i in range(3):
    word, count = items[i]
    print("{0:5}{1:>5}".format(word, count))

統計結果:

 

你可以隨便找一個文本文檔,也可以到 https://github.com/coderjas/python-quick 下載上面例子中的文檔。

四、擴展:英文單詞統計

上面的例子統計實現了中文文檔中出現最多的詞語,接著我們就來統計一下一個英文文檔中出現次數最多的單詞。原理同上

# -*- coding: utf-8 -*-

def get_text():
    txt = open("1.txt", "r", encoding='UTF-8').read()
    txt = txt.lower()
    for ch in '!"#$%()*+,-./:;=>?@[\\]^_‘{|}~':
        txt = txt.replace(ch, " ")      # 將文本中特殊字符替換為空格
    return txt

file_txt = get_text()
words = file_txt.split()    # 對字符串進行分割,獲得單詞列表
counts = {}

for word in words:
    if len(word) == 1:
        continue
    else:
        counts[word] = counts.get(word, 0) + 1 

items = list(counts.items())    
items.sort(key=lambda x: x[1], reverse=True)      

for i in range(5):
    word, count = items[i]
    print("{0:5}->{1:>5}".format(word, count))

統計結果:

到此這篇關于Python中jieba庫的使用方法的文章就介紹到這了,更多相關Python jieba庫內容請搜索腳本之家以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持腳本之家!

您可能感興趣的文章:
  • 超級好用的4個Python命令行可視化庫
  • Python中glob庫實現文件名的匹配
  • 學會Python數據可視化必須嘗試這7個庫
  • 淺談Python響應式類庫RxPy
  • Python下opencv庫的安裝過程及問題匯總
  • 教你用Python matplotlib庫制作簡單的動畫
  • 總結幾個非常實用的Python庫

標簽:長春 洛陽 岳陽 清遠 安慶 怒江 吉林 泉州

巨人網絡通訊聲明:本文標題《Python中jieba庫的使用方法》,本文關鍵詞  Python,中,jieba,庫,的,使用方法,;如發現本文內容存在版權問題,煩請提供相關信息告之我們,我們將及時溝通與處理。本站內容系統采集于網絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《Python中jieba庫的使用方法》相關的同類信息!
  • 本頁收集關于Python中jieba庫的使用方法的相關信息資訊供網民參考!
  • 推薦文章
    主站蜘蛛池模板: 宁海县| 乌拉特前旗| 大洼县| 江孜县| 贡嘎县| 堆龙德庆县| 慈利县| 阿图什市| 丹凤县| 西贡区| 潍坊市| 额尔古纳市| 平和县| 东乡县| 汉川市| 武陟县| 长海县| 松潘县| 天水市| 垣曲县| 石台县| 和硕县| 介休市| 颍上县| 朝阳区| 浪卡子县| 西吉县| 休宁县| 木兰县| 西昌市| 兖州市| 郓城县| 东乌珠穆沁旗| 渑池县| 西盟| 壶关县| 乌兰浩特市| 惠东县| 青龙| 安塞县| 称多县|