作者jasonhsu14 (14号星期五的杰森)
看板Python
标题[问题] pip install pdfplumber遇到encoding问题
时间Wed Nov 18 15:17:16 2020
因工作需求
需要用读取pdf上的表格
虽然试用过tabula,但其显现的效果不太好
所以想尝试换用pdfplumber
但在pip install pdfplumber的过程中遇到ERROR
看起来是UniDecodeError的问题
'cp950' codec can't decode byte 0xe2 in position 4981: illegal multibyte
sequence
不知道如何pip 的时候解决这个问题.....
另外我的PYTHON是3.8
虽然上网GOOGLE过相关办法
sys.setdefaultencoding("utf-8")
但上述办法似乎在好几个版本前就被拿掉
所以还想请问版上大大有成功安装过pdfplumber的经验分享
或我该如何解决这个问题
或是面临稍微有点复杂的pdf表格,该如何读取
说是复杂,其实他就是没有明确的表格 只用空格来区隔
所以导致我用tabula时候会某A栏的资料跑到隔壁栏去
先谢谢愿意看到这边了解我问题的版友们
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 61.228.220.91 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1605683838.A.9B2.html
1F:→ AndCycle: pip install UnicodeDecodeError #304 11/18 16:30
2F:→ AndCycle: pdfplumber 的 bug, 才刚修 11/18 16:31
我刚有看了一下你说的那篇,他看起来5天前修好这个
但我今天安装时候还是有问题..
还是我应该退到3.7去安装才行?
※ 编辑: jasonhsu14 (220.135.101.201 台湾), 11/18/2020 19:46:30
3F:→ noworneverev: 我Python是3.7.4 pdfplumber是0.5.21装的时候没有问 11/18 21:14
4F:→ noworneverev: 题 之前要转表格写了个小工具可以给你参考 11/18 21:16
先谢谢楼上两位回答
我Python3.8.3,後来改安装0.5.21的版本是OK的
至於最新版的....我还是会出现UnicodeError错误QQ
※ 编辑: jasonhsu14 (61.228.220.91 台湾), 11/19/2020 09:06:09
7F:→ annheilong: 下载後修改 setup.py 再用 pip 安装 11/19 17:47
8F:推 froce: 嗯...以前我会叫你去改安装源码,现在我会叫你用docker或是 11/21 15:16
9F:→ froce: wsl2 11/21 15:16
10F:→ froce: 然後win10 20H1以上应该在语言选项有一个使用unicode的beta 11/21 15:18
11F:→ froce: 功能可以试试 11/21 15:18
12F:推 x246libra: cp950噩梦啊,让我转linux的关键 11/29 09:12
13F:→ x246libra: 非常烦的编码问题,但没有简单肯定解法,浪费时间解这 11/29 09:15
14F:→ x246libra: 种问题,会很不爽,而且不同套件,可能都会遇到一次 11/29 09:15