作者Ivudaisuki (イヴ大好き)
看板Python
标题[问题] 日文浊音问题
时间Wed Jul 21 19:07:45 2021
小弟是个刚接触python不到一周的新手
前天心血来潮
我试着找网路上的影片写了一个爬虫程式
我想设计一个比较字串的程式来确认档案有没有重复下载
但当我用os.chdir()指令为资料夹的档案建立一个list後
只要出现日文浊音都会变成两个编码
例如「が」在网页上会是一个单字
但资料夹档案的list却会是「か」和「、、」
而在比较的时候就会把两个字串视为不同
例如「パンが好き」就会因为「パ」跟「が」
导致电脑判断错误
网路爬文都没有找到相关的问题
只知道好像是不同系统对於浊音的处理方式不同
但编码又都是utf-8
请问有办法把分开的浊音转换成一个字吗?
谢谢
-----
Sent from JPTT on my iPad
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 220.133.43.250 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1626865667.A.7D7.html
1F:推 Sylph: 半角的问题吧 07/21 23:13
2F:推 ckc1ark: 可以参考 unicodedata.normalize('NFC', ...) 07/22 00:38
谢谢!我明天试试看
※ 编辑: Ivudaisuki (220.133.43.250 台湾), 07/22/2021 00:50:28
3F:推 wangfake: 有 07/26 14:22
4F:推 tonyscat: 推 07/30 18:15