作者pp61022 (fight)
看板R_Language
标题[问题] 中英文分割成两变数
时间Fri Jul 21 13:32:26 2017
[问题类型]:
程式谘询(我想用R 做某件事情,但是我不知道要怎麽用R 写出来)
[软体熟悉度]:
使用者(已经有用R 做过不少作品)
[问题叙述]:
我有一个变数是字串,里面同时包含中文英文,但没有任何分隔符号。
例如:
[1] "剑桥大学University of Cambridge"
[2] "皇家理工学院(帝国理工学院)Imperial College London"
[3] "加州大学洛杉矶分校University of California-Los Angeles"
[4] "Melbourne University"
......
......
我想把这个变数拆成两个变数
"学校中译", "学校英名"
如:
[1] "剑桥大学", "University of Cambridge"
[2] "皇家理工学院(帝国理工学院)", "Imperial College London"
[3] "加州大学洛杉矶分校" , "University of California-Los Angeles"
[4] NA, "Melbourne University"
...
...
这变数有一部分含中译,一部分只有英文,
因为他中文字长度不一样,没办法直接取个数分割,
不过有中译结尾都是"学院", "大学", "分校"(但并非整个字串的结尾)
刚接触文字清理,对全部函数还没办法通透运用,有搜寻一阵子但都无法达成想要的结果
,想请教版友有没有好方法可以将中英文完整分割成两个变项,谢谢版友。
或是没办法中英文分割,能否只留下英文,之後我再自己串中英文对照,谢谢版友。
[程式范例]:
[环境叙述]:
请提供 sessionInfo() 的输出结果,
里面含有所有你使用的作业系统、R 的版本和套件版本资讯,
让版友更容易找出错误
[关键字]:
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 114.136.2.156
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1500615148.A.A2E.html
1F:推 cccc12345: your_string <- "剑桥大学University of Cambridge" 07/21 14:12
2F:→ cccc12345: chinese <-strsplit(your_string ,"[a-zA-Z]")[[1]][1] 07/21 14:12
3F:→ cccc12345: english<-sub(chinese,replacement="",your_string) 07/21 14:12
4F:→ cccc12345: 字串切割基本上除了中文就看Regular Expressions 07/21 14:15
5F:→ pp61022: 谢谢您的提醒!我再把Regular expression多摸熟 07/21 18:09