home changes contents help options

047:文字列を単語に分ける

単語が空白文字で区切られていると定義するならば、splitメソッドで簡単に実現できます。

単語は任意の英数文字および下線すなわち [a-zA-Z0-9_]?と定義するなら正規表現を使います。

 import re
 a='This is a pen. Hello, world'
 print a.split()
 m=re.findall ('(\w+)',a)
 print m

 ['This', 'is', 'a', 'pen.', 'Hello,', 'world']
 ['This', 'is', 'a', 'pen', 'Hello', 'world']