Lazy Diary @ Hatena Blog

PowerShell / Java / miscellaneous things about software development, Tips & Gochas. CC BY-SA 4.0/Apache License 2.0

姓名の分割が行える形態素解析器

前提

姓・名にJIS第1・第2水準外の文字が含まれている日本人はどれくらいの割合でいるか?を調べるときのサンプルとして、国会議員名簿が都合がいい(PCで表示できない文字はその旨書いておいてくれているから)。

問題

姓名が区切りなしで書かれている場合、機械的に処理しようとしたときにどこまでが姓でどこまでが名かわからない。

疑問