Lazy Diary @ Hatena Blog

PowerShell / Java / miscellaneous things about software development, Tips & Gochas. CC BY-SA 4.0/Apache License 2.0

参議院サイトの議員名簿と衆議院サイトの議員名簿の違い

スクレイピングするときにつらい……

# 違い 参議院 衆議院
1 ページのまとめかた 全議員名が1ページにまとまっている 50音順にページが分かれている
2 通称名の記載 通称名を使っている場合、通称名と本名がそれぞれ書いてある 通称名か本名かの区別なく書いてある
3 姓名の分かち書き 姓と名のあいだにかならずスペースがある 姓と名のあいだにスペースがある人とない人がいる
4 「君」づけの有無 氏名の最後に「君」をつけていない 氏名の最後に「君」をつけている
5 正字の示しかた 記載字と正字が違う場合「<正字>」のようなリンクがある 別ページのみに記載され、リンクなし
6 会派に属さない議員の書き方 「無所属」と書かれる 「無」と書かれる
7 小選挙区の書き方 ブロックがないので「神奈川」のように書かれる ブロックごとに「第◯区」があるので「神奈川1」のように書かれる
8 比例当選の書き方 ブロックがないので「比例」だけ 「(比)北関東」のようにブロック名がある