Pythonを使った新旧比較ツールを作成しました。2つのテキストを貼り付けて実行すると2つのテキストを比較し新旧対照表を表示します。
比較結果のCSVファイル、ワードファイルへの出力も可能になりました。
新旧比較ツール
このページより高機能なツールをこちらのページで公開しました。(2023/05/24)
⇒テキスト新旧比較表ツールv2
⇒テキスト新旧比較表ツールv3
主な変更はこちら。
比較ツールの説明
- 比較可能な文字数は500文字程度に制限しています。(スペースや改行も文字数にカウントされるので実際には500文字より少ない文字数でカットされます。)
- 改行と「。」で文章を区切り、変更前と変更後で似た文章は変更されたと判断し、あまり似ていない文章は、削除と追加として比較します。
- 似ているかどうかの閾値は高い、低いで選べます。(数値での入力は工事中です。)
- くれぐれも個人情報や会社の秘匿情報では実行しないようにしてください。
- 日本語は単語単位で比較します。
- 自分のWindowsPCのChromeとIphoneのSafariでは動きましたが他では動くかどうか分かりません。
比較ツール
変更後
変更前
同一の文章とみなす類似性の閾値
・500文字以上はカットされます。(上限はスペースや改行などでバラつきがあります。)
・個人情報や秘匿情報が含まれるテキストで実行しないでください。
・閾値が低い場合は文章の修正と判断されることが多く、高い場合は削除、挿入と判断されることが多くなります。
新 | 旧 |
---|---|
新しい文章 | 古い文章 |
今後やりたいこと(やったこと)
コピペしながら試行錯誤でなんとか使えそうなものができました。
実行ボタンを押せば、Flaskで作ったAPIにリクエストを投げて、実行結果を受け取って表示させています。
今後はもうちょっと機能を増やしたいなと思ってます。
- 区切りを句点やピリオド、条文番号など選べるようにする。
⇒テキスト新旧比較表ツールv2で実現しました。 - 単語単位ではなく文字単位で比較できるようにしたい。
⇒テキスト新旧比較表ツールv2で実現しました。 - PDFからコピーしたときに改行が入るので削除して比較したい。
⇒テキスト新旧比較表ツールv2で実現しました。 - 同じ文章かどうかを判定する閾値を自由設定できるようにする。
- 実行結果をCSVとしてダウンロードできるようにする。
⇒テキスト新旧比較表ツールv3で実現しました。 - 実行結果をWordとしてダウンロードできるようにする。
⇒テキスト新旧比較表ツールv3で実現しました。
コメント