matarilloの雑記

GitHubに公開したソフトウェアなどについて書きます。

C#で書いたHTMLパーサー dcsoup を.NET Standard対応させました

ほぼタイトルオンリーですが、dcsoup 1.0.0をリリースしました。

github/dcsoup

nuget/dcsoup

.NET Standard 1.3対応済みです。

とはいえ、dcsoupを使うぐらいならAngleSharpを使うのがおすすめです……

Language Server Protocolのサーバー側ライブラリを書きました

.NETの話です。タイトルには書かずに本文の一番上に書きました。

Language Server Protocolについての説明はatsushienoさんの記事1vvakameさんのセッションスライドを読んでもらうことにして、ここでは省略します。

language serverとは、IDEが必要とするプログラムのプロジェクト ソースを解析して情報を提供する機能を、サービスとして実現するものです。

ほんとに作りたいのはNemerleの言語サービスなんですが、そこに行く前に準備として.NETのライブラリをでっち上げました。

https://github.com/matarillo/LanguageServerProtocol

Nugetにも登録しました。 https://www.nuget.org/packages/LanguageServerProtocol/

使い方

Microsoftが公開している、nodeによる実装サンプル https://github.com/Microsoft/vscode-languageserver-node-example をフォークして、 サーバー側を拙作LanguageServerProtocolに置き換えたもの https://github.com/matarillo/vscode-languageserver-csharp-example を見たほうがいいと思います。

概要だけ書くとこんな感じです。

  • LanguageServer.ServiceConnectionクラスを継承したクラスを作ります。
  • クライアント(≒エディタやIDE)からサーバーに送られてくるメッセージを処理するには、virtualメソッドをオーバーライドします。
  • サーバーからクライアントにメッセージを送るには、ServiceConnection.Proxyプロパティからたどることができる各種メソッドを呼び出します。
  • クライアントからの通信を待ち受けるには、ServiceConnection.Listen()メソッドを呼び出します。

  1. https://atsushieno.github.io/exqiita/2016/08/19/ にもありますが、本文には一応Qiitaの方を載せました。

ProtocolReaderというクラスを作りました

.NETの話です。タイトルに書かずに、本文の一番上に書きました。

通信プロトコルの実装みたいなのを自分で書くこと、たまにはありますよね。常にHTTPなりgRPCなりを使うわけではないのですから。

で、そういうプロトコル、テキストとバイナリが混じってたりするじゃないですか。

HTTPで画像をGETするときを例にすると、ヘッダー部はASCIIテキスト(\r\n区切り)で、その中にボディ部のサイズが含まれてて、ボディ部はバイナリ、って感じですよね。

f:id:matarillo:20170610032839p:plain

こういうのを自分で書くときに、BinaryReaderが使えそうかなと思うわけですが、区切り文字を探すときにちまちま1バイトずつ読むの、面倒じゃないですか。

かと言って、TextReaderみたいなクラスを使ってしまうと、これが内部でバッファリングしてたりとかするので、元のストリームからはボディ部のバイナリを読めなかったりするわけじゃないですか。

あと、プロトコルを理解せずにうかつに多くのバイトを読み取ろうとすると、データが送られてきてないので待つことになったりするじゃないですか。

そういうのが面倒なのでひとつクラスを書きました。Matarillo.IO.ProtocolReaderクラスです。

https://github.com/matarillo/ProtocolReader

Nugetにも登録してありますが、実体はクラス1個だけなので、ソースだけ流用して適当に使ってもらって構いません。(MITライセンスにしてあります。)

使い方

public async Task<byte[]> ReadToSeparatorAsync(byte[] separator)

separatorで指定したセパレーターが現れるまで現在のストリームを読み進め、セパレーター直前までのバイト列を非同期的に返します。 イメージはTextReader.ReadLineAsyncメソッドです。なのでセパレーターとして\r\nを渡したとき、返されるバイト列には\r\nは含みません。

public async Task<byte[]> ReadBytesAsync(int count)

countで指定した長さまで現在のストリームを読み進め、count長のバイト列を非同期的に返します。 イメージはBinaryReader.ReadBytesの非同期版です。

どちらのメソッドも、ストリームが閉じてしまった場合はそこまでのバイト列しか返しませんので、その点は注意です。

C# (ASP.NET Core) でもisuconやってみたい

えーと今日はもう12/28ですが、この記事は .NET Core Advent Calendar 2016の10日目の記事 兼 ASP.NET Advent Calendar 2016 の17日目の記事だということにさせてください。。。

isuconというのは「いい感じにスピードアップコンテスト」の略です。公式ブログによれば

ISUCONとは

お題となるWebサービスを決められたレギュレーションの中で限界まで高速化を図るチューニングバトル、それがISUCONです。過去の実績も所属している会社も全く関係ない、結果が全てのガチンコバトルです。

というものです。雑に捕捉すると、既定の時間内に、与えられたサーバー、ミドルウェア、アプリケーションをチューニングして、時には(レギュレーションの範囲内で)全とっかえして、ベンチマークのスコアを上げるという大会です。

アプリケーションは運営側が参考実装したものが提示されます。直近の大会(isucon6)のオンライン予選では、Perl/Ruby/Python/PHP/Node.js/Go/Scalaでの実装が提示されていましたが、実際に参加したチームを見るとC++やJavaで再実装したチームがあったりするわけです。

まあそんな感じで楽しそうなので、.NET Coreで参加できないかなーなんて思ったりするわけです。

過去問はgithubで公開されている上、matsuuさんがいろんな環境用にportしています。とりあえず今回はisucon4の予選問題でちょっと試してみました……が、なかなか時間がかかりました。

matsuuさんが作成されたAnsible Playbookをベースにしたのですが、こちらはCentOS6ベース。ところが.NET CoreはCentOS7.1以降をサポートとあります。「と言ってもCentOS6でビルドすれば動くんじゃ?」と思って試してみたら、まあそんな簡単なものではなく。結局あきらめてCentOS7ベースにしました*1。その際に、ちょっとうまく動かなかったところがあったので、フォークして雑に上書きしました

インストールには CentOS 7 Minimal ISOを使いました。

rootでログインして、以下、雑に上書きした https://github.com/matarillo/ansible-isucon を動かします。

$ yum install -y epel-release git
$ yum install -y ansible
$ git clone https://github.com/matarillo/ansible-isucon.git
$ cd ansible-isucon/isucon4-qualifier
$ ansible-playbook -i local playbook.yml

もし、途中の 02_supervisord.yml あたりで Could not find the requested service "'supervisord'": といったエラーが出てたら、systemctl daemon-reloadを実行した上で、ansible-playbookを再実行してみてください。(追記: ansible側を修正して対応しました。)

さて、このAnsible Playbookを動かすと、isucon4の公式リポジトリをフォークして雑にASP.NET MVC Coreアプリケーションを追加した https://github.com/matarillo/isucon4 が組み込まれます……が、まだ中途半端な出来です。

  • .NET Core SDK 1.0 Preview 4 build 004233 を手で入れてください (追記: ansible側を修正して対応しました。)
  • .NET Coreアプリケーションを手で起動してください

前者はもう単純に手抜きです。時間があったら対応したいです。(追記: ansible側を修正して対応しました。)後者は、公式の仕組み (supervisord) でサービス化しようとしたのですが、残念ながら500エラーが解消できませんでした。こちらも対応したいですが、正式版リリースとどっちが早いかな…

ともあれ、.NET Coreアプリケーションを動かすには、ISUCON4 予選当日マニュアル を参考に、

  • supervisord を止める
  • /etc/supervisord.conf を修正して、すべてのアプリケーションautostart=false にする
  • supervisord を再開する

とした後*2

$ cd webapp/csharp
$ dotnet restore
$ dotnet run

でアプリケーションを動かします。

動いたかどうかはブラウザからポート80*3にアクセスするのが一番いいのですが、CentOS 7の初期状態ではファイヤーウォールがポート80をブロックしているはずなので、『CentOS7のfirewalldをまじめに使うはじめの一歩(systemdも少し)』 などを参考にポートを開けましょう。

さて、この状態で動いているアプリケーションですが、公式の参考実装を移植した体になっているので、チューニングは一切されていません。

https://github.com/matarillo/isucon4/tree/master/qualifier/webapp/csharp

  • Controllers
    • HomeController.cs ... Index, Login, MyPage, Reportの4つのアクションを実装。ロジック自体は Logicクラスに移譲
  • Infrastructure
    • IDbFactory.cs ... DbConnectionのファクトリーインターフェース
    • MySqlDbFactory.cs ... MySql.Data に依存した実装
  • Models
    • Logic.cs ... アプリケーションロジックの本体。データベースアクセスはDapperを利用。
    • LoginLog.cs ... login_log テーブルの行に対応するクラス
    • Threshold.cs ... 環境変数で与えられる「ユーザーがロックされるログイン失敗回数」「IPアドレスがBANされるログイン失敗回数」に対応するクラス
    • User.cs ... users テーブルの行に対応するクラス
  • Views
    • Home ... Index, MyPageのcshtmlテンプレート
    • Shared ... テンプレートの共通レイアウト
  • Program.cs ... アプリケーションサーバー設定(png/cssの位置指定、ポート8080の利用)
  • Startup.cs ... ASP.MVC Coreのルーティング、DIの設定など

私の環境でベンチマークを動かしてみたら、こんな感じでした。

csharp

Pythonの参考実装だとこんな感じ。

python

ほぼ差がありません。

アプリケーションに手を入れるとしたら、データアクセスが中心でしょうね。

*1:6と7ではいろんなところの仕組みが違うのですが、無視しました

*2:もしアプリケーションのプロセスがまだ生きていたら killやpkillで強制終了させる

*3:リバースプロキシとしてnginxが動いている

シンタックスハイライトにF#やPowerShellが追加されたらしい

はてなブログ開発ブログでの公式発表はまだだけど、 お題「シンタックス・ハイライト機能で対応してほしい言語」 の結果ということらしい。

実験した感じだと、PowerShellについては ps1 で、F#なら fsharp を指定すればいいみたい。

ps1

param([switch]$WhatIf = $false)

if($PSVersionTable.PSVersion.Major -lt 2) {
    Write-Warning "posh-git requires PowerShell 2.0 or better; you have version $($Host.Version)."
    return
}

if(!(Test-Path $PROFILE)) {
    Write-Host "Creating PowerShell profile...`n$PROFILE"
    New-Item $PROFILE -Force -Type File -ErrorAction Stop -WhatIf:$WhatIf > $null
}

if(!(Get-Command git -ErrorAction SilentlyContinue)) {
    Write-Warning 'Could not find git command. Please create a git alias or add %ProgramFiles%\Git\cmd to PATH.'
    return
}

$installDir = Split-Path $MyInvocation.MyCommand.Path -Parent
if(!(. (Join-Path $installDir "CheckVersion.ps1"))) {
    return
}

# Adapted from http://www.west-wind.com/Weblog/posts/197245.aspx
function Get-FileEncoding($Path) {
    $bytes = [byte[]](Get-Content $Path -Encoding byte -ReadCount 4 -TotalCount 4)

    if(!$bytes) { return 'utf8' }

    switch -regex ('{0:x2}{1:x2}{2:x2}{3:x2}' -f $bytes[0],$bytes[1],$bytes[2],$bytes[3]) {
        '^efbbbf'   { return 'utf8' }
        '^2b2f76'   { return 'utf7' }
        '^fffe'     { return 'unicode' }
        '^feff'     { return 'bigendianunicode' }
        '^0000feff' { return 'utf32' }
        default     { return 'ascii' }
    }
}

$profileLine = ". '$installDir\profile.example.ps1'"
if(Select-String -Path $PROFILE -Pattern $profileLine -Quiet -SimpleMatch) {
    Write-Host "It seems posh-git is already installed..."
    return
}

Write-Host "Adding posh-git to profile..."
@"

# Load posh-git example profile
$profileLine

"@ | Out-File $PROFILE -Append -WhatIf:$WhatIf -Encoding (Get-FileEncoding $PROFILE)

Write-Host 'posh-git sucessfully installed!'
Write-Host 'Please reload your profile for the changes to take effect:'
Write-Host '    . $PROFILE'

fsharp

open Suave
open Suave.Http
open Suave.Http.Applicatives
open Suave.Http.Successful
open Suave.Web

let app =
  choose
    [ GET >>= choose
        [ path "/hello" >>= OK "Hello GET"
          path "/goodbye" >>= OK "Good bye GET" ]
      POST >>= choose
        [ path "/hello" >>= OK "Hello POST"
          path "/goodbye" >>= OK "Good bye POST" ] ]

startWebServer defaultConfig app

シンタックス・ハイライト機能はソーシャルコーディングで拡充したほうがよいかも

お題「シンタックス・ハイライト機能で対応してほしい言語」

正直にいえば、はてなgithubリポジトリーか何かにシンタックスハイライトのとこだけ公開してもらって、みんなでプルリクぶんなげるほうがいいと思うんだよね。

はてなの中の人が興味ない言語とか、世の中にはたくさんあるわけで。

参考までに、Qiitaは Pygmentsを 使ってる ことがはっきりしてるんで、気に入らなければコントリビュートすればいいんだよね。

まあ、それはそれとして、サポートを希望する言語として F# を挙げておくね。 (←そもそもキーワードリンクもされてない。Elixirのパイプライン演算子に影響を与えた言語だよ!)

指定するのはファイルタイプってなってるけど、C#cs だから、F#は fs になるのかな。 どうせなら、csharpとかfsharpでも対応されるといいのに。

ファイルタイプ cs を指定したサンプル。(C# もVer6など最新バージョンに対応するといいのにね)

public async Task<int> Hoge() {
    await Task.Delay(1000);
    return 12;
}

ファイルタイプ fs を指定したサンプル。これがハイライトされないんで、現状はしかたなく ocaml を指定してごまかしている。

open Suave
open Suave.Http
open Suave.Http.Applicatives
open Suave.Http.Successful
open Suave.Web

let app =
  choose
    [ GET >>= choose
        [ path "/hello" >>= OK "Hello GET"
          path "/goodbye" >>= OK "Good bye GET" ]
      POST >>= choose
        [ path "/hello" >>= OK "Hello POST"
          path "/goodbye" >>= OK "Good bye POST" ] ]

startWebServer defaultConfig app

できれば、はてなブログじゃなくてはてなグループの方もアップデートしてもらえると、そっちにF#のコードを載せるときにうれしいのだけど。

(追記).NET/Windows系技術者から見ると、F#もPowerShellも、まあずいぶん放置されてるという感じで、たぶんはてなの中の人にはこれらのユーザーは存在しない、少なくともほっといていいレベルと思われてると理解していますよ。 他にもBooNemerleなんてのも、Pygmentsにはあるけどはてなにはない(そもそも言語として認識されてる気がしない).NET系言語ですね。まあPygmentsにあるからといって、さすがにVisual FoxProは対応しなくていい気がしますが。

割と些末なI18N活動

こないだ2件ほどPRを出したのでそれについてメモしておきます。

StephenStrickland/GcmSharp i18N: add a support for multi-byte characters.

WebRequest.ContentLengthに文字列のLengthを設定してたので、それはSystem.Encoding.UTF8.GetByteCount()を使ってねというだけのもの。受け入れられてマージ済み。

dahlbyk/posh-git Allow to use UTF8 characters on a branch name

posh-gitでブランチ名に日本語を使うとプロンプトが化けるので、git statusコマンドを発行する前後で[Console]::OutputEncodingをutf8にしてまた戻すというダーティハック。

実はこれ、良い解決法ではぜんぜんなくて、PowerShellを操作するとすぐに日本語のところがおかしくなる。(というか、マルチバイト文字の出力がダブってしまう)

f:id:matarillo:20151006210604p:plain

上の状態でEnterを2回たたくと、下の状態になる。

f:id:matarillo:20151006210603p:plain

(Warningが出てるのは、フォントがラスターフォントのままだったからです)

ともあれPRを元に議論が開始して、よりよい解決法が見つかればという思いでPRを送ったのだけど、問題が伝わらなかったのか、今のところ放置されている。後日またPRを更新したいなと思う。