Sadedegel Nedir?

Haber metinleri veya haber içerikli makaleleri, makine öğrenmesi tabanlı algoritmalar ile özetlemek için geliştirilmiş açık kaynak kodlu bir kütüphanedir. Bu kütüphaneye ek olarak geliştirilmiş haber metni özetleyici Chrome tarayıcı eklentisi ve veri toplama/etiketleme araçları ile birlikte, hem Türkçe Doğal Dil İşleme ile uğraşanlar için, hem de son kullanıcılar için faydalı olmayı hedeflemiştir.

Sadedegel Açık Kaynak Hackathon Programı 2020 kapsamında geliştirilmektedir.



Sadedegel şu özelliklere sahiptir:

  • Basit ve Gelişmiş Verisetleri
  • Cümlelere ayırmak için tokenizer
  • Basit özetleyiciler: First Important Summarizer, Band Summarizer, Random Summarizer gibi.
  • Gelişmiş Özetleyiciler: ROUGE1 Summarizer, Cluster Summarizer, Supervised Summarizer
  • Chrome Tarayıcı Eklentisi
  • Veri Toplama Aracı
  • Veri Etiketleme Aracı

Daha fazla bilgi için sunumumuza göz atabilirsiniz:

Sadedegel‘de Kullanılan Mimari

Haber metinlerindeki cümleler BERT modelden geçirilerek elde edilen embeddingler birden fazla kümeleme tekniği (clustering) kullanılarak öbeklenir ve öbekleri (clusteri) en iyi (distance metric) ifade ettiği düşünülen cümleler özet olarak verilir.

Sadedegel Nasıl Kullanılır?

Kurulum

  • İşletim Sistemi: macOS / OS X · Linux · Windows (Cygwin, MinGW, Visual Studio)
  • Python: 3.6+ versiyonu (sadece 64bit)
  • Paket Yöneticisi: pip
$ pip install sadedegel


Nasıl Kullanılır?


Kurulum yapıldıktan sonra sadedegel.load() ile kullanabilirsiniz.

                        import sadedegel
from sadedegel.dataset import load_sentence_corpus, load_raw_corpus
nlp = sadedegel.load()
tokenized = load_sentence_corpus()
raw = load_raw_corpus()
summary = nlp(raw[0])
summary = nlp(tokenized[0], sentence_tokenizer=False)

Sadedegel Chrome Eklentisi

Sadedegel Chrome eklentisi SadedeGel kütüphanesinin son kullanıcılar tarafından da kullanılabilmesi için geliştirilmiştir. Eklentiyi kurduktan sonra desteklenen haber sitelerinin yazarlar sayfasından açacağınız herhangi bir haberi özetleyebilirsiniz.

Eklenti nasıl çalışır?

Haberin içeriğini alarak istatiksel bilgiler elde eder. Elde edilen bu verilerden haber özelinde dinamik olarak özet uzunluklarını belirler.

Özetleme servisini çağırır ve kullanıcıya haber özetini gösterir.

Desteklenen Haber Siteleri

Kurulum

Kolay kurulum için lütfen Chrome Mağazasını ziyaret ediniz.

Eklentiyi Chrome geliştirici modunda kurmak ya da katkıda bulunmak için Github sayfasındaki adımları takip edebilirsiniz.

Sadedegel Veri Toplama Aracı

Sadedegel kütüphanesinin Türkçe haber metni ihtiyacını karşılayabilmek için açık kaynak jsoup kütüphanesi kullanılarak Scala dili ile geliştirilmiş bir uygulamadır.

Nasıl çalışır?

Haber sitesi için verilen yazarlar listesini kullanır. Sayfalama yaparak yazarın yazılarını haber başlığı dosya ismi olacak şekilde .txt uzantılı bir dosyaya kaydeder.

Kurulum

Uygulamayı paketleyebilmeniz için sbt bilgisayarınızda kurulu olmalıdır.

Detaylı kurulum adımları için Github sayfasını ziyaret edebilirsiniz.

Sadedegel Veri Etiketleme Aracı

Sadedegel projesi kapsamında geliştirdiğimiz veri etiketleme aracını kullanarak, extraction based özetleme tekniği ile özetlenmiş veri setlerini hızlıca oluşturabilir ve makine öğrenmesi projelerinizde kullanabilirsiniz.

Electronjs tabanlı, cross-platform ve açık kaynak kodlu bir uygulamadır. Detaylara Github üzerinden ulaşabilirsiniz.


Etiketleme Algoritması

Sadedegel Veri Etiketleme aracı, her turda metnin anlamına en az katkı sağlayan cümlelerin elenmesi ile ilerler. Metin en kısa haline ulaşana kadar bu işlem devam eder. Cümlelerin hangi turda elendiği bilgisi, cümlenin metin içindeki önemini gösteren bir etiket oluşturur.


Kurulum

$ git clone https://github.com/GlobalMaksimum/sadedegel-annotator.git
$ cd sadedegel-annotator
$ npm install sadedegel

Başlangıç

$ npm start     

Biz Kimiz?

Dorukhan Afacan
Dorukhan Afacan

Data Scientist - Global Maksimum Data and Information Technologies
Academic Background: Mechatronics, Biomedical Robotics.
Currently: Applied ML

Askar Bozcan
Askar Bozcan

Apprentice Data Scientist at Global Maksimum Data & Information Technologies

Murat Çakır
Murat Çakır

Data Engineer at Global Maksimum Data & Information Technologies

Hüsnü Şensoy
Hüsnü Şensoy

Experienced Owner with a demonstrated history of working in the computer software industry. Skilled in Performance Tuning, Oracle Database, Data Migration, Extract, Transform, Load (ETL), and Databases. Strong entrepreneurship professional with a BSc focused in Computer Science from Bosphorus University.